白板 | 十一的灵魂存放处

好了……没人看到最好……

可以肆无忌惮地赛博拉屎了，

想起来了，导致学期前和学期后半段记忆缺失的主要原因是，大创项目的问题。因为没有实现，所以太过痛苦了以至于封闭了记忆。

我希不希望这份情绪散去？——不希望

但是现在遮羞布可以揭掉了，没有后路了，也失去了可以倾诉的对象，很不错。那么，这种情况下，如果情绪不散去，照样失去记忆，没有地方会因此受益。——对

情绪不散去，首先会耽误时间。其次，哭完再睡对身体不好，头晕。然后，我也不希望他们担心，起码不希望姐姐担心。接着我放弃了父母，所以这段时间我是自由的。然后，同学……分情况讨论，如果有，也可以理解，我也在时刻接收外界信息，并且这种是没办法控制的。如果没有那更好，是我疑神疑鬼。既然在我的主观感受里存在，但无用……只能带来消耗，那么我可以听音乐，主观忽视这些。失去记忆的话，就不痛苦了。这个，随便吧……都可以……也就是说，现在世界上没有人会理我，我可以从文字中找到精神碎片，但是……也需要时间，而且没用的样子，老实讲，我已知的就这些，那么我只会从已知的地方获取养分，大概率还是已知的。我需要随机带来的未知，拓宽涉猎面，拓宽精神。所以，在现有条件下，进行文字交流意义不大。可以替代的有，涉猎新的领域。关于如何涉猎新的领域，暂时未知……但这不是今天讨论的范畴。如果进行娱乐活动，一方面会消耗精力，另一方面牵动情绪，浪费时间，而且最终结果与明天无关。我总不能指望一群陌生人提供很有见解的帮助，或许可以，但是我要很明确我的问题才可以。

那么，理论上来说，复习深度学习是我现在的重要且紧急事项。——对

理由：明天八点考试，七点出发，还有八个半小时。时间上很紧急。

因为它有趣，我也很好奇为什么做到的。就是那种，想看电影一样，在第一眼，看到这个电影名称的时候，有一点点好奇，所以点开了这部电影，所以选了这门课。那么之后发生的事情，就是这门课带给我的魅力了。

平心而论，老师讲的非常好！通俗易懂！那么，我能不能对这部分内容有一个自己的总结和整理。就是按照我的方式，讲一场故事。这是离开这门课以后，我还可以学到的。考试只是我交给王栋老师的一封情书，为了称赞他通俗易懂的教学。

深度学习讲述了CNN,RNN,注意力机制等等的发展历程，讲了很多很有用的模型，我会选择上课并且听下去是因为……我喜欢老师，喜欢这门课，这些东西我之前听说过，自然会感到很亲切。

我听过课，我会对很多东西有印象。这说明复习的难度并不大。

我可以转换目标，单纯整理出深度学习发展流程。各个模型。各种机制。

让电脑去实现人类的功能，比如人脸识别，比如看图说字……这听起来是根本不可能的！！但是也并非……把图像表示成像素，就可以做到了？我可以提取边缘，图像分割。但是我还想象不到怎么去进行识别。有人提出用特征……

所以，深度学习是怎么发展起来的呢，请用目前的记忆概括

首先，从图像说起，图像变成像素，数字化。文字也可以变成数字，给他们对应矩阵。音频不知道……卷积神经网络和循环神经网络，还有自注意力机制，如果给我PPT我都懂……对不起o(╥﹏╥)o好叭，是时候看科普视频了。

看闪客视频以及我的一些思考：

有监督学习，有输入和输出，那么目的是找到一个具体的函数！而之后的CNN.RNN都是无监督学习了，只有输入，没有映射关系……不过说起来，训练得到的模型怎么不算一种广义的函数呢？

回归是一种猜！！！有输入有输出，然后放到坐标纸上，去猜。最小二乘法就是在xy轴的时候，找到距离最近的那个函数。那么，岭回归估计就是，维度高一点……:green_apple:有非线性关系，也就是给线性关系套一层函数，激活函数，从而可以实现对数/tan/之类的非线性关系。

神经网络：不同的输入、输出，然后套一层激活函数，然后给结果再进行线性变换，再套激活函数，，，这一层一层的，就可以表示成层，唔，我的意思是，层的来源其实很形象，图上画的一层就对应函数中的一层。这个很大很大的函数，是为了拟合任意弯曲的曲线，换言之，拟合任意实际需求。过拟合说明泛化能力差。

为了解决过拟合问题，可以增大数据量（在没有足够数据的情况下可以创造数据，比如旋转，镜像，加噪，裁剪。我靠我以为这都是一样的，我靠真是个天才，我靠果然我没有代入计算机的视角处理问题）或者引入惩罚项或者提前终止训练过程（我靠，原来是用这种方式解决的吗？？？）或者每次训练时随机丢弃一部分参数（防止一家独大，过于依赖某个参数）。增大数据量叫做数据增强，增加了数据的鲁棒性，也就是不会因为微小变化而产生较大误差。因为训练的时候，就把微小变化也考虑进去了啊，旋转镜像等都是微笑变化，相对于另一个图片来说。

惩罚项和提前终止训练过程都是为了让参数不那么复杂，参数w是经过损失函数训练的，往损失函数小的方向训练。那么，给损失函数加上惩罚项，也就是参数本身的绝对值L1或者参数的平方L2，参数变的特别大后，损失函数也会变大，反而抑制住参数的继续膨胀。参数越大说明某一层越复杂，会导致过拟合。

损失函数就是预测数据和真实数据的误差的函数，可以是距离，也可以是最小二乘，可以是很多表示方式……

激活函数和损失函数可以是线性回归里的概念

反向传播和前向传播构成一次训练，我的理解是反馈？

接下来是一系列问题：梯度消失，梯度爆炸，收敛速度，计算开销

和一系列解决办法：梯度裁剪，残差网络，权重初始化，归一化，动量法，RMSProp,Adam，mini-batch

CNN:全连接层：每一层都与前一层全部链接，会导致参数量过大。准确但不灵活，修改一个数，就会产生很大的变化。卷积层：卷积核是未知的，需要训练的参数。可以提取局部特征，减少计算量。池化层：没有参数，可以减少卷积层后的参数量。

表示文字的时候，可以one-hot独热编码，也可以词嵌入。RNN：循环，x1拿出一个隐藏h1，然后输出得y1，同时h1参与到x2里，输出得y2，同时也输出h2，给下一部分使用。

OK啊，也是，虽然它没讲GAN，但是还是很顺畅，很顺畅。我得趁热打铁，但是有点注意力不集中了，可恶。

刷个牙去……冥想完了，感觉还不错。