好了……没人看到最好……

可以肆无忌惮地赛博拉屎了,

想起来了,导致学期前和学期后半段记忆缺失的主要原因是,大创项目的问题。因为没有实现,所以太过痛苦了以至于封闭了记忆。

我希不希望这份情绪散去?——不希望

但是现在遮羞布可以揭掉了,没有后路了,也失去了可以倾诉的对象,很不错。那么,这种情况下,如果情绪不散去,照样失去记忆,没有地方会因此受益。——对

情绪不散去,首先会耽误时间。其次,哭完再睡对身体不好,头晕。然后,我也不希望他们担心,起码不希望姐姐担心。接着我放弃了父母,所以这段时间我是自由的。然后,同学……分情况讨论,如果有,也可以理解,我也在时刻接收外界信息,并且这种是没办法控制的。如果没有那更好,是我疑神疑鬼。既然在我的主观感受里存在,但无用……只能带来消耗,那么我可以听音乐,主观忽视这些。失去记忆的话,就不痛苦了。这个,随便吧……都可以……也就是说,现在世界上没有人会理我,我可以从文字中找到精神碎片,但是……也需要时间,而且没用的样子,老实讲,我已知的就这些,那么我只会从已知的地方获取养分,大概率还是已知的。我需要随机带来的未知,拓宽涉猎面,拓宽精神。所以,在现有条件下,进行文字交流意义不大。可以替代的有,涉猎新的领域。关于如何涉猎新的领域,暂时未知……但这不是今天讨论的范畴。如果进行娱乐活动,一方面会消耗精力,另一方面牵动情绪,浪费时间,而且最终结果与明天无关。我总不能指望一群陌生人提供很有见解的帮助,或许可以,但是我要很明确我的问题才可以。

那么,理论上来说,复习深度学习是我现在的重要且紧急事项。——对

理由:明天八点考试,七点出发,还有八个半小时。时间上很紧急。

因为它有趣,我也很好奇为什么做到的。就是那种,想看电影一样,在第一眼,看到这个电影名称的时候,有一点点好奇,所以点开了这部电影,所以选了这门课。那么之后发生的事情,就是这门课带给我的魅力了。

平心而论,老师讲的非常好!通俗易懂!那么,我能不能对这部分内容有一个自己的总结和整理。就是按照我的方式,讲一场故事。这是离开这门课以后,我还可以学到的。考试只是我交给王栋老师的一封情书,为了称赞他通俗易懂的教学。

深度学习讲述了CNN,RNN,注意力机制等等的发展历程,讲了很多很有用的模型,我会选择上课并且听下去是因为……我喜欢老师,喜欢这门课,这些东西我之前听说过,自然会感到很亲切。

我听过课,我会对很多东西有印象。这说明复习的难度并不大。

我可以转换目标,单纯整理出深度学习发展流程。各个模型。各种机制。

让电脑去实现人类的功能,比如人脸识别,比如看图说字……这听起来是根本不可能的!!但是也并非……把图像表示成像素,就可以做到了?我可以提取边缘,图像分割。但是我还想象不到怎么去进行识别。有人提出用特征……

所以,深度学习是怎么发展起来的呢,请用目前的记忆概括

首先,从图像说起,图像变成像素,数字化。文字也可以变成数字,给他们对应矩阵。音频不知道……卷积神经网络和循环神经网络,还有自注意力机制,如果给我PPT我都懂……对不起o(╥﹏╥)o好叭,是时候看科普视频了。

看闪客视频以及我的一些思考:

有监督学习,有输入和输出,那么目的是找到一个具体的函数!而之后的CNN.RNN都是无监督学习了,只有输入,没有映射关系……不过说起来,训练得到的模型怎么不算一种广义的函数呢?

回归是一种猜!!!有输入有输出,然后放到坐标纸上,去猜。最小二乘法就是在xy轴的时候,找到距离最近的那个函数。那么,岭回归估计就是,维度高一点……:green_apple:有非线性关系,也就是给线性关系套一层函数,激活函数,从而可以实现对数/tan/之类的非线性关系。

神经网络:不同的输入、输出,然后套一层激活函数,然后给结果再进行线性变换,再套激活函数,,,这一层一层的,就可以表示成层,唔,我的意思是,层的来源其实很形象,图上画的一层就对应函数中的一层。这个很大很大的函数,是为了拟合任意弯曲的曲线,换言之,拟合任意实际需求。过拟合说明泛化能力差。

为了解决过拟合问题,可以增大数据量(在没有足够数据的情况下可以创造数据,比如旋转,镜像,加噪,裁剪。我靠我以为这都是一样的,我靠真是个天才,我靠果然我没有代入计算机的视角处理问题)或者引入惩罚项或者提前终止训练过程(我靠,原来是用这种方式解决的吗???)或者每次训练时随机丢弃一部分参数(防止一家独大,过于依赖某个参数)。增大数据量叫做数据增强,增加了数据的鲁棒性,也就是不会因为微小变化而产生较大误差。因为训练的时候,就把微小变化也考虑进去了啊,旋转镜像等都是微笑变化,相对于另一个图片来说。

惩罚项和提前终止训练过程都是为了让参数不那么复杂,参数w是经过损失函数训练的,往损失函数小的方向训练。那么,给损失函数加上惩罚项,也就是参数本身的绝对值L1或者参数的平方L2,参数变的特别大后,损失函数也会变大,反而抑制住参数的继续膨胀。参数越大说明某一层越复杂,会导致过拟合。

损失函数就是预测数据和真实数据的误差的函数,可以是距离,也可以是最小二乘,可以是很多表示方式……

激活函数和损失函数可以是线性回归里的概念

反向传播和前向传播构成一次训练,我的理解是反馈?

接下来是一系列问题:梯度消失,梯度爆炸,收敛速度,计算开销

和一系列解决办法:梯度裁剪,残差网络,权重初始化,归一化,动量法,RMSProp,Adam,mini-batch

CNN:全连接层:每一层都与前一层全部链接,会导致参数量过大。准确但不灵活,修改一个数,就会产生很大的变化。卷积层:卷积核是未知的,需要训练的参数。可以提取局部特征,减少计算量。池化层:没有参数,可以减少卷积层后的参数量。

表示文字的时候,可以one-hot独热编码,也可以词嵌入。RNN:循环,x1拿出一个隐藏h1,然后输出得y1,同时h1参与到x2里,输出得y2,同时也输出h2,给下一部分使用。

OK啊,也是,虽然它没讲GAN,但是还是很顺畅,很顺畅。我得趁热打铁,但是有点注意力不集中了,可恶。

刷个牙去……冥想完了,感觉还不错。