简介:关于三十道复习问题的记录。


卷积神经网络的应用、循环神经网络的应用

卷积神经网络的应用:

  1. 图像分类
  2. 目标定位
  3. 目标检测

循环神经网络的应用:

  1. 词嵌入

  2. 情感分类

  3. 语音识别

  4. Seq2Seq

  5. Auto-encoder

  6. 图像加字幕

  7. 音乐生成

有监督学习的概念

有监督学习就是有输入和输出,然后去找函数的过程,比如回归和分类。

分类、回归的基本概念和应用

分类比如说给猫和狗的图片分类,已经有了图片,还有标签集(猫狗鸟等),然后输入是图片,输出是标签;

回归是给输入和输出寻找最接近的函数,输出是连续的函数关系。

都是输入输出已知,不过分类的输出是离散的,回归的输出是连续的。

各种误差的概念

泛化误差是总体的误差,经验误差是在训练集数据上的误差,测试误差是在测试集数据上的误差。经验误差并不是越小越好,因为训练集的误差过小,有可能过拟合。泛化误差越小越好,这是我们终极的目标!

拟合、欠拟合、过拟合,过拟合的解决方法

拟合指的是通过不断调整参数,寻找一个误差较小的,较匹配输入输出的函数曲线。欠拟合指的是得到的函数不足以描述输入输出关系/描述输入输出关系准确性过低。过拟合指的是,得到的函数与训练集极度贴合,但是对新的数据拟合较差。

过拟合可以通过增大训练量,增大训练数据来解决。也可以通过抑制参数的增长,例如添加惩罚项,提高正则化程度;或者减少训练时间;或者在每一轮训练中随机漏掉一些参数,防止某一参数影响过大。

正则化的作用,L1/L2正则化,最小二乘模型与岭回归模型的区别

正则化是为了防止过拟合,控制模型的复杂度。在原有误差函数的基础上加上惩罚项(参数本身的函数)来抑制误差函数过小,从而导致的过拟合。L1正则化指的是,惩罚项是参数的绝对值和,乘以正则化系数;L2正则化指的是参数的平方和,乘以正则化系数。

最小二乘法就是使误差的平方和最小,岭回归相比于最小二乘法,增加了一个L2正则化系数,是改进的最小二乘模型,可以防止过拟合问题。

感知机的计算方法

感知机是一种单层的分类模型,它可以把目标分成两类(和决策差不多)。y=g(wx+b),就是在原来线性回归的基础上添加了激活函数,达到非线性的目的,从而实现分类。

各种激活函数的计算方法和特点,例如sigmoid、softmax、relu、leakyrelu

这个嘛……激活函数有很多,都是为了实现非线性。有的把所有的x映射到非负的y,比如sigmoid、softmax。sigmoid让大的更大小的更小,输出是0-1,二分类,图像像tanh倒过去;softmax输出也是0-1,不过加权平均是1 ,是归一化之后的,多分类,图像像悬崖。

有的则舍弃负数x,比如relu。

有的不舍弃负数x,但是减小负数的权重,x<0的部分变化缓慢,x>0部分变化剧烈,比如leakyrelu(我愿称之为改良版relu)

各种损失函数的计算方法和特点,例如交叉熵损失函数、L1/L2损失函数

L1/L2损失函数就是某个点和函数预测出来的点的距离的平均/距离的平方的平均。就是很简单的一种损失函数。

交叉熵损失函数是,实际的y×log预测的y+实际的错误的(1-y)×log预测的错误的,的平均。对错误预测的梯度大。

在多分类问题里,就是先来一层softmax激活函数,再来一层交叉熵损失。

这里插播softmax回归:

要分类的很多图片,我们提取他们的特征,每个输入都有一个特征向量,比如(红色的,硬的……);然后标签类似“苹果”,“葡萄”等,是独热编码。

首先是全连接层,得到的输出可能是(0.2,0.2,2),那就说明第三个标签的概率最大。但是也有可能得到负数,但是概率不能是负数,为了解决这个问题,就求e指数,然后再归一化(防止有的数过小),那么这个e指数比上e指数的和,这一层计算就是softmax函数层。

接下来是交叉熵损失层:我希望得到的y,(0,0,1)是标签(0,0,1)的概率最大,(0,1,0)是标签(0,1,0)的概率最大,(1,0,0)是标签(1,0,0)的概率最大,同时这三个概率都很接近1. 交叉熵损失函数就是,-y*logy’的总和,y’是预测值,y是实际标签。

这里有输入z,过softmax后的y扒,和输出y。

当下标一样时,y扒对z的偏导是,y扒(1-y扒);y对y扒的偏导:-y/y扒;y对z偏导:y-y扒

优化器的基本思想(SGD、SGD+Momentum、Adam等)

使损失函数min,SGD每次都随机更新梯度;第二个,考虑历次累积梯度;第三个,引入梯度的均值和方差

数据归一化方法、数据扩充方法、参数初始化方法

归一化:-均值

初始化:预训练模型/随机:1.2.3.

如何根据损失函数曲线调节学习率

学习率大,模型快,迅速跳出局部最优,但粗略

小,细化。

非极大值抑制方法的流程和作用

垃圾场

知道输入和输出的关系,通过训练建立输入-输出之间的映射关系的最优模型。

监督学习是从标记的训练数据来推断一个功能的机器学习任务,例如分类和回归。

(而无监督学习类似自学,输入数据没有标签,从数据中发现隐藏的结构……例如聚类)


  • 误差(Error):预测结果与真实值之间的差异称为误差。
  • 泛化误差(Generalization Error):就是泛化程度带来的误差,泛化误差大说明
  • 经验误差(Empirical Error):在训练集上的误差,也叫训练误差。
  • 测试误差(Test Error):在测试集上的误差,也叫测试误差。

拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。即根据特征给样本打标签。

欠拟合指的就是在训练数据上没有获得足够的学习,以至于无法捕捉到数据的基本结构,既不能在训练集上表现良好,也不能在新的数据上做出准确的预测。欠拟合通常是因为模型过于简单,没有足够的参数来学习数据的复杂性。

过拟合就是模型在训练集上学习得太好,以至于学到了训练数据中的噪声和细节,导致模型泛化能力差,即模型在新的、未见过的数据上表现不佳。

过拟合可以使用正则化控制模型复杂度。