dummy

1 What

dummy
模型越简洁(抽象)泛化性越好
正则化过程就是帮助我们找到更为简洁的描述方式的量化过程.
正则化项的加入会帮助模型找到描述更为简洁的方式从而提高模型的泛化能力, 一定程度上避免过拟合.

高扬白话深度学习与TensorFlow

2 Cost

损失函数的改造 \(C = C_0 + R\)

经验损失(\(C_0\)): 模型拟合结果与标签之间的参差总和, 结果越大, 越欠拟合

结构损失(\(R\)惩罚因子): 保证模型的泛化性良好, 防止过拟合.

拟合程度好不代表泛化性能就一定好

2.1 L1正则化项

\[ \begin{align*} C &= C_0 + \dfrac{\lambda}{n}\sum_{\omega}|\omega| \\ \dfrac{\partial{C}}{\partial{\omega}} &= \dfrac{\partial{C_0}}{\partial{\omega}} + \dfrac{\lambda}{n}sign(\omega) \\ \omega' &= \omega - \eta \dfrac{\partial{C_0}}{\partial{\omega}} - \eta \dfrac{\lambda}{n}sign(\omega) \end{align*} \]

其中\(\lambda\)是正则化系数或惩罚系数,表示对这个部分(结构损失)有多"重视", 如果我们很重视结构风险,或者说很不希望结构风险太大,那我们就加大\(\lamdba\),迫使整个损失函数向着权值\(\omega\)减小的方向快速移动 .

2.2 L2正则化项

\[ \begin{align*} C &= C_0 + \dfrac{\lambda}{2n}\sum_{\omega}\omega^2 \\ \dfrac{\partial{C}}{\partial{\omega}} &= \dfrac{\partial{C_0}}{\partial{\omega}} + \dfrac{\lambda}{n}\omega \\ \omega' &= \omega - \eta \dfrac{\partial{C_0}}{\partial{\omega}} - \eta \dfrac{\lambda}{n}\omega \end{align*} \]

2.3 可视化

dummy
假设在一个模型中只有两个维度\(\omega_1\)和\(\omega_2\)作为待定系数,最终的理想解在圆心的位置,当然这里画出来的是在第一象限,但是实际上它也会出现在别的位置.由于初始化的时候\(\omega_1\)和\(\omega_2\)可能会在别的位置,当然也会在二三四象限中.在训练的过程中会逐步从这个初始化的位置向圆心靠拢.
圆心周围的一圈一圈的线其实是损失函数等高线,也就是说当\(\omega_1\)和\(\omega_2\)所组成的坐标点\((\omega_1,\omega_2)\)在这一圈上的任意位置都会产生同样大小的损失函数,而由于初始化位置不确定,所以可能会出现在一圈上的任意位置,那么显然远离坐标系圆点(0,0)的 \((\omega_1,\omega_2)\)点会产生更大的结构风险,因为其拥有更大的\(\omega_1\)和\(\omega_2\)值,更为不简洁.

高扬白话深度学习与TensorFlow

2.4 Dropout

pass

正则化