L2正则化为什么有效

无论是学过机器学习还是深度学习的同学一定知道正则化可以缓解过拟合，最常用的就是L2正则化，即在损失函数$J(\theta)$上加上参数的L2范数$\lambda||\theta||_{2}$，不过一般也不开根号了，也就是直接加$\lambda\sum\limits_{i}\theta_{i}^{2}$，$\lambda$是正则化因子，它的大小决定了你有多想让参数向0靠近。

如果被问到缓解过拟合的方法，那么L2正则化肯定是要知道的。如果继续追问为什么L2正则化有效呢？也许可以回答：因为把参数加到了损失函数里，可以在梯度下降时让参数变得更小，防止模型能够拟合特别复杂的函数。但又要问了，那为什么参数小得接近0就有效呢？仅仅是intuition所以大家都这样做也这样认为吗？事实上这是可以从概率论的角度来解释的，下面用最简单的线性回归来介绍，我们用下标$j$表示第$j$个特征，上标$\left(i\right)$表示数据集中的第$i$条数据。

高斯分布

设模型参数为$\theta$（bias包含在$\theta_{0}=b,x_{0}=1$里了），模型的hypothesis为

$\hat{y} = \theta^{T}x$

$\hat{y}$就是我们模型做出的预测，$y$是现实世界真实的标签，不过$y$是带有噪音的，真实世界的数据不可能是完美的，其中大都夹杂着噪音信号，我们假设

$y = \theta^{T}x + \epsilon$

其中$\epsilon$代表着噪音，假设它属于高斯分布$\epsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)$，即均值为0，方差为$\sigma^{2}$，这个假设其实是符合实际的，因为现实世界中我们遇到的大部分的数据或噪音的分布其实都是高斯分布，那么我们就可以得到$y$的分布了

$y=\theta^{T} x +\epsilon \Rightarrow y \sim \mathcal{N}\left(\theta^{T}x, \sigma^{2}\right)$

本科的概率论课程告诉我们正态分布$x\sim \mathcal{N}\left(\mu,\sigma^{2}\right)$的公式是

$p(x)=\frac{1}{\sqrt{2 \pi }\sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)$

极大似然估计

假设我们有一堆数据$(x^{(i)},y^{(i)}),i=1,2…,m$，频率学派认为$\theta$是客观存在的，只是我们不知道罢了，真实的$\theta$一定是最优的，能让这组数据集$S$出现的概率最大，我们要去手上已知的$S$去估计真实的$\theta$，也就要求$\theta$的极大似然估计$\hat\theta$

$\hat\theta=\underset{\theta}{\operatorname{argmax}} ~p(S|\theta)=\underset{\theta}{\operatorname{argmax}}\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)};\theta\right)$

这等价于求对数极大似然，即

$\hat\theta=\underset{\theta}{\operatorname{argmax}}\sum_{i=1}^{m}\text{log}~p\left(y^{(i)} | x^{(i)};\theta\right)$

将数据集代入上式，求导取一阶导数为0，就可以得到一个local optimal，在线性回归或logistic回归里也可以确定这就是全局唯一的optimal，即最优解。如果我们将上面的$y^{(i)} | x^{(i)};\theta \sim \mathcal{N}(\theta^{T}x^{(i)},\sigma^{2})$与正态分布公式代入，可以得到

$\begin{align} \hat\theta &= \underset{\theta}{\operatorname{argmax}}\sum_{i=1}^{m}\text{log}~\frac{1}{\sqrt{2 \pi }\sigma} \exp \left(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2 \sigma^{2}}\right) \\ &=\underset{\theta}{\operatorname{argmax}}~m\text{log}{\frac{1}{\sqrt{2\pi}\sigma}}+\sum_{i=1}^{m}-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2 \sigma^{2}}\\ &=\underset{\theta}{\operatorname{argmin}}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^{2} \end{align}$

由于我们所求的是$argmax$，即要找到能使式子最大或最小的$\theta$，所以常数项和系数都不会影响结果，因此第三步将它们略去后我们就得到了熟悉的最小均方误差，也就是线性回归中的最小二乘法！不过要注意，虽然得到的结果与最小二乘法是一致的，但出发点和理论基础都完全不一样。

从频率学派的假设出发，我们得到的是不带正则化项的线性回归，而从贝叶斯学派的角度来看，却有些不同。

极大后验概率估计

贝叶斯学派则是先给$\theta$的分布来一个假设$\theta \sim \text{some distribution}$，叫做”prior”即先验，颇有点全知全能的上帝的感觉(误，那么我们现在已经看到了数据$S$，也有了$\theta$分布的假设，就可以去求在已知当前数据情况下，$\theta$是什么的概率，并找出最可能的$\theta$，根据贝叶斯定理可得

$p(\theta|S) = \frac{p(S|\theta)p(\theta)}{p(S)}$

右式的分母是个常数，可以省去，它被称为”evidence”，左式被称为”posterior”即后验，剩下的$p(S|\theta)$是我们熟悉的”likelihood”即似然，那么接下来就是通过求最大后验概率，来获得我们想要的$\hat{\theta}$，在这里我们假设先验分布$\theta \sim \mathcal{N}\left(0, \sigma^{2}\right)$，

$\begin{align} \hat\theta = \underset{\theta}{\operatorname{argmax}}~p(\theta|S) &= \underset{\theta}{\operatorname{argmax}}~{p(S|\theta)p(\theta)} \\ &=\underset{\theta}{\operatorname{argmax}}~\text{log}~p(S|\theta) + \text{log}~p(\theta)\\ &=\underset{\theta}{\operatorname{argmax}}~\sum_{i=1}^{m}\text{log}~\frac{1}{\sqrt{2 \pi }\sigma} \exp \left(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2 \sigma^{2}}\right) + \text{log}~\frac{1}{\sqrt{2 \pi }\sigma} \exp \left(-\frac{(\theta-0)^{2}}{2 \sigma^{2}}\right)\\ &=\underset{\theta}{\operatorname{argmin}}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^{2} + \theta^{2} \end{align}$

这样我们就得到了最小均方误差+L2正则化的线性回归了！注意上式的两个分布的方差是不同的，不过由于方差无关紧要，也就没有特意区分了（其实是码公式太累不想区分了_(:з」∠)_

原来从概率论的角度来看，L2正则化其实就是假设了参数的分布属于高斯分布，再想想由于高斯分布的均值为0，自然也就解释了为什么参数都会接近0，毕竟0的概率最大。如果你给$\theta$假设不同的先验分布，比如拉普拉斯分布

$f(x)=\frac{1}{2 \lambda} e^{-\frac{|x-\mu|}{\lambda}}$

那你得到的就是L1正则化，这里就不再推导了。

结论

这样我们得到了结论，最小均方误差其实等价于极大似然估计，L2正则化+最小均方误差等价于最大后验估计。

进一步思考

可能有人会问，假设参数确实不属于高斯分布，那我这么假设岂不是从开头就错了，确实，如果参数的真实分布与我们的先验假设有很大差别，会导致模型的预测效果很差，这点在cs229的Gaussian Discriminant Analysis(GDA, 高斯判别分析)一课有讲过，当你的数据量很少时，加一个先验假设可以帮助模型更好的拟合数据，因为你给模型提供了更多信息，前提是你的假设是对的，当你的数据量很多时，先验假设就不那么重要了，因为模型可以自己去从数据中发现信息，这也就解释了为什么数据量越大，越不容易过拟合。如果数据量很小，直接使用极大似然估计，就会导致参数只适用于当前的数据集，导致过拟合，泛化能力较差。不过，就像Andrew Ng所说，这个世界大部分的数据分布都是高斯分布，大量论文实验也证明了L2正则化确实有效，所以我们基本上任何时候都可以大胆地使用L2正则化，只需要调节正则化因子$\lambda$的大小，当模型欠拟合时调小它甚至置零，过拟合时调大它，就能够很好地在high bias(欠拟合)与high variance(过拟合)之间进行trade off。

参考资料: cs229 by Andrew Ng