正则里def是什么意思（一文了解L1与L2正则的区别）

倷荷橋守護 2022-10-27 19:17:38

收藏赞分享

最近秋招很多，很多同学是面试的时候都会被问到一个问题，L1和L2正则有什么区别？为什么L1正则可以做特征选择？可以从贝叶斯理论上推导一下吗？等等。。。。下面针对这个问题谈谈自己的看法，注：文中一些公式或者图片借鉴一些博文。

1. 范数

范数是衡量某个向量空间（或矩阵）中的每个向量以长度或大小。范数的一般化定义：对实数p>=1，范数定义如下：

正则里def是什么意思（一文了解L1与L2正则的区别）(1)

范数公式定义

L0范数

当p=0时，是L0范数，其表示向量中非0的元素的个数。

L1范数

当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。

L2范数

当p=2时，是L2范数，表示某个向量中所有元素平方和再开根，也就是欧氏距离。

2.高斯分布

也就是正态分布，若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：

X∼N(μ,σ2),

则其概率密度函数为:

正则里def是什么意思（一文了解L1与L2正则的区别）(2)

高斯分布概率密度函数

其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

正则里def是什么意思（一文了解L1与L2正则的区别）(3)

3.拉普拉斯分布

如果随机变量的概率密度函数分布为:

正则里def是什么意思（一文了解L1与L2正则的区别）(4)

它就是拉普拉斯分布。其中，μ 是数学期望，b > 0 是振幅。如果 μ = 0，那么，正半部分恰好是尺度为 1/2 的指数分布。

正则里def是什么意思（一文了解L1与L2正则的区别）(5)

看上面两个分布的概率函数是不是感觉和L1、L2正则有点像？

二、正则化

正则化目的是控制模型参数的大小从而降低模型的复杂性，达到避免过拟合的问题。

从参数变化的角度：来自知乎上一种比较直观和简单的理解，模型过于复杂是因为模型尝试去兼顾各个测试数据点，导致模型函数如下图，处于一种动荡的状态，每个点的到时在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

正则里def是什么意思（一文了解L1与L2正则的区别）(6)

而加入正则能抑制系数过大的问题。如下公式，是岭回归的计算公式。

正则里def是什么意思（一文了解L1与L2正则的区别）(7)

如果发生过拟合，参数θ一般是比较大的值，加入惩罚项后，只要控制λ的大小，当λ很大时，θ1到θn就会很小，即达到了约束数值比较大的特征的目的。

从贝叶斯：从贝叶斯的角度来分析，正则化是为模型参数估计增加一个先验知识，先验知识会引导损失函数最小值过程朝着约束方向迭代。 L1正则是Laplace先验，L2是高斯先验。整个最优化问题可以看做是一个最大后验估计，其中正则化项对应后验估计中的先验信息，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计。

给定训练数据, 贝叶斯方法通过最大化后验概率估计参数θ：

正则里def是什么意思（一文了解L1与L2正则的区别）(8)

说明：P(θ)是参数向量θ的先验概率。

下面我们从最大后验估计的方式，推导下加入L1和L2惩罚项的Lasso和岭回归的公式。

首先我们看下最小二乘公式的推导（公式推导截图来着知乎大神）

正则里def是什么意思（一文了解L1与L2正则的区别）(9)

假如w参数服从高斯分布:

正则里def是什么意思（一文了解L1与L2正则的区别）(10)

用过推导可知，这就是L2正则，即是岭回归，可以理解为最大似然乘以高斯先验。

假如θ参数服从拉普拉斯分布

正则里def是什么意思（一文了解L1与L2正则的区别）(11)

这个就是Lasso计算公式。最大后验估计就是在最大似然估计公式乘以拉普拉斯先验，这里就理解前面L1正则就是加入拉普拉斯先验知识。

正则里def是什么意思（一文了解L1与L2正则的区别）(12)

这个图就说明了LI正则的原理，为什么L1可以做特征选择。L2可以平衡参数的大小。

正则里def是什么意思（一文了解L1与L2正则的区别）(13)

上式前半部分为原有的损失函数，后半部分为正则项。其中，q=1时即为L1正则化，q=2为L2正则化。

对于q取不同的值，正则化项的轮廓线如下：

正则里def是什么意思（一文了解L1与L2正则的区别）(14)

总结

1. L2 regularizer ：使得模型的解偏向于 norm 较小的 W，通过限制 W 的 norm 的大小实现了对模型空间的限制，从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力，得到的系数仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。

2. L1 regularizer ：它的优良性质是能产生稀疏性，导致 W 中许多项变成零。稀疏的解除了计算量上的好处之外，更重要的是更具有“可解释性”。

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

正则里def是什么意思（一文了解L1与L2正则的区别）

猜您喜欢

王冰冰擦窗户（王冰冰塌房了我破防了）

出自孟子的成语典故有哪些（读懂孟子的智慧）

如何答应邀约（如何让邀约见面更容易成功）

圆柱滚子轴承基本载荷（圆柱滚子轴承接触分析方法对比）

清热去火的汤做法婴儿（广东妈妈最爱煲这汤）

宫颈癌疫苗二价四价有区别吗（宫颈癌疫苗选二价还是四价）

中华成语故事大全集（中华成语故事200集）

热门推荐

排行榜