L1正则化与L2正则化
创始人
2024-06-01 09:33:31
0

1.1-范数,2-范数

  • 1-范数:||X||_1=|x|_1+|x|_2+...+|x|_n
  • 2-范数:||X||_2 = (|x|_1^2+|x|_2^2+...+|x|_n^2)^{1/2}2-范数就是通常意义下的距离

2.L1和L2正则化

我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项。现在我们还是以最熟悉的线性回顾为例子。

  • 优化目标:

min\frac{1}{N}\sum_{i=1}^{N}{(y_i-w^Tx_i)}^2

  • 加上L1正则项

min\frac{1}{N}\sum_{i=1}^{N}{(y_i-w^Tx_i)}^2+C||w||_1

  • 加上L2正则项

min\frac{1}{N}\sum_{i=1}^{N}{(y_i-w^Tx_i)}^2+C||w||_2^2

我们的目标时使损失越小越好。

那加了L1正则化和L2正则化之后,对目标函数的求解有什么作用呢?

3.L1和L2正则化作用

假设X为一个二维样本,那么要求解的参数w也是二维:

  • 原函数曲线等高线(同颜色曲线上,每一组w1,w2带入值都相同)
图1 目标函数等高线
  • 加入L1和L2正则化的函数图像
图2 加入L1和L2正则的等高线

从上面两幅图中我们可以看出:

  • 如果不加L1和L2正则化的时候,对于线性回归这种目标函数凸函数的话,我们最终的结果就是最里面的紫色的小圈圈等高线上的点。
  • 当加入L1正则化的时候,我们先画出|w1|+|w2|=F的图像,也就是一个菱形,这些曲线上的点算出来的1范数|w1|+|w2|都为F。那现在的目标不仅是原曲线算的值要小,即越来越接近中心的紫色圆圈,还要使得这个菱形越来越小(F越来越小)。那么还和原来一样的化,过中心紫色圆圈的那个菱形明显很大,因此我们要取到一个恰好的值。那么如何求值呢?
图3 带L1正则化的目标函数求解

3.1 为什么说菱形和等高线相切的时候损失最小?

以原目标函数的曲线来说,在同一条等高线上,以最外圈的红色等高线为例。我们可以看到,对于红色曲线上的每个点都可以做一个菱形,根据上图3可知,当这个菱形和某条等高线相切的时候,这个菱形最小。

证明:同一等高线上的点能够使得\frac{1}{N}\sum_{i=1}^{N}(y_i-w^Tx_i)^2值相同,但是在相切的时候C||w||小,即|w1|+|w2|小,所以能够使得\frac{1}{N}\sum_{i=1}^{N}(y_i-w^Tx_i)^2+C||w||_1更小。

那么加入L1范数得到的解,一定是某个菱形和某条原函数等高线的切点。

3.2为什么加入L1正则化的解更容易稀疏?

我们可以观察到,几乎对于很多原函数等高线,和某个菱形相交的时候容易相交在坐标轴上,即最终结果解的某个维度极其容易为0,比如上图最终解释w=(0,x),这也就是我们所说的L1更容易得到稀疏解(解向量中0比较多)的原因。

证明:假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:

J_{L1}(w)=L(w)+\lambda|w|

J_{L2}(w)=L(w)+\lambda|w|^2

假设L(w)在0处的导数为d_0,即

\frac{\partial L(w)}{\partial w}| _{w=0}=d_0

则可以推导使用L1正则和L2正则时的导数。

引入L2正则项,在0处的导数

\frac{\partial J_{L2}(w)}{\partial w}| _{w=0}=d_0+2*\lambda*w=d_0

引入L1正则项,在0处的导数

\frac{\partial J_{L1}(w)}{\partial w}| _{w=0^-}=d_0-\lambda

\frac{\partial J_{L1}(w)}{\partial w}| _{w=0^+}=d_0+\lambda

可见,引入L2正则时,代价函数在0处的导数仍然时d0,无变化。

而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λ到d0-λ,如果d0+λ和d0-λ异号,则会在0处会是一个极小值。因此,优化时,很可能优化到该极小值点上,即w=0处。

这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。

3.3 加入L2正则化的结果

当加入L2正则化的时候,分析和L1正则化是类似的,也就是说我们仅仅是从菱形变成了圆形而已,同样还是求原曲线和圆形的切点作为最终解。当然与L1范数比,我们这样求得L2范数得从图上来看,不容易交在坐标轴上,但是仍然比较靠近坐标轴。因为这也就是我们经常说得,L2范数能让解比较小(靠近0),但是比较平滑(不等于0)

综上所述,我们可以看见,加入正则化项,在最小化经验误差得情况下,可以让我们选择解更简单(趋向于0)的解

从Bayes角度来看,L1,L2正则相当于对模型参数引入先验分布

  • L1正则:模型参数服从拉普拉斯分布,对参数加入分布约束,大部分取值为0.

特征选择:稀疏性(权值稀疏)

鲁棒性:忽略异常点

  • L2正则:模型参数服从高斯分布,对参数加了分布约束,大部分取值很小。

解决过拟合

易优化和计算(权值平滑)

稳定性好

对异常点敏感:误差取平方后放大。

稳定性比较解释

L1存在ill condition(病态)问题:输入发生微小变化导致输出发生很大改变。

对L1的病态问题大概理解一下,如上图所示,用批数据训练,每次批数据都会有稍稍不同的误差曲线。L2针对这种变动,白点的移动不会太大,而L1的白点则可能跳到许多不同的地方没因为这些地方的总误差都是差不多的。侧面说明了L1解的不稳定性。

https://www.cnblogs.com/lyxLearningNotes/p/16143387.html

L1 与 L2 正则化 - 简书

相关内容

热门资讯

演出节目串词2文 演出节目串词2文(男)尊敬的领导、老师、亲爱的同学们。 (合)大家好。 (女)当鲜红的太阳跃上地平线...
庆祝百岁老人生日的致辞 庆祝百岁老人生日的致辞范文(精选5篇)  在生活、工作和学习中,大家总免不了要接触或使用致辞吧,致辞...
《夏有乔木雅望天堂》的经典台... 《夏有乔木雅望天堂》的经典台词  《夏有乔木雅望天堂》经典台词一  1. 一个等了,却等得太早,一个...
中秋节的主持词 中秋节的主持词  主持人在台上表演的灵魂就表现在主持词中。在当下的中国社会,很多场合都需要主持人活跃...
无间道台词 无间道台词  说好了三年,三年之后又三年,三年之后又三年,都快十年了,老大!  出来跑,迟早要还的。...
六十岁生日宴会致辞 六十岁生日宴会致辞(通用10篇)  在学习、工作或生活中,要用到致辞的情况还是蛮多的,致辞讲求条理性...
终极三国的经典台词 终极三国的经典台词  1.如此如此,这般这般~  2.我姓刘名备,字玄德,是中山靖王的儿子,因为家道...
团代会主持词 团代会主持词  利用在中国拥有几千年文化的诗词能够有效提高主持词的感染力。现今社会在不断向前发展,主...
《剑雨》经典台词盘点 《剑雨》经典台词盘点  1、生未必乐,死未必苦。  2、未来已成现在,现在已成过去,随心而去。  3...
幼儿园园长开园致辞 幼儿园园长开园致辞  在日常学习、工作和生活中,大家都不可避免地会接触到致辞吧,致辞是指在仪式上所讲...
辩论赛主持人主持词开场白 辩论赛主持人主持词开场白  辩论赛怎么能没有我们主持人呢?下面是小编搜集整理的辩论赛主持人主持词开场...
李白凤求凰特殊台词 李白凤求凰特殊台词  在王者荣耀中每个英雄人物都有台词,那么李白凤求凰特殊台词是什么呢?以下是小编整...
学生读书交流会主持词 学生读书交流会主持词  主持词要把握好吸引观众、导入主题、创设情境等环节以吸引观众。在当下的中国社会...
晚会的闭幕词 晚会的闭幕词(精选16篇)  主持词是主持活动的必备稿子,是活跃气氛,引导活动进行的存在,下面是小编...
阿甘正传电影经典台词 阿甘正传电影经典台词大全  《阿甘正传》给我们展现了一个虽然智商只有75,却是忠诚、守信、执着、友善...
致青春经典台词 致青春经典台词  1、青春是有限的,不能在犹豫和观望中度过。  2、很多东西就像气球一样,看上去很美...
追悼会主持词 追悼会主持词  什么是追悼会  追悼会,为悼念死者而召开的会议。有些在死者遗体所在地举行,有些在殡仪...
幼儿园大班新年联欢会主持词   主持人:左XX  开场:  左:亲爱的老师、同学们:  合:大家好!  彭:20XX年马上就要过...
新春的主持稿 新春的主持稿  在日常生活和工作中,需要使用主持稿的情况越来越多,主持稿是主持人在会议或是节目当中串...
五四青年节的致辞 五四青年节的致辞(通用20篇)  在平日的学习、工作和生活里,大家总少不了要接触或使用致辞吧,致辞是...