关于L2正则化的问题

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

白白加黑127 发布于2020-12

请问：

1）L2 正则化是对权重进行衰减？如果在 optimizer 中设置，是对网络所有参数进行？

2）L2用于防止过拟合，在语义分割中 optimizer使用，发现虽然 loss函数效果优于之前，但miou却没有之前好？

3）请问 paddle.fluid.regularizer.L2Decay（）的参数一般都是多少？

4）请问设置的参数进行衰减是直接在参数上进行相乘吗？

全部评论(19)

白

白加黑127

#2 回复于2020-12

AIStudio810258

#3 回复于2020-12

1）L2 正则化是加在损失函数上的，对所有权重都有影响。相对来说对取值大的参数影响较大，使取值较小的权值也能被比较充分的训练。所以L2正则化也被成为权重衰减。

AIStudio810258

#4 回复于2020-12

2）“loss函数效果优于之前”是什么意思，更小了么？如果不是的话，可能是l2的系数设得过大使模型欠拟合

AIStudio810258

#5 回复于2020-12

3）这个因项目而异吧，觉得跟是否使用BN、学习率大小等因素有关，一般不会设得太大，0.001～0.003见过

AIStudio810258

#6 回复于2020-12

4）是的，就是那个“权重平方”的放大系数

白

白加黑127

#7 回复于2020-12

AIStudio810258 #4

2）“loss函数效果优于之前”是什么意思，更小了么？如果不是的话，可能是l2的系数设得过大使模型欠拟合

是的比之前更小了，之前达不到了，加完 L2 后可以达到了（比如之前loss 1.1左右，加完l2 可以达到0.9）。但是不知为什么 miou 变差了（比如之前是0.6，加完l2之后也就0.5，而且没有上升的趋势）。

并且加完 l2 之后，每训练一定轮数后（比如50轮）loss 会忽然增加，（比如loss忽然从1.2上升到2.5，然后从2.5继续训练），可以用震荡一词形容，似乎还是周期性的，不知是什么原因。

白

白加黑127

#8 回复于2020-12

白加黑127 #7

是的比之前更小了，之前达不到了，加完 L2 后可以达到了（比如之前loss 1.1左右，加完l2 可以达到0.9）。但是不知为什么 miou 变差了（比如之前是0.6，加完l2之后也就0.5，而且没有上升的趋势）。并且加完 l2 之后，每训练一定轮数后（比如50轮）loss 会忽然增加，（比如loss忽然从1.2上升到2.5，然后从2.5继续训练），可以用震荡一词形容，似乎还是周期性的，不知是什么原因。

展开

还请大佬见谅之前的波形图没有保存，下图为示意图，仅表示添加L2的震荡和不添加 L2 的正常 loss的变化。

AIStudio810258

#9 回复于2020-12

按说一般分割都是用的像素点的交叉熵损失。loss下降说明各个像素点的概率分布还是更接近标签的像素点的概率分本。但是，各像素点最大概率的分类错误数却上升了。

AIStudio810258

#10 回复于2020-12

逻辑上分析，感觉l2的超参设得过大了。

AIStudio810258

#11 回复于2020-12

可能，那些对分类影响最大的权重被限制得太厉害了。而那些影响比较小的权重可能只是噪声而已。

AIStudio810258

#12 回复于2020-12

设l2如果超参过大。我觉得可能产生一种情况：有用的特征的学习被限制了，而相对的放大了一些不那么重要的（噪声）特征的影响。

AIStudio810258

#13 回复于2020-12

这种情况下，loss 改善的是整体概率分布（包括有用特征和噪声），而分类正确的点由于真正有用的特征被l2限制了，反而少了。

AIStudio810258

#14 回复于2020-12

以上分析只能说是推测啊，调小l2的超参试试

AIStudio810258

#15 回复于2020-12

其实l2是抑制过拟合的，并不是一般意义的”涨点“技术，是提升模型泛化能力的。需要才用

AIStudio810258

#16 回复于2020-12

loss震荡可能是优化器引起的吧，是不用的adam之类的

AIStudio810258

#17 回复于2020-12

有些优化器为了跳出局部最优，会在一定条件下重新”激活“一下

AIStudio810258

#18 回复于2020-12

没加l2的时候，模型一直在优化，甚至在过拟合

AIStudio810258

#19 回复于2020-12

加了l2后，一些参数被抑制了，可能优化不动了，就被优化器给重新”激活“了一下

AIStudio810258

#20 回复于2020-12

如果这个原因推断正确的话，调小l2超参或学习率都会推迟”激活“的时间点。有兴趣可以验证下～～

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~