adam优化器一般用l2正则化项么?
收藏
最近看了个帖子,说了下l2的原理和效果,提到只有sdg比较适合l2正则化项。实践上是这样么?
0
收藏
请登录后评论
要是如帖子分析的那样,l2的应用范围大打折扣了
尤其提到adam、adagrad这样有累加参数的优化器,使用l2范数正则化项还会导致性能下降