用什么方法解决梯度爆炸/梯度消失?
1使用 ReLU、LReLU、ELU、maxout 等激活函数
sigmoid函数的梯度随着x的增大或减小和消失,而ReLU不会。
2使用批规范化
通过规范化操作将输出信号xx规范化到均值为0,方差为1保证网络的稳定性.从上述分析分可以看到,反向传播式子中有ww的存在,所以ww的大小影响了梯度的消失和爆炸,Batch Normalization 就是通过对每一层的输出规范为均值和方差一致的方法,消除了ww带来的放大缩小的影响,进而解决梯度消失和爆炸的问题。
3. 预训练+微调
4. 梯度裁剪:主要针对梯度爆炸问题,设置一个阈值,当梯度查过这个阈值之后将它限制在这个范围之内。
5. 权重正则化,L1和L2正则化。
6. 使用残差网络
7. LSTM 全称是长短期记忆网络
首次在image大赛推出的深度学习模型是哪个?
Alex net 2012年冠军,成为第一个应用深度神经网络的应用
循环神经网络的循环是指什么?
一个时序当前的状态又被输入到网络中,和下一时刻的输入一起被训练,形成了回路,称之为循环。
正则化在深度学习中含义是指什么?正则化其实是一种策略,以增大训练误差为代价来减少测试误差的所有策略我们都可以称作为正则化。
L2和L1正则化的区别
正则化的目的是限制参数过多或者过大,避免模型更加复杂
使用L1范数,可以使得参数稀疏化;让参数稀疏的好处,可以实现对特征的选择(权重为0表示对应的特征没有作用,被丢掉),也可以增强模型可解释性
使用L2范数,倾向于使参数稠密地接近于0,避免过拟合。
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
got it
总结的多了,见得提醒多了。机会会更大
great
有用,收藏了
问题是考试遇到的原题,答案是自己总结+网络资料查找
答案是你自己总结的么?