warmup 和warmup_steps 应该怎么配置?
收藏
本来train文件只有70万行的时候, 使用ernie_1_large训练 lr=3e-5可以训练好
后来train增加到了80万行, 学习率不行了 epoch到12的时候还是没收敛
我增大lr到1e-4 结果第一个epoch就0.19了, 好像是梯度爆炸了
我现在每个epoch的steps大概是3000个
大概10个左右有的epoch
那么请问, 我是不是用warmup 比较好
warmup_steps设置成3000怎么样?
求大神指导!
0
收藏
请登录后评论