首页 Paddle框架 帖子详情
关于clear_grad方法在训练中的作用
收藏
快速回复
Paddle框架 问答模型训练 817 1
关于clear_grad方法在训练中的作用
收藏
快速回复
Paddle框架 问答模型训练 817 1

dygraph.Layer的clear_gradients()方法与optimizer的clear_grad()有何区别?

奇怪的问题,在只写了optimizer.clear_grad()时,看样子不知为何训练不起来。

但加上对网络的clear_gradients()后就可以训练了。

梯度信息究竟是在哪里呢,是在图中还是在优化器呢

希望有懂哥不吝赐教,感谢

0
收藏
回复
全部评论(1)
时间顺序
UnseenMe
#2 回复于2021-08

我的理解,

  • 区别
    两都区别在于,前者只清除一个layer的,后者整体清除。
  • 在哪
    梯度信息是和参数在一起的,相当于你说的在图中吧。
  • 按道理只写optimizer.clear_grad可以训练起来才对。
0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户