关于clear_grad方法在训练中的作用

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

zqz2002 发布于2021-08

dygraph.Layer的clear_gradients()方法与optimizer的clear_grad()有何区别？

奇怪的问题，在只写了optimizer.clear_grad()时，看样子不知为何训练不起来。

但加上对网络的clear_gradients()后就可以训练了。

梯度信息究竟是在哪里呢，是在图中还是在优化器呢

希望有懂哥不吝赐教，感谢

0

收藏

回复

全部评论(1)

UnseenMe

#2 回复于2021-08

我的理解，

区别
两都区别在于，前者只清除一个layer的，后者整体清除。
在哪
梯度信息是和参数在一起的，相当于你说的在图中吧。
按道理只写optimizer.clear_grad可以训练起来才对。

0

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~