关于clear_grad方法在训练中的作用
收藏
dygraph.Layer的clear_gradients()方法与optimizer的clear_grad()有何区别?
奇怪的问题,在只写了optimizer.clear_grad()时,看样子不知为何训练不起来。
但加上对网络的clear_gradients()后就可以训练了。
梯度信息究竟是在哪里呢,是在图中还是在优化器呢
希望有懂哥不吝赐教,感谢
0
收藏
请登录后评论
我的理解,
两都区别在于,前者只清除一个layer的,后者整体清除。
梯度信息是和参数在一起的,相当于你说的在图中吧。