首页 炼丹房 帖子详情
半精度训练时出现Nan
收藏
快速回复
炼丹房 问答新手上路 859 4
半精度训练时出现Nan
收藏
快速回复
炼丹房 问答新手上路 859 4

如题

首先,Loss随epoch迭代的变化图如下

根据网上的资料,我总结如下:

1)可能是数据原因。对于这种原因通常在第一个epoch就会出现Nan,而我的是训练100+epoch后出现的,所以应该不是数据原因(而且同样的代码和超参数,在2080ti上就能正常训练到300epoch完毕)

2)可能是网络设计问题。对于该问题一般会导致Loss越来越大,但是从上图可以看出Loss的变化是正常的缓慢下降,不应该是这种问题。

那么这个问题要如何去解决呢?

 

 

0
收藏
回复
全部评论(4)
时间顺序
beyondyourself
#2 回复于2022-09

建议捕获一下出现异常的地方再排查一下,一般是设计的问题更大一些

0
回复
thgpddl
#3 回复于2022-09
建议捕获一下出现异常的地方再排查一下,一般是设计的问题更大一些

查了一下,发现是某个BN层中的mean和var中含有Nan和Inf,请问这种情况要怎么去调啊?

0
回复
李长安
#4 回复于2022-10

大佬牛呀

 

0
回复
李长安
#5 回复于2023-02
thgpddl #3
查了一下,发现是某个BN层中的mean和var中含有Nan和Inf,请问这种情况要怎么去调啊?

这个情况第一次见

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户