可能由于网络的设计问题,Loss过大(Loss为NaN)会导致梯度爆炸。
如果没有改网络结构,但是出现了NaN,可能是数据读取导致,比如标签对应关系错误。
还可以检查下网络中是否会出现除0,log0的操作等。
此外,数据没有归一化也可能会出现损失为NaN,这种情况下一般会最开始损失特别大,几个epoch之后就NaN了。
此外,数据没有归一化也可能会出现损失为NaN,这种情况下一般会最开始损失特别大,几个epoch之后就NaN了。