我想问一下为什么我的loss不下数据集7000张图片,应该不会有这样震荡的问题吧望大佬解答
用的什么模型?
用的yolov3优化器设置SGD 动量衰减0.0005 初始学习率1e-4 动量:0.9
参考的哪个baseline?网络用的什么呢?
loss不下降有太多种可能了,而且不一定要降到0.几才说明模型好
网络骨架是什么?
loss不下来有多种原因
1.学习率:学习率直接调小10倍试一下,如果还没下降就再除以10,如此反复。比如学习率从0.01逐步降到0.0001。直到学习率很小很小都不起用就尝试下面的方法
2.在卷积层和激活函数之间加入批量归一化Batch Normalization
3.调整图片尺寸
如果你解决的这个问题,希望分享一下是用什么方法解决的。
darknet53
我使用的是余弦退火50个epoch初始学习率是1e-4,截止学习率是1e-6我训练50epoch的时候学习率停止在1e-6
我认为1e-6已经足够小了所以我在想是不是别的问题
你设置的超微大些
跟学习率关系不大,1e6够了,不用担心局部最低点
有可能网络收敛到了一个鞍点,学习率过小,无法跳脱鞍点,建议换一种opt方式,可以先尝试warmup前期设置较大的学习率,然后缩小学习率
我觉得是这里设置太小的缘故
也可以看下数据预处理的方式
loss不收敛有很多方面吧,能康康你的搭建的模型吗
同感,可能陷入局部最优挑不出来了。
优化使用的SGD,没有动量因素,如果还没有“重激活”设置的话,这么小的学习率是有可能陷入局部最优出不来的。
我一般都是把学习率从大往小试
这么大震荡,会不会loss函数有问题?
用的什么模型?
用的yolov3优化器设置SGD 动量衰减0.0005 初始学习率1e-4 动量:0.9
参考的哪个baseline?网络用的什么呢?
loss不下降有太多种可能了,而且不一定要降到0.几才说明模型好
网络骨架是什么?
loss不下来有多种原因
1.学习率:学习率直接调小10倍试一下,如果还没下降就再除以10,如此反复。比如学习率从0.01逐步降到0.0001。直到学习率很小很小都不起用就尝试下面的方法
2.在卷积层和激活函数之间加入批量归一化Batch Normalization
3.调整图片尺寸
如果你解决的这个问题,希望分享一下是用什么方法解决的。
darknet53
我使用的是余弦退火50个epoch初始学习率是1e-4,截止学习率是1e-6我训练50epoch的时候学习率停止在1e-6
我认为1e-6已经足够小了所以我在想是不是别的问题
你设置的超微大些
跟学习率关系不大,1e6够了,不用担心局部最低点
有可能网络收敛到了一个鞍点,学习率过小,无法跳脱鞍点,建议换一种opt方式,可以先尝试warmup前期设置较大的学习率,然后缩小学习率
我觉得是这里设置太小的缘故
也可以看下数据预处理的方式
loss不收敛有很多方面吧,能康康你的搭建的模型吗
同感,可能陷入局部最优挑不出来了。
优化使用的SGD,没有动量因素,如果还没有“重激活”设置的话,这么小的学习率是有可能陷入局部最优出不来的。
我一般都是把学习率从大往小试
这么大震荡,会不会loss函数有问题?