复现的bisenet v2 语义分割网络 cityscapes数据集,训练了200轮 ,miou最高51%多,adam优化算法(lr=0.01),训练集2790张图片,loss在1.8~1.9,miou在七八十,测试集在500张,loss在3.5左右,miou最高51%,
感觉测试集的miou有点升不上去了,有点不知道咋办了?bn啥的都加了
请大佬指点下,还是我继续增加训练轮数?有点过拟合了?真是没有啥思路了
几点思路,仅供参考:
1 网络。既然是复现,可以考虑与已经开源的其他框架代码进行精度对齐。确保网络没问题。
2 参数。其他框架有开源预训练参数,能否设法导入。
3 训练。自己实在没有办法的时候,尝试联系原作,求助或者Get tricks。
楼下说的挺详细的,先去GitHub看看实现细节
感觉导入预训练模型这个会很关键
意思是说预训练模型一般因为体量不好自己训练,所以最好用训好的?
一个预训练模型通常是多卡跑上几周的,自己来得多少算力卡?而且效果还不一定好……能转过来是最好的。
嗯,提取特征的网络,大家都是用现成的了吧。
分类网络能进行扩充类别的增量训练么?现在有这种技术么?
可以吧,但是最好还是多分类——>少分类迁移学习,效果正常来说会更好。
两点:收敛快,数据少
上次有个大佬自己跑预训练模型几百小时算力没了(不是哭惨的那个)
这么说,还得是预训练模型见过的类别,迁移起来才有效果啊
要是增加类别了,是不是就相当于重新训练了。
增加类别的情况下,使用预训练模型有效果么?
这个是有感觉,用了imagenet的预训练模型,十几轮就能达到甚至单独训练根本达不到的精度
有可能这种情况么?
自己的数据类别完全被预训练模型覆盖,数据样本也不及预训练模型多。那么自己训练的模型根本就还达不到预训练模型的分类精度?
我的意思是,即使在自己的训练集上预测也是预训练模型效果更好。有这种情况吧?觉得应该会有,那么这种情况下,一定要用预训练模型。
也不是吧,就是对特征的提取能力更强了,“见多识广”嘛
其实我觉得都是相对而言,从类别少迁移到类别多效果也不至于上不去,毕竟有些特征之前已经见过了,剩下的可能更大是训练没见过的,只是说,可能同等条件下,“见多识广”的预训练模型更有优势?
有这种可能,但是实验结果都证明预训练模型在数据小的情况下收敛都快一些
哈哈哈哈哈哈哈哈哈哈哈哈哈
增加类别的话最后的fc就没用了,得重学
几点思路,仅供参考:
1 网络。既然是复现,可以考虑与已经开源的其他框架代码进行精度对齐。确保网络没问题。
2 参数。其他框架有开源预训练参数,能否设法导入。
3 训练。自己实在没有办法的时候,尝试联系原作,求助或者Get tricks。
楼下说的挺详细的,先去GitHub看看实现细节
感觉导入预训练模型这个会很关键
意思是说预训练模型一般因为体量不好自己训练,所以最好用训好的?
一个预训练模型通常是多卡跑上几周的,自己来得多少算力卡?而且效果还不一定好……能转过来是最好的。
嗯,提取特征的网络,大家都是用现成的了吧。
分类网络能进行扩充类别的增量训练么?现在有这种技术么?
可以吧,但是最好还是多分类——>少分类迁移学习,效果正常来说会更好。
两点:收敛快,数据少
上次有个大佬自己跑预训练模型几百小时算力没了(不是哭惨的那个)
这么说,还得是预训练模型见过的类别,迁移起来才有效果啊
要是增加类别了,是不是就相当于重新训练了。
增加类别的情况下,使用预训练模型有效果么?
这个是有感觉,用了imagenet的预训练模型,十几轮就能达到甚至单独训练根本达不到的精度
有可能这种情况么?
自己的数据类别完全被预训练模型覆盖,数据样本也不及预训练模型多。那么自己训练的模型根本就还达不到预训练模型的分类精度?
我的意思是,即使在自己的训练集上预测也是预训练模型效果更好。有这种情况吧?觉得应该会有,那么这种情况下,一定要用预训练模型。
也不是吧,就是对特征的提取能力更强了,“见多识广”嘛
其实我觉得都是相对而言,从类别少迁移到类别多效果也不至于上不去,毕竟有些特征之前已经见过了,剩下的可能更大是训练没见过的,只是说,可能同等条件下,“见多识广”的预训练模型更有优势?
有这种可能,但是实验结果都证明预训练模型在数据小的情况下收敛都快一些
哈哈哈哈哈哈哈哈哈哈哈哈哈
增加类别的话最后的fc就没用了,得重学