看到有人10次存一次模型,100G的空间爆了,大家多少step存一次模型?
大家认为间隔多少比较好?
前排等标准答案
手里呀捧着窝窝头。。。
至少要100个或者1000个
如果是我,我会把保存的代码改一下,只保存最低loss的模型,并且,保存的模型都是一个名,这样就能覆盖了
如果epoch很大的话,前面的模型没必要保存,
是不是总轮次的1/20,这样比较中庸一点呢
其实先算一算保存的模型大小,按照100G自己划分一下就行,哈哈哈(后台任务超过100G直接炸)
这个看情况吧。要是稳定性训练时间都能保证就间隔大些,反之就小些
不行就像队列后面存,前面删~~
不知道啊,不是我训的
我自己是最好做到能边训练边验证,然后覆盖存储最新训练的模型current_model和验证准确率最高的模型best_model,也就是只存了两个模型,或者前几个准确率高的,其他低精度的模型参数我觉得平常也用不到。模型占用的空间就很少。
如果先只跑训练的话,我觉得鹿鼎记的方法好像很不错,可以直接存损失低的,学到了,学到了。
发个demo呗,我必须fork
我是边跑边删……
我试试
仅限于notebook可以这么操作,当然也可以写个小脚本检查
嗯,学习了
这个问题好尴尬 哈哈
建哥 你这是爆了啊
其实要一个best就好了
前排等标准答案
手里呀捧着窝窝头。。。
至少要100个或者1000个
如果是我,我会把保存的代码改一下,只保存最低loss的模型,并且,保存的模型都是一个名,这样就能覆盖了
如果epoch很大的话,前面的模型没必要保存,
是不是总轮次的1/20,这样比较中庸一点呢
其实先算一算保存的模型大小,按照100G自己划分一下就行,哈哈哈(后台任务超过100G直接炸)
这个看情况吧。要是稳定性训练时间都能保证就间隔大些,反之就小些
不行就像队列后面存,前面删~~
不知道啊,不是我训的
我自己是最好做到能边训练边验证,然后覆盖存储最新训练的模型current_model和验证准确率最高的模型best_model,也就是只存了两个模型,或者前几个准确率高的,其他低精度的模型参数我觉得平常也用不到。模型占用的空间就很少。
如果先只跑训练的话,我觉得鹿鼎记的方法好像很不错,可以直接存损失低的,学到了,学到了。
发个demo呗,我必须fork
我是边跑边删……
我试试
仅限于notebook可以这么操作,当然也可以写个小脚本检查
嗯,学习了
这个问题好尴尬 哈哈
建哥 你这是爆了啊
其实要一个best就好了