paddlex 训练中断后如何继续?
收藏
AI studio 中利用 paddlex 训练,terminal中执行。训练总是中断,可能是电脑休眠后中断的。中断后如何继续训练呢?
0
收藏
请登录后评论
AI studio目前还没有中断后继续训练的功能
只能在自己在程序中添加继续训练相关代码
中断了还怎么继续?????
嗯,好吧,那只能自己做处理了
就是类似caffe那种,中断之后从最后一次保存的模型开始,继续训练。看来AIstudio 还没有这种功能
paddlex训练时可以设置保存的间隔,后续可以通过resume_checkpoint参数指定前面保存的模型继续训练。
resume_checkpoint (str): 恢复训练时指定上次训练保存的模型路径。若为None,则不会恢复训练。默认值为None。
目前是没有
这是想要的功能
代码中设置model的persistable,从上次中断的地方继续
去paddlex的文档有。
自己写一下吧。。保存program和各个variable的值(fluid.io.save_persistables),恢复训练的时候再用fluid.io.load_persistables加载。。
多谢多谢,可以试试
这个是不是只能保存模型中的参数,但是其他的,比如当前的迭代次数,当前使用的learning_rate及之后的变化情况 等等,是不是需要自己想办法保存了?学习率的变化设定是在optimizer中完成的,在里面执行加载,不会有什么影响吧?
怎么操作的哥
通过resume_checkpoint参数指定前面保存的模型继续训练,同时pretrain_weights=None
这个可以试试,一定设置pretrain_weights=None,修改断点学习率和衰减
model.train(
num_epochs=50,
# resume_checkpoint='output/resnet50/epoch_10',
pretrain_weights=None,
train_dataset=train_dataset,
train_batch_size=32,
eval_dataset=eval_dataset,
lr_decay_epochs=[6,18, 28,38,46,48],
learning_rate=0.09,
lr_decay_gamma=0.2, #默认优化器的学习率衰减率。默认为0.1。
save_dir='output/resnet50_5',
resume_checkpoint='output/resnet50_1/epoch_20',
use_vdl=True)
老师你好,请问这段代码是放在哪里?是在命令行吗?可以接着中断的权重文件训练。
老师,放到命令行运行后,报错没有model,我是用!python train.py -c configs/deformable_detr/xilanhua_deformable_detr.yml \做的