paddlex 训练中断后如何继续？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

轩轩辕孤狼2 发布于2020-05

AI studio 中利用 paddlex 训练，terminal中执行。训练总是中断，可能是电脑休眠后中断的。中断后如何继续训练呢？

全部评论(18)

wangwei8638

#2 回复于2020-05

AI studio目前还没有中断后继续训练的功能

wangwei8638

#3 回复于2020-05

只能在自己在程序中添加继续训练相关代码

CQ-Shang

#4 回复于2020-05

中断了还怎么继续？？？？？

轩

轩辕孤狼2

#5 回复于2020-05

wangwei8638 #3

只能在自己在程序中添加继续训练相关代码

嗯，好吧，那只能自己做处理了

轩

轩辕孤狼2

#6 回复于2020-05

CQ-Shang #4

中断了还怎么继续？？？？？

就是类似caffe那种，中断之后从最后一次保存的模型开始，继续训练。看来AIstudio 还没有这种功能

laibaohua_2014

#7 回复于2020-05

paddlex训练时可以设置保存的间隔，后续可以通过resume_checkpoint参数指定前面保存的模型继续训练。

resume_checkpoint (str): 恢复训练时指定上次训练保存的模型路径。若为None，则不会恢复训练。默认值为None。

wangwei8638

#8 回复于2020-05

轩辕孤狼2 #6

就是类似caffe那种，中断之后从最后一次保存的模型开始，继续训练。看来AIstudio 还没有这种功能

目前是没有

wangwei8638

#9 回复于2020-05

laibaohua_2014 #7

paddlex训练时可以设置保存的间隔，后续可以通过resume_checkpoint参数指定前面保存的模型继续训练。 resume_checkpoint (str): 恢复训练时指定上次训练保存的模型路径。若为None，则不会恢复训练。默认值为None。

展开

这是想要的功能

学问弟弟

#10 回复于2020-05

代码中设置model的persistable，从上次中断的地方继续

Gao

#11 回复于2020-05

去paddlex的文档有。

a stan

#12 回复于2020-05

自己写一下吧。。保存program和各个variable的值（fluid.io.save_persistables），恢复训练的时候再用fluid.io.load_persistables加载。。

轩

轩辕孤狼2

#13 回复于2020-05

学问弟弟 #10

代码中设置model的persistable，从上次中断的地方继续

多谢多谢，可以试试

轩

轩辕孤狼2

#14 回复于2020-05

a stan #12

自己写一下吧。。保存program和各个variable的值（fluid.io.save_persistables），恢复训练的时候再用fluid.io.load_persistables加载。。

这个是不是只能保存模型中的参数，但是其他的，比如当前的迭代次数，当前使用的learning_rate及之后的变化情况等等，是不是需要自己想办法保存了？学习率的变化设定是在optimizer中完成的，在里面执行加载，不会有什么影响吧？

或

或许只有你_L

#15 回复于2021-10

laibaohua_2014 #7

展开

怎么操作的哥

green_zone

#16 回复于2021-10

通过resume_checkpoint参数指定前面保存的模型继续训练，同时pretrain_weights=None

xu843102

#17 回复于2021-11

这个可以试试，一定设置pretrain_weights=None,修改断点学习率和衰减

model.train(
    num_epochs=50,
    # resume_checkpoint='output/resnet50/epoch_10',
    pretrain_weights=None,
    train_dataset=train_dataset,
    train_batch_size=32,
    eval_dataset=eval_dataset,
    lr_decay_epochs=[6,18, 28,38,46,48],
    learning_rate=0.09,
    lr_decay_gamma=0.2,           #默认优化器的学习率衰减率。默认为0.1。
    save_dir='output/resnet50_5',
    resume_checkpoint='output/resnet50_1/epoch_20',
    use_vdl=True)

Surelon

#18 回复于2022-07

xu843102 #17

这个可以试试，一定设置pretrain_weights=None,修改断点学习率和衰减 model.train( num_epochs=50, # resume_checkpoint='output/resnet50/epoch_10', pretrain_weights=None, train_dataset=train_dataset, train_batch_size=32, eval_dataset=eval_dataset, lr_decay_epochs=[6,18, 28,38,46,48], learning_rate=0.09, lr_decay_gamma=0.2, #默认优化器的学习率衰减率。默认为0.1。 save_dir='output/resnet50_5', resume_checkpoint='output/resnet50_1/epoch_20', use_vdl=True)

展开

老师你好，请问这段代码是放在哪里？是在命令行吗？可以接着中断的权重文件训练。

Surelon

#19 回复于2022-07

xu843102 #17

展开

老师，放到命令行运行后，报错没有model，我是用!python train.py -c configs/deformable_detr/xilanhua_deformable_detr.yml \做的

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~