首页 PaddleX 帖子详情
paddlex 训练中断后如何继续?
收藏
快速回复
PaddleX 问答入门 3867 18
paddlex 训练中断后如何继续?
收藏
快速回复
PaddleX 问答入门 3867 18

AI studio 中利用 paddlex 训练,terminal中执行。训练总是中断,可能是电脑休眠后中断的。中断后如何继续训练呢?

0
收藏
回复
全部评论(18)
时间顺序
w
wangwei8638
#2 回复于2020-05

AI studio目前还没有中断后继续训练的功能

0
回复
w
wangwei8638
#3 回复于2020-05

只能在自己在程序中添加继续训练相关代码

0
回复
CQ-Shang
#4 回复于2020-05

中断了还怎么继续?????

0
回复
轩辕孤狼2
#5 回复于2020-05
只能在自己在程序中添加继续训练相关代码

嗯,好吧,那只能自己做处理了

0
回复
轩辕孤狼2
#6 回复于2020-05
中断了还怎么继续?????

就是类似caffe那种,中断之后从最后一次保存的模型开始,继续训练。看来AIstudio 还没有这种功能

0
回复
l
laibaohua_2014
#7 回复于2020-05

paddlex训练时可以设置保存的间隔,后续可以通过resume_checkpoint参数指定前面保存的模型继续训练。

resume_checkpoint (str): 恢复训练时指定上次训练保存的模型路径。若为None,则不会恢复训练。默认值为None。

0
回复
w
wangwei8638
#8 回复于2020-05
就是类似caffe那种,中断之后从最后一次保存的模型开始,继续训练。看来AIstudio 还没有这种功能

目前是没有

0
回复
w
wangwei8638
#9 回复于2020-05
paddlex训练时可以设置保存的间隔,后续可以通过resume_checkpoint参数指定前面保存的模型继续训练。 resume_checkpoint (str): 恢复训练时指定上次训练保存的模型路径。若为None,则不会恢复训练。默认值为None。
展开

这是想要的功能

0
回复
学问弟弟
#10 回复于2020-05

代码中设置model的persistable,从上次中断的地方继续

0
回复
Gao
#11 回复于2020-05

去paddlex的文档有。

0
回复
a
a stan
#12 回复于2020-05

自己写一下吧。。保存program和各个variable的值(fluid.io.save_persistables),恢复训练的时候再用fluid.io.load_persistables加载。。

0
回复
轩辕孤狼2
#13 回复于2020-05
代码中设置model的persistable,从上次中断的地方继续

多谢多谢,可以试试

0
回复
轩辕孤狼2
#14 回复于2020-05
a stan #12
自己写一下吧。。保存program和各个variable的值(fluid.io.save_persistables),恢复训练的时候再用fluid.io.load_persistables加载。。

这个是不是只能保存模型中的参数,但是其他的,比如当前的迭代次数,当前使用的learning_rate及之后的变化情况 等等,是不是需要自己想办法保存了?学习率的变化设定是在optimizer中完成的,在里面执行加载,不会有什么影响吧?

0
回复
或许只有你_L
#15 回复于2021-10
paddlex训练时可以设置保存的间隔,后续可以通过resume_checkpoint参数指定前面保存的模型继续训练。 resume_checkpoint (str): 恢复训练时指定上次训练保存的模型路径。若为None,则不会恢复训练。默认值为None。
展开

怎么操作的哥

0
回复
green_zone
#16 回复于2021-10

通过resume_checkpoint参数指定前面保存的模型继续训练,同时pretrain_weights=None

0
回复
x
xu843102
#17 回复于2021-11

这个可以试试,一定设置pretrain_weights=None,修改断点学习率和衰减

model.train(
    num_epochs=50,
    # resume_checkpoint='output/resnet50/epoch_10',
    pretrain_weights=None,
    train_dataset=train_dataset,
    train_batch_size=32,
    eval_dataset=eval_dataset,
    lr_decay_epochs=[6,18, 28,38,46,48],
    learning_rate=0.09,
    lr_decay_gamma=0.2,           #默认优化器的学习率衰减率。默认为0.1。
    save_dir='output/resnet50_5',
    resume_checkpoint='output/resnet50_1/epoch_20',
    use_vdl=True)

3
回复
S
Surelon
#18 回复于2022-07
xu843102 #17
这个可以试试,一定设置pretrain_weights=None,修改断点学习率和衰减 model.train(     num_epochs=50,     # resume_checkpoint='output/resnet50/epoch_10',     pretrain_weights=None,     train_dataset=train_dataset,     train_batch_size=32,     eval_dataset=eval_dataset,     lr_decay_epochs=[6,18, 28,38,46,48],     learning_rate=0.09,     lr_decay_gamma=0.2,           #默认优化器的学习率衰减率。默认为0.1。     save_dir='output/resnet50_5',     resume_checkpoint='output/resnet50_1/epoch_20',     use_vdl=True)
展开

老师你好,请问这段代码是放在哪里?是在命令行吗?可以接着中断的权重文件训练。

0
回复
S
Surelon
#19 回复于2022-07
xu843102 #17
这个可以试试,一定设置pretrain_weights=None,修改断点学习率和衰减 model.train(     num_epochs=50,     # resume_checkpoint='output/resnet50/epoch_10',     pretrain_weights=None,     train_dataset=train_dataset,     train_batch_size=32,     eval_dataset=eval_dataset,     lr_decay_epochs=[6,18, 28,38,46,48],     learning_rate=0.09,     lr_decay_gamma=0.2,           #默认优化器的学习率衰减率。默认为0.1。     save_dir='output/resnet50_5',     resume_checkpoint='output/resnet50_1/epoch_20',     use_vdl=True)
展开

老师,放到命令行运行后,报错没有model,我是用!python train.py -c configs/deformable_detr/xilanhua_deformable_detr.yml \做的

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户