训练一个VGG16模型,训练了300个epoch了,突然网络波动断网了一下,几秒钟后又重新连接了进来,但是却无法继续运行了。重启环境又要从0开始运行。
请问一下各路大神Aistudio支持断网重连吗?支持的话怎么进行断网重连后继续保持原来的中间结果往下运行?
多谢了!
写入日志文件,实时更新文件内容,方便查看训练进度和信息,就是将print改写为write另外加上flush。一直在用
每30个轮次保存一次
然后在上次的权重基础上接着训练
每几轮就保存一下就行了
记得保存到work;里面
写一个脚本检测一下,断网打短信到手机提醒
断网重连岂不是更好
也可以,自动检测断网重连。说实话断网了之后的操作只能预先写好,就怕幺蛾子
写入日志文件,实时更新文件内容,方便查看训练进度和信息,就是将print改写为write另外加上flush。一直在用
每30个轮次保存一次
然后在上次的权重基础上接着训练
每几轮就保存一下就行了
记得保存到work;里面
写一个脚本检测一下,断网打短信到手机提醒
断网重连岂不是更好
也可以,自动检测断网重连。说实话断网了之后的操作只能预先写好,就怕幺蛾子