训练过程 print() 了每一个step的 loss 值。
脚本任务提交完开始执行以后,日志一直停在这个unique_endpoints....这里。已经运行10个小时了,应该快完成训练了,就是不显示训练过程,也不报错,提交过好几次,都是这个情况:
求问是什么情况呀。
解决了,原因是我加载的hapi预训练权重,需要联网下,可能有时候网络不好,就一直卡在这里。
后面把 resnet 的预训练权重下载下来,从本地导入,就可以正常训练了。
有相似问题的小伙伴,可以参考一下,
后台、脚本任务似乎网络不太好,安装依赖包记得用百度源,导入权重尽量从本地导入吧。不然白白浪费算力。
放数据集里本地挂载是个好主意
可以放在数据集
那个网时好时坏
我的脚本任务在“INFO 2022-04-02 11:01:08,033 launch_utils.py:532] details abouts PADDLE_TRAINER_ENDPOINTS can be found in log/endpoints.log, and detail running logs maybe found in log/workerlog.0”之后就不刷新了
没有联网下载东西啊
解决了,原因是我加载的hapi预训练权重,需要联网下,可能有时候网络不好,就一直卡在这里。
后面把 resnet 的预训练权重下载下来,从本地导入,就可以正常训练了。
有相似问题的小伙伴,可以参考一下,
后台、脚本任务似乎网络不太好,安装依赖包记得用百度源,导入权重尽量从本地导入吧。不然白白浪费算力。
放数据集里本地挂载是个好主意
可以放在数据集
那个网时好时坏
我的脚本任务在“INFO 2022-04-02 11:01:08,033 launch_utils.py:532] details abouts PADDLE_TRAINER_ENDPOINTS can be found in log/endpoints.log, and detail running logs maybe found in log/workerlog.0”之后就不刷新了
没有联网下载东西啊