【论文复现赛】多卡脚本任务异常结束 已解决
收藏
快速回复
AI Studio平台使用 问答平台资讯其他 397 6
【论文复现赛】多卡脚本任务异常结束 已解决
收藏
快速回复
AI Studio平台使用 问答平台资讯其他 397 6

训练任务一开始很正常,中途出现图中的问题,然后脚本任务异常结束。这是服务器的显卡2坏了吗还是怎么回事?

嘟嘟
已解决
7# 回复于2021-12
再次更新一下,同样的代码训练几次又出现这个问题,有点莫名其妙,查看每张显卡的log,发现是%运算的类型有问题,这里提供一下脚本任务显卡log查看方法。使用下面的命令,可以在/root/paddlejob/workspace/output目录下得到每张卡的日志. [代码]
展开
0
收藏
回复
全部评论(6)
时间顺序
DeepGeGe
#2 回复于2021-12

挺多人遇到了这个问题,可以看看这个链接,有解决方法及原因:https://github.com/PaddlePaddle/Paddle/issues/36104

0
回复
嘟嘟
#3 回复于2021-12
挺多人遇到了这个问题,可以看看这个链接,有解决方法及原因:https://github.com/PaddlePaddle/Paddle/issues/36104

这2个问题还是有些区别的,这个问题是卡2突然不工作了,issue里面是设置不对,启动就没成功。

0
回复
DeepGeGe
#4 回复于2021-12

好吧,我在GitHub上是看到了一个一模一样的报错信息:

不过他不是在运行过程中,而是一开始就报了这个错,也是会显示terminate all procs。

这个Issue里面说,代码加入paddle.device.set_device("gpu"),虽然有点差别,或许你可以试试。

链接:https://github.com/PaddlePaddle/Paddle/issues/35054

详细看看这个链接,这里的报错是完全一样的:

0
回复
嘟嘟
#5 回复于2021-12
好吧,我在GitHub上是看到了一个一模一样的报错信息: [图片] 不过他不是在运行过程中,而是一开始就报了这个错,也是会显示terminate all procs。 这个Issue里面说,代码加入paddle.device.set_device("gpu"),虽然有点差别,或许你可以试试。 链接:https://github.com/PaddlePaddle/Paddle/issues/35054 详细看看这个链接,这里的报错是完全一样的:
展开

恩恩,报错是一样的,其实这个报错我也第一次遇到,之前同样的代码跑了4轮没问题,第五轮出了问题,就改了一点参数,所以我怀疑是不是硬件出问题了。

0
回复
嘟嘟
#6 回复于2021-12

已解决,多卡训练设置gpu编号后,该问题消失了,感觉有点莫名其妙,以前不设置编号也没啥问题。

python -m paddle.distributed.launch --gpus="0,1,2,3" train.py ---

0
回复
嘟嘟
#7 回复于2021-12

再次更新一下,同样的代码训练几次又出现这个问题,有点莫名其妙,查看每张显卡的log,发现是%运算的类型有问题,这里提供一下脚本任务显卡log查看方法。使用下面的命令,可以在/root/paddlejob/workspace/output目录下得到每张卡的日志.

'python -m paddle.distributed.launch --gpus="0,1,2,3" --log_dir /root/paddlejob/workspace/output train.py  --{params}

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户