AI Studio用多卡训练莫名其妙的就挂掉了
收藏
用的是launch方式
python -m paddle.distributed.launch run.py
然后日志显示
------------------------------------------------
launch train in GPU mode!
launch proc_id:314 idx:0
launch proc_id:317 idx:1
launch proc_id:320 idx:2
launch proc_id:324 idx:3
W0618 10:18:48.121762 314 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1
W0618 10:18:48.126435 314 device_context.cc:422] device: 0, cuDNN Version: 7.6.
/mnt
[INFO]: train job failed! train_ret: 1
一点报错也没有的就挂了
0
收藏
请登录后评论
拒绝链接?你在开玩笑?
这个任务号是?
同款报错。。。