AI Studio用多卡训练莫名其妙的就挂掉了
收藏
用的是launch方式
python -m paddle.distributed.launch run.py
然后日志显示
------------------------------------------------ launch train in GPU mode! launch proc_id:314 idx:0 launch proc_id:317 idx:1 launch proc_id:320 idx:2 launch proc_id:324 idx:3 W0618 10:18:48.121762 314 device_context.cc:404] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1 W0618 10:18:48.126435 314 device_context.cc:422] device: 0, cuDNN Version: 7.6. /mnt [INFO]: train job failed! train_ret: 1
一点报错也没有的就挂了
0
收藏
请登录后评论
拒绝链接?你在开玩笑?
这个任务号是?
同款报错。。。