无法进行多卡训练
收藏
使用python -m paddle.distributed.launch train.py进行训练时,报错ABORT!!! Out of all 4 trainers, the trainer process with rank=[1, 2, 3] was aborted. Please check its log.使用的环境是脚本任务中的V100四卡。
0
收藏
请登录后评论
得把项目公开了吧....否则光看这么一句啥也看不出来呀..\
应该是有什么设置吧
脚本这里我是还没看
同样问题求回答
无法进行多卡训练,可能得看看是不是在windows系统上,如果是的,windows系统由于不支持nccl,确实是无法进行多卡训练的。
我特地去跑了一下: