首页 Paddle框架 帖子详情
无法进行多卡训练
收藏
快速回复
Paddle框架 问答模型训练 1726 5
无法进行多卡训练
收藏
快速回复
Paddle框架 问答模型训练 1726 5

使用python -m paddle.distributed.launch train.py进行训练时,报错ABORT!!! Out of all 4 trainers, the trainer process with rank=[1, 2, 3] was aborted. Please check its log.使用的环境是脚本任务中的V100四卡。

0
收藏
回复
全部评论(5)
时间顺序
AIStudio810261
#2 回复于2021-03

得把项目公开了吧....否则光看这么一句啥也看不出来呀..\

 

0
回复
七年期限
#3 回复于2021-03

应该是有什么设置吧

0
回复
七年期限
#4 回复于2021-03

脚本这里我是还没看

0
回复
吴大爷518168
#5 回复于2021-11

同样问题求回答

0
回复
DeepGeGe
#6 回复于2021-12

无法进行多卡训练,可能得看看是不是在windows系统上,如果是的,windows系统由于不支持nccl,确实是无法进行多卡训练的。

我特地去跑了一下:

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户