首页 Paddle框架 帖子详情
多卡训练时启动失败,Error:Out of all 4 Trainers,如何处理? 已解决
收藏
快速回复
Paddle框架 问答模型训练深度学习 691 1
多卡训练时启动失败,Error:Out of all 4 Trainers,如何处理? 已解决
收藏
快速回复
Paddle框架 问答模型训练深度学习 691 1

多卡训练时启动失败,Error:Out of all 4 Trainers,如何处理?

旧鸱c_
已解决
2# 回复于2021-08
多卡训练时启动失败,显示如下信息:[图片] 报错分析:主进程发现一号卡(逻辑)上的训练进程退出了。 解决方法:查看一号卡上的日志,找出具体的出错原因。paddle.distributed.launch 启动多卡训练时,设置 --log_dir 参数会将每张卡的日志保存在设置的文件夹下。
展开
0
收藏
回复
全部评论(1)
时间顺序
旧鸱c_
#2 回复于2021-08

多卡训练时启动失败,显示如下信息:

报错分析:主进程发现一号卡(逻辑)上的训练进程退出了。
解决方法:查看一号卡上的日志,找出具体的出错原因。paddle.distributed.launch 启动多卡训练时,设置 --log_dir 参数会将每张卡的日志保存在设置的文件夹下。

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户