多卡训练时启动失败,Error:Out of all 4 Trainers,如何处理?
多卡训练时启动失败,显示如下信息:
报错分析:主进程发现一号卡(逻辑)上的训练进程退出了。解决方法:查看一号卡上的日志,找出具体的出错原因。paddle.distributed.launch 启动多卡训练时,设置 --log_dir 参数会将每张卡的日志保存在设置的文件夹下。
多卡训练时启动失败,显示如下信息:
报错分析:主进程发现一号卡(逻辑)上的训练进程退出了。
解决方法:查看一号卡上的日志,找出具体的出错原因。paddle.distributed.launch 启动多卡训练时,设置 --log_dir 参数会将每张卡的日志保存在设置的文件夹下。