首页 Paddle框架 帖子详情
使用fleet模块进行参数服务器式训练
收藏
快速回复
Paddle框架 问答模型训练 211 0
使用fleet模块进行参数服务器式训练
收藏
快速回复
Paddle框架 问答模型训练 211 0

单机条件下参数服务器运行没问题,进行分布式训练时,两台主机分别设置好了ip:192.168.50.1,192.168.50.2后使用网线连接,执行ping命令可以成功。

使用命令:python3 -m paddle.distributed.launch --master=192.168.50.1: --nnodes=2 --server_num=1 --trainer_num=2 train.py --lr=0.01 进行训练,两台机器都会报错:

[2023-10-10 14:53:52,416] [ WARNING] master.py:143 - master not ready
LAUNCH WARNING 2023-10-10 14:53:57,543 master not ready

0
收藏
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户