使用fleet模块进行参数服务器式训练
收藏
单机条件下参数服务器运行没问题,进行分布式训练时,两台主机分别设置好了ip:192.168.50.1,192.168.50.2后使用网线连接,执行ping命令可以成功。
使用命令:python3 -m paddle.distributed.launch --master=192.168.50.1: --nnodes=2 --server_num=1 --trainer_num=2 train.py --lr=0.01 进行训练,两台机器都会报错:
[2023-10-10 14:53:52,416] [ WARNING] master.py:143 - master not ready
LAUNCH WARNING 2023-10-10 14:53:57,543 master not ready
0
收藏
请登录后评论