首页 Paddle框架 帖子详情
脚本文件多卡运行 Place CUDAPlace(0) is not supported.
收藏
快速回复
Paddle框架 问答模型训练 639 9
脚本文件多卡运行 Place CUDAPlace(0) is not supported.
收藏
快速回复
Paddle框架 问答模型训练 639 9

 

各位有遇到这种情况不,  还是我的分布式初始化 有错误?

 

报错:

0
收藏
回复
全部评论(9)
时间顺序
l
lueluelue93
#2 回复于2021-09

初始化 分布训练 NCCL通信 不是两步吗  初始化并行环境 init_parallel_env()    将模型置为数据并行   paddle.DataParallel(model)  是还需要其他?

0
回复
FutureSI
#3 回复于2021-09

本地还是ai studio?

0
回复
l
lueluelue93
#4 回复于2021-09
本地还是ai studio?

在 AI Stdio  中的脚本任务

 

0
回复
FutureSI
#5 回复于2021-09

ai studio上的应该paddle配置是没有问题的。

2.0版本后多卡有两种配置方式了,也可以试试spwan

0
回复
FutureSI
#6 回复于2021-09

可以参考文档:

https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/02_paddle2.0_develop/06_device_cn.html

0
回复
l
lueluelue93
#7 回复于2021-09
ai studio上的应该paddle配置是没有问题的。 2.0版本后多卡有两种配置方式了,也可以试试spwan

尝试了spwan  跑起来了  但训练过程 是一张卡在跑

 

0
回复
l
lueluelue93
#8 回复于2021-09
ai studio上的应该paddle配置是没有问题的。 2.0版本后多卡有两种配置方式了,也可以试试spwan

main函数    我用的是 2.0.2版本

0
回复
FutureSI
#9 回复于2021-09

我也遇到过只用单张卡训练的情况,使用 DistributedBatchSampler 解决的。直接用 DataLoader 是可能出问题的。

 

0
回复
FutureSI
#10 回复于2021-09

DistributedBatchSampler使用参考:

https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/io/DistributedBatchSampler_cn.html#distributedbatchsampler

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户