首页 Paddle框架 帖子详情
多卡训练的sampler的问题 已解决
收藏
快速回复
Paddle框架 问答模型训练 444 2
多卡训练的sampler的问题 已解决
收藏
快速回复
Paddle框架 问答模型训练 444 2
使用4卡训练时,发现速度并没有加快。后来在论坛搜索到一篇帖子,说还要配合DistributedBatchSampler使用才行。查了文档后了解到,用了 DistributedBatchSampler 才能将数据集“1分为n”送给多个脚本进程训练。我现在没用 DistributedBatchSampler 是不是说训练1个epoch相当于每个进程都用全部数据跑了一遍,训练了4个epoch呢? 多卡训练的sampler的问题

 

 

dkp19930606
已解决
2# 回复于2021-06
需要使用DistributedBatchSampler,否则一个epoch中每个卡都会跑全量的数据,一个epoch相当于实际训练了4个epoch,所以训练没有加快
0
收藏
回复
全部评论(2)
时间顺序
dkp19930606
#2 回复于2021-06

需要使用DistributedBatchSampler,否则一个epoch中每个卡都会跑全量的数据,一个epoch相当于实际训练了4个epoch,所以训练没有加快

0
回复
FutureSI
#3 回复于2021-06
需要使用DistributedBatchSampler,否则一个epoch中每个卡都会跑全量的数据,一个epoch相当于实际训练了4个epoch,所以训练没有加快

谢谢,的确是这样的。而且,如果不设置 DistributedBatchSampler 的话并没有训练1轮等于4轮的效果,只有4轮的时间,我跑的那个模型1轮就要8小时,4*8=32,我的算力卡,呜呜。。。

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户