多卡训练的sampler的问题

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

FutureSI 发布于2021-06

使用4卡训练时，发现速度并没有加快。后来在论坛搜索到一篇帖子，说还要配合DistributedBatchSampler使用才行。查了文档后了解到，用了 DistributedBatchSampler 才能将数据集“1分为n”送给多个脚本进程训练。我现在没用 DistributedBatchSampler 是不是说训练1个epoch相当于每个进程都用全部数据跑了一遍，训练了4个epoch呢？多卡训练的sampler的问题

dkp19930606

已解决

2# 回复于2021-06

需要使用DistributedBatchSampler，否则一个epoch中每个卡都会跑全量的数据，一个epoch相当于实际训练了4个epoch，所以训练没有加快

全部评论(2)

dkp19930606

#2 回复于2021-06

需要使用DistributedBatchSampler，否则一个epoch中每个卡都会跑全量的数据，一个epoch相当于实际训练了4个epoch，所以训练没有加快

FutureSI

#3 回复于2021-06

dkp19930606 #2

需要使用DistributedBatchSampler，否则一个epoch中每个卡都会跑全量的数据，一个epoch相当于实际训练了4个epoch，所以训练没有加快

谢谢，的确是这样的。而且，如果不设置 DistributedBatchSampler 的话并没有训练1轮等于4轮的效果，只有4轮的时间，我跑的那个模型1轮就要8小时，4*8=32，我的算力卡，呜呜。。。

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~