训练的时候出现如下报错，请问如何解决？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

奕奕淇219525 发布于2020-01

DataLoader worker (pid 454) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit.

之后训练就自动停止了。

全部评论(26)

busyboxs

#2 回复于2020-01

数据量太大了？

奕

奕淇219525

#3 回复于2020-01

busyboxs #2

数据量太大了？

就是百度提供的数据集，百度的数据集不小，10个G左右。有知道这个可以申请扩容不？

AIStudio810261

#4 回复于2020-01

可否截图看看吗? 这个不像是我们这边的报错.

奕

奕淇219525

#5 回复于2020-01

AIStudio810261 #4

可否截图看看吗? 这个不像是我们这边的报错.

求

求爱求赞等着你

#6 回复于2020-01

将num_workers修改为0

奕

奕淇219525

#7 回复于2020-01

求爱求赞等着你 #6

将num_workers修改为0

这也也太慢了吧，设置0的话。我试试

AIStudio810261

#8 回复于2020-01

奕淇219525 #7

这也也太慢了吧，设置0的话。我试试

有效吗?

奕

奕淇219525

#9 回复于2020-01

AIStudio810261 #8

有效吗?

昨天有效，今天又报错了：

RuntimeError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 15.78 GiB total capacity; 14.50 GiB already allocated; 93.94 MiB free; 200.45 MiB cached)

AIStudio810261

#10 回复于2020-01

奕淇219525 #9

昨天有效，今天又报错了： [代码]

这个是显存不足的错误, 这个通常把batch_size改小一点就行了

何必固執丶

#11 回复于2020-01

我也看不懂

奕

奕淇219525

#12 回复于2020-01

AIStudio810261 #10

这个是显存不足的错误, 这个通常把batch_size改小一点就行了

后面差了，是这个原因，调小了。可以跑。谢谢大家

sdw

#13 回复于2020-02

我用的teslav100啊，GPU显存没吃满啊，怎么还报这个错？

AIStudio810258

#14 回复于2020-02

batch_size改小试试。而且每次登陆分配的内存有大有小

AIStudio810258

#15 回复于2020-02

我也遇到过这个，而且并不是每次都出。后来别人告诉我，分配的机器内存不一样大

lu180420

#16 回复于2020-02

解决了吗

zhouhao007

#17 回复于2020-02

将num_workers修改为0是有效的，我也试过，可以的

AIStudio810258

#18 回复于2020-02

zhouhao007 #17

将num_workers修改为0是有效的，我也试过，可以的

worker_num设为0是不是就不并行读取数据了？

zhouhao007

#19 回复于2020-02

AIStudio810258 #18

worker_num设为0是不是就不并行读取数据了？

应该是单线程读取数据，虽然效率可能会有些损失，但是程序可以跑的起来，总比不能运行强啊。。。

根据我测试项目的情况，效率也没有太多影响，可能是我训练的是语音项目，训练数据不是很大的原因

图像识别之类的有可能性能损失会大些

AIStudio810258

#20 回复于2020-02

zhouhao007 #19

应该是单线程读取数据，虽然效率可能会有些损失，但是程序可以跑的起来，总比不能运行强啊。。。根据我测试项目的情况，效率也没有太多影响，可能是我训练的是语音项目，训练数据不是很大的原因图像识别之类的有可能性能损失会大些

展开

这样就直接用单线程的loader好了。动态图是分普通loader和multiloader的。

亚

亚历Ge山大

#21 回复于2020-04

各位，怎么查看每次登陆分配的内存大小呀？