训练的时候出现如下报错,请问如何解决?
收藏
快速回复
AI Studio平台使用 问答其他 16866 26
训练的时候出现如下报错,请问如何解决?
收藏
快速回复
AI Studio平台使用 问答其他 16866 26

DataLoader worker (pid 454) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit.

之后训练就自动停止了。

0
收藏
回复
全部评论(26)
时间顺序
busyboxs
#2 回复于2020-01

数据量太大了?

0
回复
奕淇219525
#3 回复于2020-01
数据量太大了?

就是百度提供的数据集,百度的数据集不小,10个G左右。有知道这个可以申请扩容不?

0
回复
AIStudio810261
#4 回复于2020-01

可否截图看看吗? 这个不像是我们这边的报错. 

0
回复
奕淇219525
#5 回复于2020-01
可否截图看看吗? 这个不像是我们这边的报错. 

0
回复
求爱求赞等着你
#6 回复于2020-01

将num_workers修改为0

0
回复
奕淇219525
#7 回复于2020-01
将num_workers修改为0

这也也太慢了吧,设置0的话。我试试

0
回复
AIStudio810261
#8 回复于2020-01
这也也太慢了吧,设置0的话。我试试

有效吗?

0
回复
奕淇219525
#9 回复于2020-01
有效吗?

昨天有效,今天又报错了:

RuntimeError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 15.78 GiB total capacity; 14.50 GiB already allocated; 93.94 MiB free; 200.45 MiB cached)

0
回复
AIStudio810261
#10 回复于2020-01
昨天有效,今天又报错了: [代码]

这个是显存不足的错误, 这个通常把batch_size改小一点就行了

0
回复
何必固執丶
#11 回复于2020-01

我也看不懂

0
回复
奕淇219525
#12 回复于2020-01
这个是显存不足的错误, 这个通常把batch_size改小一点就行了

后面差了,是这个原因,调小了。可以跑。谢谢大家

0
回复
s
sdw
#13 回复于2020-02

我用的teslav100啊,GPU显存没吃满啊,怎么还报这个错?

0
回复
AIStudio810258
#14 回复于2020-02

batch_size改小试试。而且每次登陆分配的内存有大有小

0
回复
AIStudio810258
#15 回复于2020-02

我也遇到过这个,而且并不是每次都出。后来别人告诉我,分配的机器内存不一样大

0
回复
lu180420
#16 回复于2020-02

解决了吗

0
回复
z
zhouhao007
#17 回复于2020-02

将num_workers修改为0是有效的,我也试过,可以的

0
回复
AIStudio810258
#18 回复于2020-02
将num_workers修改为0是有效的,我也试过,可以的

worker_num设为0是不是就不并行读取数据了?

0
回复
z
zhouhao007
#19 回复于2020-02
worker_num设为0是不是就不并行读取数据了?

应该是单线程读取数据,虽然效率可能会有些损失,但是程序可以跑的起来,总比不能运行强啊。。。

根据我测试项目的情况,效率也没有太多影响,可能是我训练的是语音项目,训练数据不是很大的原因

图像识别之类的有可能性能损失会大些

0
回复
AIStudio810258
#20 回复于2020-02
应该是单线程读取数据,虽然效率可能会有些损失,但是程序可以跑的起来,总比不能运行强啊。。。 根据我测试项目的情况,效率也没有太多影响,可能是我训练的是语音项目,训练数据不是很大的原因 图像识别之类的有可能性能损失会大些
展开

这样就直接用单线程的loader好了。动态图是分普通loader和multiloader的。

2
回复
亚历Ge山大
#21 回复于2020-04

各位,怎么查看每次登陆分配的内存大小呀?

1
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户