DataLoader worker (pid 454) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit.
之后训练就自动停止了。
数据量太大了?
就是百度提供的数据集,百度的数据集不小,10个G左右。有知道这个可以申请扩容不?
可否截图看看吗? 这个不像是我们这边的报错.
将num_workers修改为0
这也也太慢了吧,设置0的话。我试试
有效吗?
昨天有效,今天又报错了:
RuntimeError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 15.78 GiB total capacity; 14.50 GiB already allocated; 93.94 MiB free; 200.45 MiB cached)
这个是显存不足的错误, 这个通常把batch_size改小一点就行了
我也看不懂
后面差了,是这个原因,调小了。可以跑。谢谢大家
我用的teslav100啊,GPU显存没吃满啊,怎么还报这个错?
batch_size改小试试。而且每次登陆分配的内存有大有小
我也遇到过这个,而且并不是每次都出。后来别人告诉我,分配的机器内存不一样大
解决了吗
将num_workers修改为0是有效的,我也试过,可以的
worker_num设为0是不是就不并行读取数据了?
应该是单线程读取数据,虽然效率可能会有些损失,但是程序可以跑的起来,总比不能运行强啊。。。
根据我测试项目的情况,效率也没有太多影响,可能是我训练的是语音项目,训练数据不是很大的原因
图像识别之类的有可能性能损失会大些
这样就直接用单线程的loader好了。动态图是分普通loader和multiloader的。
各位,怎么查看每次登陆分配的内存大小呀?
数据量太大了?
就是百度提供的数据集,百度的数据集不小,10个G左右。有知道这个可以申请扩容不?
可否截图看看吗? 这个不像是我们这边的报错.
将num_workers修改为0
这也也太慢了吧,设置0的话。我试试
有效吗?
昨天有效,今天又报错了:
RuntimeError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 15.78 GiB total capacity; 14.50 GiB already allocated; 93.94 MiB free; 200.45 MiB cached)
这个是显存不足的错误, 这个通常把batch_size改小一点就行了
我也看不懂
后面差了,是这个原因,调小了。可以跑。谢谢大家
我用的teslav100啊,GPU显存没吃满啊,怎么还报这个错?
batch_size改小试试。而且每次登陆分配的内存有大有小
我也遇到过这个,而且并不是每次都出。后来别人告诉我,分配的机器内存不一样大
解决了吗
将num_workers修改为0是有效的,我也试过,可以的
worker_num设为0是不是就不并行读取数据了?
应该是单线程读取数据,虽然效率可能会有些损失,但是程序可以跑的起来,总比不能运行强啊。。。
根据我测试项目的情况,效率也没有太多影响,可能是我训练的是语音项目,训练数据不是很大的原因
图像识别之类的有可能性能损失会大些
这样就直接用单线程的loader好了。动态图是分普通loader和multiloader的。
各位,怎么查看每次登陆分配的内存大小呀?