首页 PaddleCV 帖子详情
YOLOv3训练到一半卡住不动
收藏
快速回复
PaddleCV 问答图像分类 2557 6
YOLOv3训练到一半卡住不动
收藏
快速回复
PaddleCV 问答图像分类 2557 6

训练到【Epoch 5/20, Batch 27/52】时终端卡住不动了

之前训练的时候报过错误“ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).”

调整num_workers大小无用。

0
收藏
回复
全部评论(6)
时间顺序
水水水的老师
#2 回复于2020-05

shm设置问题

0
回复
水水水的老师
#3 回复于2020-05

使用平台  因为权限问题 这种问题不太好解决

0
回复
austinleaven
#4 回复于2020-05

不清楚

0
回复
AIStudio810258
#5 回复于2020-11

问题解决了么?

0
回复
AIStudio810258
#6 回复于2020-11

训练时shm占用不断增加,直到溢出,这是发生了内存泄漏么?

1
回复
孟小子00
#7 回复于2022-10
训练时shm占用不断增加,直到溢出,这是发生了内存泄漏么?

我也遇到了这个问题,shm开40G都不够paddle用的,几个小时就占满了,跑不动了。

/dev/shm/ 目录下生成了很多paddle_*. 文件,有些手动删除后训练还在跑,有些手动删除后训练就挂了。说明有些文件还在使用,有一些已经不使用了。

paddle为啥不复用或者自己释放不再使用的shm呢?

1
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户