YOLOv3训练到一半卡住不动
收藏
训练到【Epoch 5/20, Batch 27/52】时终端卡住不动了
之前训练的时候报过错误“ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).”
调整num_workers大小无用。
0
收藏
请登录后评论
shm设置问题
使用平台 因为权限问题 这种问题不太好解决
不清楚
问题解决了么?
训练时shm占用不断增加,直到溢出,这是发生了内存泄漏么?
我也遇到了这个问题,shm开40G都不够paddle用的,几个小时就占满了,跑不动了。
/dev/shm/ 目录下生成了很多paddle_*. 文件,有些手动删除后训练还在跑,有些手动删除后训练就挂了。说明有些文件还在使用,有一些已经不使用了。
paddle为啥不复用或者自己释放不再使用的shm呢?