脚本任务间歇性报错
收藏
单卡训练,同一份代码和启动指令,有时会报错,有时原封不动重新提交就可以正常运行。 常见的报错信息如下:
1,FatalError: `Segmentation fault` is detected by the operating system. 2,
2,OSError: (External) Cuda error(2), out of memory.
0
收藏
请登录后评论
显存爆了,调小点batch size 试试
定位了显存报错的地方,构建网络的位置就开始报错。有时重新提个脚本就ok。而且在notebook训练时不会报错,显存占用稳定在3G左右。
换成V100 4卡试试看?