为啥识虫初始代码只能跑一个epoch就被kill
收藏
百度AI识虫项目里的原始代码,在notebook上训练只能跑一个epoch,感觉这个epoch也没跑完,就才5、6个iter就被kill了,一个batch默认是10,代码不像只能跑一个epoch的样子啊,他有for循环,按说应该循环100次啊!求解答
0
收藏
请登录后评论
是不是缓存大小的问题?检查一下reader看看
我也遇过。有时出这个问题,有时还能跑。后来就重建了一个项目,就好了。
我是工作人员. 请问具体是哪个项目? 请提供一个项目url(被killed的那个), 我们看看
显存利用一直在增长 最后被kill了
缓存爆了?
显存不够了用Nvidia-smi看看
正解
这个得提供一下遇到问题的项目网址
显存不够了呗。
把batch_size设为1试试,就知道了
跑程序时可以在运行窗口的下册状态栏里点出标签,看cpu和gpu使用情况。
gpu有32G和16G的两种,所以有时没问题,有时不行
确实如此,运气好就碰到32G的gpu
同意
请问如果我想看cpu用什么命令呢?
理论上使用top或vmstat , 但由于aistudio运行在虚拟机上, 使用这种命令, 看到的其实是宿主机状态.
因此还是建议直接使用界面来观察.
多谢提醒了,其实用top我看的也不是很懂哈哈哈。