为什么开始训练几分钟就自动退出了
收藏
Cannot load image
STB Reason : can't fopen
(图片上传不了,换了几种格式都不对)
昨晚开着GPU环境什么都不干就不会自动退出,一开始训练才几分钟就自动退出了,环境都关闭了,这是怎么回事?
0
收藏
真实的硬件你在控制台不能看到资源占用情况吗
有时我感觉内存大小是能被管理员调整的。我曾经不小心用挺大的batch_size训练过模型,后来就再也不能了。所以推测云上的资源不一定是分配了一台独立的主机給用户。
应该是有几种机器的,我看到有时候V100是32G的,有时候是16G的。有时候分到旧机器还会有Floating Point Exception问题,但是等一下换一个就没有这个问题了
这么说,系统还是分配的真实机器,而不是集群后划分的虚拟设备的算力。
目前的卡池确实是有32G和16G两种V100
我在训练我的深度学习项目的时候也出现了这种环境自动关闭的问题,之前运行的时候是没有问题的,我的是在最近这一两个周出现的。运行不了几代就给我自动关闭了。
最近一直用倒没出现过这个BUG
我知道了,官方在5月15号发了个通知,就是使用tf与torch训练的都会出现这种情况!为了推广它自己的飞浆也是拼了!!