为什么开始训练几分钟就自动退出了
收藏
快速回复
AI Studio平台使用 问答Notebook项目 4472 28
为什么开始训练几分钟就自动退出了
收藏
快速回复
AI Studio平台使用 问答Notebook项目 4472 28

Cannot load image

STB Reason : can't fopen

 

(图片上传不了,换了几种格式都不对)

昨晚开着GPU环境什么都不干就不会自动退出,一开始训练才几分钟就自动退出了,环境都关闭了,这是怎么回事?

https://aistudio.baidu.com/aistudio/projectdetail/267007

0
收藏
回复
全部评论(28)
时间顺序
低音炮的春天
#22 回复于2020-02
请教,AI Studio是真得把一台机器分配給大家用,而不是虚拟的。所以查看硬件等命令都是可以在console上用的?

真实的硬件你在控制台不能看到资源占用情况吗

0
回复
AIStudio810258
#23 回复于2020-02
真实的硬件你在控制台不能看到资源占用情况吗

有时我感觉内存大小是能被管理员调整的。我曾经不小心用挺大的batch_size训练过模型,后来就再也不能了。所以推测云上的资源不一定是分配了一台独立的主机給用户。

0
回复
低音炮的春天
#24 回复于2020-02
有时我感觉内存大小是能被管理员调整的。我曾经不小心用挺大的batch_size训练过模型,后来就再也不能了。所以推测云上的资源不一定是分配了一台独立的主机給用户。

应该是有几种机器的,我看到有时候V100是32G的,有时候是16G的。有时候分到旧机器还会有Floating Point Exception问题,但是等一下换一个就没有这个问题了

0
回复
AIStudio810258
#25 回复于2020-02
应该是有几种机器的,我看到有时候V100是32G的,有时候是16G的。有时候分到旧机器还会有Floating Point Exception问题,但是等一下换一个就没有这个问题了

这么说,系统还是分配的真实机器,而不是集群后划分的虚拟设备的算力。

0
回复
星光ld1
#26 回复于2020-02
应该是有几种机器的,我看到有时候V100是32G的,有时候是16G的。有时候分到旧机器还会有Floating Point Exception问题,但是等一下换一个就没有这个问题了

目前的卡池确实是有32G和16G两种V100

0
回复
z
zeus_y
#27 回复于2020-05

我在训练我的深度学习项目的时候也出现了这种环境自动关闭的问题,之前运行的时候是没有问题的,我的是在最近这一两个周出现的。运行不了几代就给我自动关闭了。

0
回复
a
a stan
#28 回复于2020-05

最近一直用倒没出现过这个BUG

0
回复
z
zeus_y
#29 回复于2020-05

我知道了,官方在5月15号发了个通知,就是使用tf与torch训练的都会出现这种情况!为了推广它自己的飞浆也是拼了!!

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户