运行脚本的血泪教训
收藏
快速回复
AI Studio平台使用 其他Notebook项目 2385 40
运行脚本的血泪教训
收藏
快速回复
AI Studio平台使用 其他Notebook项目 2385 40

由于脚本支持8卡同时训练,最近的比赛我就用脚本来进行了。然而这一切就是燃烧算力卡的开始,对我这个脚本小白来说简直就是噩梦。且听我慢慢道来:

  1. 首先,mv命令是覆盖式操作的。由于我刚开始并没有想到脚本的坑会很多,我就直接来了200多个小时的训练,训练完后发现输出为空。。。因为不知道是覆盖保存,所以每次输出我都把一些其他结果也mv过来了,但是其他文件夹可能是空的,最后结果都给覆盖了。泪奔啊。。。
  2. 接着,就是第二个坑,这个我虽然事后知道了,但是并没有遇到,因为被覆盖成空文件夹了。那就是输出文件一定要小于20G,最好预留空间。
  3. 第三,一定要确保时间是够用的。我最近训练一个将近100小时的,因为还剩108个小时的算力卡,所以觉得应该没问题。但是今天一查,竟然被中止了,再一查算力卡,没了。。。由于各种原因,108个小时也没训练完。所以一定要预留够空间。
  4. 最后,训练过程中即使你选择了实时把结果mv到output文件夹,也不要终止运行下载输出,因为你根本得不到,只有全部运行成功才可以下载输出。这个设定我着实无力吐槽,非常不合理。

不说了,我现在的心情是这样的:

3
收藏
回复
全部评论(40)
时间顺序
没入门的研究生
#2 回复于2020-10

我现在已经怂了,我每次训练一个epoch,然后下载输出,再上传,再训练一个epoch。保险。我没算力卡了

0
回复
AIStudio810258
#3 回复于2020-10

大佬出坑光荣!晒坑可敬!!

赶紧收藏~~

0
回复
3
337954205
#4 回复于2020-10

快和官方哭哭惨 骗骗算力卡(手动狗头)

0
回复
AIStudio810261
#5 回复于2020-10

算力卡官方可以补, 请楼主发邮件到aistudio@baidu.com说明一下情况. 带来不便非常抱歉. 

0
回复
3
337954205
#6 回复于2020-10

哈哈哈 官方来了

0
回复
没入门的研究生
#7 回复于2020-10
算力卡官方可以补, 请楼主发邮件到aistudio@baidu.com说明一下情况. 带来不便非常抱歉. 

棒啊,我这就去,哈哈哈!

0
回复
周小鱼whoyou
#8 回复于2020-10

如果每周只能运行70个小时,是不是可以在跨两周的时候开始训练,这样可以140个小时不间断吗?

0
回复
旧日歌
#9 回复于2020-10

mv覆盖没有提示吗?我记得会有确认啊

0
回复
Zohar
#10 回复于2020-10

来来,出一波避坑指南

0
回复
AIStudio810260
#11 回复于2020-10

脚本得省着点用~算力补不过来

0
回复
没入门的研究生
#12 回复于2020-10
mv覆盖没有提示吗?我记得会有确认啊

运行脚本,也没法提示啊。

0
回复
没入门的研究生
#13 回复于2020-10
如果每周只能运行70个小时,是不是可以在跨两周的时候开始训练,这样可以140个小时不间断吗?

应该可以的,你就在这周结束的前70个小时开始算。

0
回复
AIStudio810260
#14 回复于2020-10
应该可以的,你就在这周结束的前70个小时开始算。

这样看起来还行啊……

0
回复
没入门的研究生
#15 回复于2020-10
算力卡官方可以补, 请楼主发邮件到aistudio@baidu.com说明一下情况. 带来不便非常抱歉. 

谢谢!!回信说补偿了50个小时。兑换后发现是500个小时!!!

0
回复
七年期限
#16 回复于2020-10
谢谢!!回信说补偿了50个小时。兑换后发现是500个小时!!!

0
回复
七年期限
#17 回复于2020-10
谢谢!!回信说补偿了50个小时。兑换后发现是500个小时!!!

那句话咋说 见面撇一半?  哈哈

0
回复
七年期限
#18 回复于2020-10

当时估计想哭的心都有了  哈哈

0
回复
AIStudio810260
#19 回复于2020-10
当时估计想哭的心都有了  哈哈

于是这一顿哭穷之后,他算力卡不仅没少,反而多了……(/狗头跑路)

0
回复
AIStudio810258
#20 回复于2020-10
谢谢!!回信说补偿了50个小时。兑换后发现是500个小时!!!

负责任~~

0
回复
AIStudio810258
#21 回复于2020-10
于是这一顿哭穷之后,他算力卡不仅没少,反而多了……(/狗头跑路)

我也这么觉得。。。~~

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户