运行脚本的血泪教训
收藏
由于脚本支持8卡同时训练,最近的比赛我就用脚本来进行了。然而这一切就是燃烧算力卡的开始,对我这个脚本小白来说简直就是噩梦。且听我慢慢道来:
- 首先,mv命令是覆盖式操作的。由于我刚开始并没有想到脚本的坑会很多,我就直接来了200多个小时的训练,训练完后发现输出为空。。。因为不知道是覆盖保存,所以每次输出我都把一些其他结果也mv过来了,但是其他文件夹可能是空的,最后结果都给覆盖了。泪奔啊。。。
- 接着,就是第二个坑,这个我虽然事后知道了,但是并没有遇到,因为被覆盖成空文件夹了。那就是输出文件一定要小于20G,最好预留空间。
- 第三,一定要确保时间是够用的。我最近训练一个将近100小时的,因为还剩108个小时的算力卡,所以觉得应该没问题。但是今天一查,竟然被中止了,再一查算力卡,没了。。。由于各种原因,108个小时也没训练完。所以一定要预留够空间。
- 最后,训练过程中即使你选择了实时把结果mv到output文件夹,也不要终止运行下载输出,因为你根本得不到,只有全部运行成功才可以下载输出。这个设定我着实无力吐槽,非常不合理。
不说了,我现在的心情是这样的:
3
收藏
我现在已经怂了,我每次训练一个epoch,然后下载输出,再上传,再训练一个epoch。保险。我没算力卡了
大佬出坑光荣!晒坑可敬!!
赶紧收藏~~
快和官方哭哭惨 骗骗算力卡(手动狗头)
算力卡官方可以补, 请楼主发邮件到aistudio@baidu.com说明一下情况. 带来不便非常抱歉.
哈哈哈 官方来了
棒啊,我这就去,哈哈哈!
如果每周只能运行70个小时,是不是可以在跨两周的时候开始训练,这样可以140个小时不间断吗?
mv覆盖没有提示吗?我记得会有确认啊
来来,出一波避坑指南
脚本得省着点用~算力补不过来
运行脚本,也没法提示啊。
应该可以的,你就在这周结束的前70个小时开始算。
这样看起来还行啊……
谢谢!!回信说补偿了50个小时。兑换后发现是500个小时!!!
哇
那句话咋说 见面撇一半? 哈哈
当时估计想哭的心都有了 哈哈
于是这一顿哭穷之后,他算力卡不仅没少,反而多了……(/狗头跑路)
负责任~~
我也这么觉得。。。~~