运行脚本的血泪教训
收藏
由于脚本支持8卡同时训练,最近的比赛我就用脚本来进行了。然而这一切就是燃烧算力卡的开始,对我这个脚本小白来说简直就是噩梦。且听我慢慢道来:
- 首先,mv命令是覆盖式操作的。由于我刚开始并没有想到脚本的坑会很多,我就直接来了200多个小时的训练,训练完后发现输出为空。。。因为不知道是覆盖保存,所以每次输出我都把一些其他结果也mv过来了,但是其他文件夹可能是空的,最后结果都给覆盖了。泪奔啊。。。
- 接着,就是第二个坑,这个我虽然事后知道了,但是并没有遇到,因为被覆盖成空文件夹了。那就是输出文件一定要小于20G,最好预留空间。
- 第三,一定要确保时间是够用的。我最近训练一个将近100小时的,因为还剩108个小时的算力卡,所以觉得应该没问题。但是今天一查,竟然被中止了,再一查算力卡,没了。。。由于各种原因,108个小时也没训练完。所以一定要预留够空间。
- 最后,训练过程中即使你选择了实时把结果mv到output文件夹,也不要终止运行下载输出,因为你根本得不到,只有全部运行成功才可以下载输出。这个设定我着实无力吐槽,非常不合理。
不说了,我现在的心情是这样的:
3
收藏
这表情 真实写照
写的非常有用,经验之谈,可以借鉴
非常有借鉴价值
心有戚戚焉。
踩雷
感谢楼主劝退脚本任务,萌新我安心挂机
等着你的AI女友呢。楼主
哈哈哈哈哈哈哈管理快来,没收他的算力~~~
残忍
没收不了,用完了
盲生, 你发现了华点. 理论上是可行的. 但我也没试过.
中奖了。
举报举报
哪呢哪呢
每周70小时限制只是notebook的限制,对脚本和后台任务没有此限制。
对的
每周70小时限制只是notebook的限制,对脚本和后台任务没有此限制
作者肯定知道 哈哈