后台任务运行的空间限制20G
收藏
这个限制20G是最终的输出结果,还是运行的过程中就不能超过20G
跑了个paddledetection项目 存的模型大概20g的时候,还没跑完任务就失败了
跑的过程中将模型存到data目录下是否可以解决呢
0
收藏
请登录后评论
不如用脚本任务
或者就是减少checkpoint了……
之前总感觉脚本任务不方便调试,没后台任务直接调通就能跑。看来还是要研究一下脚本任务了
问一下大佬,脚本任务里面的p40算力和v100差很多吗,若是用其他的v100多卡训练除了要改学习率*卡数,还有什么地方要注意.多卡训练就是相对于训练速度提速多倍吗
现在脚本任务好多了,提供了shell支持
P40是单卡,正常来说,多卡很难抢到吧……更不要说调试了,以前抢到过几次
比较棘手的问题是,不同模型库多卡如何用、如何表现都不太统一……
参考文档:
https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/02_paddle2.0_develop/06_device_cn.html#danjiduokaxunlian
还要注意使用 DistributedBatchSampler 进行数据采样
我遇上的问题是,解压数据集后文件数量超限了。请问数据集你是解压到哪里的?量大概多少?
我试过无法在data目录下解压,记得会报错。解压后数据集图片数量就超5000了。有位大佬出招用完后结束训练前删除解压的数据集。后来干脆用脚本了。如果你试好了notebook后台任务,也请告知下肿么弄的~~
我的数据集没那么多,只有一千多张图片