【求助帖】AI studio V100比本地1080ti 训练慢近3倍
收藏
1)PaddlePaddle版本:2.2.2
2)GPU:本地一块1080ti(11G);AI studio notebook 一块TeslaV100 (16G/32G情况一样)
3)本地1080ti,CUDA10.2,cudnn8.2;AI studio notebook TeslaV100, CUDA10.1,cudnn7.5;
本地一次iteration 2s左右,AI studio 一次iteration 5.5s左右。
在AI studio print了训练各个阶段的用时,分两种情况:
1)当某次迭代使用visualdl summary的时候,summary用时占大头(网络forward用时0.4s左右,总用时5.5s左右)
2)当某次迭代不使用visualdl summary的时候,网络forward用时占大头(网络forward用时3.8s左右,总用时还是5.5s左右)
请问可能的问题是什么?
0
收藏
请登录后评论
batch size设置呢?
别跑车挂低档和牛车飚高速对比
谢谢回答!
batchsize=2,显存占用10G左右。GPU 利用率几乎一直是100%,所以我觉得不是batchsize的问题。
问题的关键是在AI studio print了训练各个阶段的用时,分两种情况:
1)当某次迭代使用visualdl summary的时候,summary用时占大头(网络forward用时0.4s左右,总用时5.5s左右)
2)当某次迭代不使用visualdl summary的时候,网络forward用时占大头(网络forward用时3.8s左右,总用时还是5.5s左右)
这个现象很奇怪。
如果你用的够多,并且没事盯梢的话,会发现,时间是具有一定随机性的,哪怕同样的任务,在不同的时间跑两次也有区别
训练不止是看显卡,还有cpu、硬盘等
每一台服务器上多块显卡,其它很多资源都是共享的,如果其它任务占用的多,肯定受影响
问题解决了,原因是因为AIStudio中cudnn版本较低,测试发现cudnn8.0.4以上就没这个问题了
好像是版本问题。
嗯嗯是的,就是cudnn版本低了就慢
学习了。 这个可以多对比一下,如果是普遍存在的情况,可以建议官方升级一下。哈哈!
是的,想建议官方升级一下
请教一下,怎么查看aistudio上的cudnn版本呢?按照在自己电脑查看的方法找不到对应的文件。
另外,没有root权限,怎么在aistudio上更新cudnn?
cat /usr/local/cuda-9.0/include/cudnn.h | grep CUDNN_MAJOR -A 2