【求助帖】AI studio V100比本地1080ti 训练慢近3倍 已解决
收藏
快速回复
AI Studio平台使用 问答Notebook项目算力相关 1072 10
【求助帖】AI studio V100比本地1080ti 训练慢近3倍 已解决
收藏
快速回复
AI Studio平台使用 问答Notebook项目算力相关 1072 10

   1)PaddlePaddle版本:2.2.2
   2)GPU:本地一块1080ti(11G);AI studio notebook 一块TeslaV100 (16G/32G情况一样)
   3)本地1080ti,CUDA10.2,cudnn8.2;AI studio notebook TeslaV100, CUDA10.1,cudnn7.5;

本地一次iteration 2s左右,AI studio 一次iteration 5.5s左右。

在AI studio print了训练各个阶段的用时,分两种情况:
1)当某次迭代使用visualdl summary的时候,summary用时占大头(网络forward用时0.4s左右,总用时5.5s左右)
2)当某次迭代不使用visualdl summary的时候,网络forward用时占大头(网络forward用时3.8s左右,总用时还是5.5s左右)

请问可能的问题是什么?

z
zhujiehaode
已解决
5# 回复于2022-04
问题解决了,原因是因为AIStudio中cudnn版本较低,测试发现cudnn8.0.4以上就没这个问题了
0
收藏
回复
全部评论(10)
时间顺序
JavaRoom
#2 回复于2022-04

batch size设置呢?

别跑车挂低档和牛车飚高速对比

0
回复
z
zhujiehaode
#3 回复于2022-04
batch size设置呢? 别跑车挂低档和牛车飚高速对比

谢谢回答!

batchsize=2,显存占用10G左右。GPU 利用率几乎一直是100%,所以我觉得不是batchsize的问题。

问题的关键是在AI studio print了训练各个阶段的用时,分两种情况:
1)当某次迭代使用visualdl summary的时候,summary用时占大头(网络forward用时0.4s左右,总用时5.5s左右)
2)当某次迭代不使用visualdl summary的时候,网络forward用时占大头(网络forward用时3.8s左右,总用时还是5.5s左右)

这个现象很奇怪。

0
回复
奔向未来的样子
#4 回复于2022-04

如果你用的够多,并且没事盯梢的话,会发现,时间是具有一定随机性的,哪怕同样的任务,在不同的时间跑两次也有区别

训练不止是看显卡,还有cpu、硬盘等

每一台服务器上多块显卡,其它很多资源都是共享的,如果其它任务占用的多,肯定受影响

0
回复
z
zhujiehaode
#5 回复于2022-04

问题解决了,原因是因为AIStudio中cudnn版本较低,测试发现cudnn8.0.4以上就没这个问题了

0
回复
JavaRoom
#6 回复于2022-04

好像是版本问题。

0
回复
z
zhujiehaode
#7 回复于2022-04
好像是版本问题。

嗯嗯是的,就是cudnn版本低了就慢

0
回复
逍遥郎1392
#8 回复于2022-04

学习了。 这个可以多对比一下,如果是普遍存在的情况,可以建议官方升级一下。哈哈!

0
回复
z
zhujiehaode
#9 回复于2022-04
学习了。 这个可以多对比一下,如果是普遍存在的情况,可以建议官方升级一下。哈哈!

是的,想建议官方升级一下

0
回复
逍遥郎1392
#10 回复于2022-04
是的,想建议官方升级一下

请教一下,怎么查看aistudio上的cudnn版本呢?按照在自己电脑查看的方法找不到对应的文件。

另外,没有root权限,怎么在aistudio上更新cudnn?

0
回复
HolliZhao
#11 回复于2022-04
请教一下,怎么查看aistudio上的cudnn版本呢?按照在自己电脑查看的方法找不到对应的文件。 另外,没有root权限,怎么在aistudio上更新cudnn?

cat /usr/local/cuda-9.0/include/cudnn.h | grep CUDNN_MAJOR -A 2

 

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户