【求助帖】AI studio V100比本地1080ti 训练慢近3倍

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

z zhujiehaode 发布于2022-04

1）PaddlePaddle版本：2.2.2
2）GPU：本地一块1080ti（11G）；AI studio notebook 一块TeslaV100 （16G/32G情况一样）
3）本地1080ti，CUDA10.2，cudnn8.2；AI studio notebook TeslaV100， CUDA10.1，cudnn7.5；

本地一次iteration 2s左右，AI studio 一次iteration 5.5s左右。

在AI studio print了训练各个阶段的用时，分两种情况：
1）当某次迭代使用visualdl summary的时候，summary用时占大头（网络forward用时0.4s左右，总用时5.5s左右）
2）当某次迭代不使用visualdl summary的时候，网络forward用时占大头（网络forward用时3.8s左右，总用时还是5.5s左右）

请问可能的问题是什么？

zhujiehaode

已解决

5# 回复于2022-04

问题解决了，原因是因为AIStudio中cudnn版本较低，测试发现cudnn8.0.4以上就没这个问题了

全部评论(10)

JavaRoom

#2 回复于2022-04

batch size设置呢？

别跑车挂低档和牛车飚高速对比

zhujiehaode

#3 回复于2022-04

JavaRoom #2

batch size设置呢？别跑车挂低档和牛车飚高速对比

谢谢回答！

batchsize=2，显存占用10G左右。GPU 利用率几乎一直是100%，所以我觉得不是batchsize的问题。

问题的关键是在AI studio print了训练各个阶段的用时，分两种情况：
1）当某次迭代使用visualdl summary的时候，summary用时占大头（网络forward用时0.4s左右，总用时5.5s左右）
2）当某次迭代不使用visualdl summary的时候，网络forward用时占大头（网络forward用时3.8s左右，总用时还是5.5s左右）

这个现象很奇怪。

奔向未来的样子

#4 回复于2022-04

如果你用的够多，并且没事盯梢的话，会发现，时间是具有一定随机性的，哪怕同样的任务，在不同的时间跑两次也有区别

训练不止是看显卡，还有cpu、硬盘等

每一台服务器上多块显卡，其它很多资源都是共享的，如果其它任务占用的多，肯定受影响

zhujiehaode

#5 回复于2022-04

问题解决了，原因是因为AIStudio中cudnn版本较低，测试发现cudnn8.0.4以上就没这个问题了

JavaRoom

#6 回复于2022-04

好像是版本问题。

zhujiehaode

#7 回复于2022-04

JavaRoom #6

好像是版本问题。

嗯嗯是的，就是cudnn版本低了就慢

逍

逍遥郎1392

#8 回复于2022-04

学习了。　这个可以多对比一下，如果是普遍存在的情况，可以建议官方升级一下。哈哈！

zhujiehaode

#9 回复于2022-04

逍遥郎1392 #8

学习了。　这个可以多对比一下，如果是普遍存在的情况，可以建议官方升级一下。哈哈！

是的，想建议官方升级一下

逍

逍遥郎1392

#10 回复于2022-04

zhujiehaode #9

是的，想建议官方升级一下

请教一下，怎么查看aistudio上的cudnn版本呢？按照在自己电脑查看的方法找不到对应的文件。

另外，没有ｒｏｏｔ权限，怎么在aistudio上更新cudnn？

HolliZhao

#11 回复于2022-04

逍遥郎1392 #10

请教一下，怎么查看aistudio上的cudnn版本呢？按照在自己电脑查看的方法找不到对应的文件。另外，没有ｒｏｏｔ权限，怎么在aistudio上更新cudnn？

cat /usr/local/cuda-9.0/include/cudnn.h | grep CUDNN_MAJOR -A 2