百度做这个AI Studio到底是用来干嘛的？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

m miz2014 发布于2022-10

首先，我得先感谢百度做了这么一个既奢侈又免费的平台。

但是从商业角度看，百度花了这么多一笔钱来到底意欲何为？

一方面，感觉很像是在给各种穷的AI爱好者一个平台，追寻他们的AI梦想，纯属捐献。（by the way，这个的确应该被appreciated，再次感谢百度）

另一方面，感觉又在hard sale他们的PaddlePaddle，建立影响力。

但不管那个方面，效率都很低。

例如如果是捐献，那么应该做的更开放，允许大家用各种其他的package和框架，这样对于真正的AI爱好者能产生更大的价值。我不介意每天免费的运算卡的点数低一点，然后以此来换取更大的开放性。

如果是用于增加PaddlePaddle的影响力，那也应该把平台做的更powerful一点，让用户更容易在更广阔的场景下使用。以当前AI Studio的设计，很不适合工业级的探索。大部分的例子都还很像是toy，稍微大一点的实验都无法做，门槛极高。就我所知，大厂都有自己深厚的架构积累，基本上不会看得上PaddlePaddle，而且大厂的数量也很少，做的起大实验的企业其实很少。

于是我猜，PaddlePaddle本来的初衷是帮助小型企业快速试错，让AI相关技术尽快渗透各行各业（当然，如果平台只能用paddlepaddle，就会让这些小企业强绑定百度，增加百度的用户基础，也改善百度在政府端的形象），但讲真的，AI Studio的设计，离企业级还有一些距离。

例如这些限制，

后台任务无法用API或者命令行启动
后台任务无法通过**版本**加载超过1G的数据，加载超过1G的数据必须先创建静态的数据集。这对于大量的动态实验非常麻烦。
无法用命令行来创建静态数据集，也无法在自己的项目中自动生成能被其他项目挂载的数据集。
对于一个有很多数据的工程，在CPU和GPU切换的时候，会因为数据太大而无法切换。这样会强迫用户用GPU的计算资源来做数据传输或者压缩、解压这种CPU就能做的事情，浪费GPU资源。
对于数据比较大的工程，在启动和停止的时候，都占用大量的『数据保存中』，或者『数据加载中』，『数据解压中』等时间，甚至有些时候会加载失败，这样使得调试非常困难。

如果有百度内部员工看到这个帖子，请传达我的感激之情和对这种设计的不解。本人使用这个平台不长，可能还存在大量不了解或误解的地方，若有，请多多指正。

全部评论(18)

玥亮

#2 回复于2022-10

牛的

solene

#3 回复于2022-10

应该是免费学习深度学习

JavaRoom

#4 回复于2022-10

我爱 AI Stduio ！

zhujiehaode

#5 回复于2022-10

@开发者

李长安

#6 回复于2022-10

牛的

李长安

#7 回复于2022-10

应该开一下付费模式了

天

天马行空

#8 回复于2022-10

很好的建议贴啊

希望有些建议能被采纳。

深渊上的坑

#9 回复于2022-10

后台任务很好用啊，没看懂提的问题，尤其是1G那个。可能是因为我脚本任务用习惯了，转过来很顺。

对于比较大的数据集，可以在调试的时候把数据解压到data目录里，对应地配好路径等，不要占用项目空间。

不过我觉得，官方是可以搞一个分享什么的，专门介绍AI Studio的一些操作技巧，看文档有时候没那么直观，新用户上手起来不太顺。直播完了也可以把回看链接放文档里，哈哈哈。

Dream拒杰

#10 回复于2022-10

深渊上的坑 #9

后台任务很好用啊，没看懂提的问题，尤其是1G那个。可能是因为我脚本任务用习惯了，转过来很顺。对于比较大的数据集，可以在调试的时候把数据解压到data目录里，对应地配好路径等，不要占用项目空间。不过我觉得，官方是可以搞一个分享什么的，专门介绍AI Studio的一些操作技巧，看文档有时候没那么直观，新用户上手起来不太顺。直播完了也可以把回看链接放文档里，哈哈哈。

展开

赞成技巧的分享

三岁

#11 回复于2022-10

AI Studio其实应该叫做飞桨开发者社区。官方解释为：

关于AI Studio
AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区，提供在线编程环境、免费GPU算力、海量开源算法和开放数据，帮助开发者快速创建和部署模型。

根本的意义在于推广国产深度学习框架paddlepaddle，同时也给许多因为没有算力无法学习AI的小伙伴们一个便利，非常多的人提到收费，提到开放框架，我觉得这些有可能更加不符合AIStudio的一个初衷与目的。企业里面都是有自己的平台与算力，AIStudio在我看来更加适合高校，个人开发者，企业快速试错的话easyDL，BML，paddleX（客户端）都是非常好的选择。现在的配置确实不是非常高，但是对于基础的学习还是绰绰有余的。

不管怎么样，有这样子一个平台还是非常棒的。

百度在开创这个平台的时候就没有准备用来盈利吧，它也在百度AI战略中，为中国AI发展做出着属于自己的一份力吧~

你

你不妨共和

#12 回复于2022-10

肯定有好处啊，不仅对于企业发展，对于作为用户的我们也提供了一个社区来进行交流学习。

强力王王

#13 回复于2022-10

后台任务确实有用

老狼Max

#14 回复于2022-10

AI studio的目的是提高paddle的用户数量，paddle作为一个开源的产品，要想把产品打磨的很完美，必须要有大量的用户不断的使用，反馈，在改进，免费算力就是用，然后反馈用户体验，在改进。有这么一个循环，产品才能不断的精进

ygq

#15 回复于2022-10

算了卡不够了我该怎么办呀

miz2014

#16 回复于2022-11

深渊上的坑 #9

展开

“可以在调试的时候把数据解压到data目录里”

我猜你是在提供一个解决方案，但我有些不是很明白。

我的问题是，很多动态数据很大，例如我的其中一个例子是30G左右。

我有两个办法，把这些数据放到“版本”中，但有1个G的限制

具体如下：

创建后台任务，有一个必填的内容是“项目版本”，也就是我们必须先建立一个项目版本才能创建后台任务，而建立项目版本，需要选中项目中的文件

当你试图创建一个项目版本的时候，就会看到这个1G的限制了。

第二种方法是创建一个静态的数据库

但这个方法也不行，因为没有命令行的方式，我可能需要创建超过100个这种数据（所以我称作是动态数据）

在网页上创建一个30G左右的数据库，大概需要12个小时左右，我得先在AI Studio压缩（这个大概20分钟左右，然后下载到本地，这个可能需要4个小时左右，然后再上传，这个需要6个小时左右，而且不能出错）而我要重复这个动作100次，这可能得几个月了，明显也不容易。

我才你提供的是这个解决方案，不知道我有没有理解错。

miz2014

#17 回复于2022-11

三岁 #11

AI Studio其实应该叫做飞桨开发者社区。官方解释为： [代码] [代码] 根本的意义在于推广国产深度学习框架paddlepaddle，同时也给许多因为没有算力无法学习AI的小伙伴们一个便利，非常多的人提到收费，提到开放框架，我觉得这些有可能更加不符合AIStudio的一个初衷与目的。企业里面都是有自己的平台与算力，AIStudio在我看来更加适合高校，个人开发者，企业快速试错的话easyDL，BML，paddleX（客户端）都是非常好的选择。现在的配置确实不是非常高，但是对于基础的学习还是绰绰有余的。不管怎么样，有这样子一个平台还是非常棒的。百度在开创这个平台的时候就没有准备用来盈利吧，它也在百度AI战略中，为中国AI发展做出着属于自己的一份力吧~

展开

“有这样子一个平台还是非常棒的。”

同意你的这个说法，我刚刚接触的时候，就大喊：还有这等好事？有点相见恨晚了。

但按照当前的设计，也无法作为学生的主要学习平台，只能是辅助。其他的深度学习框架和工具，我们还得至少熟悉一个。试想，你到一个大厂面试，面试官问你，如果把一个深度学习任务交给你，你会首选用什么框架？理由是什么？

总不能说：paddlepaddle，理由是我穷，用不起其他框架，对其他框架不熟吧？

面试官会说，不用其他的框架，是因为你懒，而不是你穷 :)

"开创这个平台的时候就没有准备用来盈利吧"

我不是说AI Studio应该用来盈利，而是应该达到百度的某个与成本相匹配的战略目的。我的猜测是，AI Studio和paddlepaddle的成本非常高，而现在达到的成就，与这些成本不相匹配。而问题的关键是总体的设计不够周全。

“easyDL，BML，paddleX（客户端）"

我确实是新手，这些我先了解一下，再向这里的各位大神汇报使用体验。

深渊上的坑

#18 回复于2022-11

miz2014 #16

“可以在调试的时候把数据解压到data目录里” 我猜你是在提供一个解决方案，但我有些不是很明白。我的问题是，很多动态数据很大，例如我的其中一个例子是30G左右。我有两个办法，把这些数据放到“版本”中，但有1个G的限制 [图片] 具体如下：创建后台任务，有一个必填的内容是“项目版本”，也就是我们必须先建立一个项目版本才能创建后台任务，而建立项目版本，需要选中项目中的文件 [图片] 当你试图创建一个项目版本的时候，就会看到这个1G的限制了。第二种方法是创建一个静态的数据库 [图片] 但这个方法也不行，因为没有命令行的方式，我可能需要创建超过100个这种数据（所以我称作是动态数据）在网页上创建一个30G左右的数据库，大概需要12个小时左右，我得先在AI Studio压缩（这个大概20分钟左右，然后下载到本地，这个可能需要4个小时左右，然后再上传，这个需要6个小时左右，而且不能出错）而我要重复这个动作100次，这可能得几个月了，明显也不容易。我才你提供的是这个解决方案，不知道我有没有理解错。

展开

“版本”的设计本质上只是给你提供一个脚本，执行这个脚本可以进行一系列操作，从而进行长时间的训练任务。所以这个“脚本”显然不可能很大啊，1G以及很不错了。

那么很明显的，数据，完全没必要和脚本捆绑在一起保存吧？只要这个脚本能运行，提前指定好数据的路径，在训练的时候加载数据能够加载到就行，这就是data目录存在的意义。这个目录保存时不算在脚本中，但是提交了版本后，脚本运行的时候，后台服务器其实容量够用，完全可以指定好路径进行训练。

如果还不明白的话，可以多看看有用到后台任务的精品项目，尤其是CV类的，数据集很大，看看其他人怎么处理的。

nkufdu

#19 回复于2022-11

我觉的挺好用就是