百度做这个AI Studio到底是用来干嘛的?
收藏
快速回复
AI Studio平台使用 问答学习资料 1629 18
百度做这个AI Studio到底是用来干嘛的?
收藏
快速回复
AI Studio平台使用 问答学习资料 1629 18

首先,我得先感谢百度做了这么一个既奢侈又免费的平台。

但是从商业角度看,百度花了这么多一笔钱来到底意欲何为?

一方面,感觉很像是在给各种穷的AI爱好者一个平台,追寻他们的AI梦想,纯属捐献。(by the way,这个的确应该被appreciated,再次感谢百度)

另一方面,感觉又在hard sale他们的PaddlePaddle,建立影响力。

但不管那个方面,效率都很低。

例如如果是捐献,那么应该做的更开放,允许大家用各种其他的package和框架,这样对于真正的AI爱好者能产生更大的价值。我不介意每天免费的运算卡的点数低一点,然后以此来换取更大的开放性。

如果是用于增加PaddlePaddle的影响力,那也应该把平台做的更powerful一点,让用户更容易在更广阔的场景下使用。以当前AI Studio的设计,很不适合工业级的探索。大部分的例子都还很像是toy,稍微大一点的实验都无法做,门槛极高。就我所知,大厂都有自己深厚的架构积累,基本上不会看得上PaddlePaddle,而且大厂的数量也很少,做的起大实验的企业其实很少。

于是我猜,PaddlePaddle本来的初衷是帮助小型企业快速试错,让AI相关技术尽快渗透各行各业(当然,如果平台只能用paddlepaddle,就会让这些小企业强绑定百度,增加百度的用户基础,也改善百度在政府端的形象),但讲真的,AI Studio的设计,离企业级还有一些距离。

例如这些限制,

  • 后台任务无法用API或者命令行启动
  • 后台任务无法通过**版本**加载超过1G的数据,加载超过1G的数据必须先创建静态的数据集。这对于大量的动态实验非常麻烦。
  • 无法用命令行来创建静态数据集,也无法在自己的项目中自动生成能被其他项目挂载的数据集。
  • 对于一个有很多数据的工程,在CPU和GPU切换的时候,会因为数据太大而无法切换。这样会强迫用户用GPU的计算资源来做数据传输或者压缩、解压这种CPU就能做的事情,浪费GPU资源。
  • 对于数据比较大的工程,在启动和停止的时候,都占用大量的『数据保存中』,或者『数据加载中』,『数据解压中』等时间,甚至有些时候会加载失败,这样使得调试非常困难。

如果有百度内部员工看到这个帖子,请传达我的感激之情和对这种设计的不解。本人使用这个平台不长,可能还存在大量不了解或误解的地方,若有,请多多指正。

 

 

1
收藏
回复
全部评论(18)
时间顺序
玥亮
#2 回复于2022-10

牛的

1
回复
solene
#3 回复于2022-10

应该是免费学习深度学习

1
回复
JavaRoom
#4 回复于2022-10

我爱 AI Stduio !

我爱 AI Stduio !

我爱 AI Stduio !

1
回复
z
zhujiehaode
#5 回复于2022-10

@开发者

1
回复
李长安
#6 回复于2022-10

牛的

1
回复
李长安
#7 回复于2022-10

应该开一下付费模式了

2
回复
天马行空
#8 回复于2022-10

很好的建议贴啊

 

希望有些建议能被采纳。

 

 

1
回复
深渊上的坑
#9 回复于2022-10

后台任务很好用啊,没看懂提的问题,尤其是1G那个。可能是因为我脚本任务用习惯了,转过来很顺。

对于比较大的数据集,可以在调试的时候把数据解压到data目录里,对应地配好路径等,不要占用项目空间。

不过我觉得,官方是可以搞一个分享什么的,专门介绍AI Studio的一些操作技巧,看文档有时候没那么直观,新用户上手起来不太顺。直播完了也可以把回看链接放文档里,哈哈哈。

2
回复
Dream拒杰
#10 回复于2022-10
后台任务很好用啊,没看懂提的问题,尤其是1G那个。可能是因为我脚本任务用习惯了,转过来很顺。 对于比较大的数据集,可以在调试的时候把数据解压到data目录里,对应地配好路径等,不要占用项目空间。 不过我觉得,官方是可以搞一个分享什么的,专门介绍AI Studio的一些操作技巧,看文档有时候没那么直观,新用户上手起来不太顺。直播完了也可以把回看链接放文档里,哈哈哈。
展开

赞成技巧的分享

1
回复
三岁
#11 回复于2022-10

AI Studio其实应该叫做飞桨开发者社区。官方解释为:

关于AI Studio
AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区,提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。

根本的意义在于推广国产深度学习框架paddlepaddle,同时也给许多因为没有算力无法学习AI的小伙伴们一个便利,非常多的人提到收费,提到开放框架,我觉得这些有可能更加不符合AIStudio的一个初衷与目的。企业里面都是有自己的平台与算力,AIStudio在我看来更加适合高校,个人开发者,企业快速试错的话easyDL,BML,paddleX(客户端)都是非常好的选择。现在的配置确实不是非常高,但是对于基础的学习还是绰绰有余的。

 

不管怎么样,有这样子一个平台还是非常棒的。

百度在开创这个平台的时候就没有准备用来盈利吧,它也在百度AI战略中,为中国AI发展做出着属于自己的一份力吧~

2
回复
你不妨共和
#12 回复于2022-10

肯定有好处啊,不仅对于企业发展,对于作为用户的我们也提供了一个社区来进行交流学习。

2
回复
强力王王
#13 回复于2022-10

后台任务确实有用

2
回复
老狼Max
#14 回复于2022-10

AI studio的目的是提高paddle的用户数量,paddle作为一个开源的产品,要想把产品打磨的很完美,必须要有大量的用户不断的使用,反馈,在改进,免费算力就是用,然后反馈用户体验,在改进。有这么一个循环,产品才能不断的精进

1
回复
ygq
#15 回复于2022-10

算了卡不够了 我该怎么办呀

1
回复
m
miz2014
#16 回复于2022-11
后台任务很好用啊,没看懂提的问题,尤其是1G那个。可能是因为我脚本任务用习惯了,转过来很顺。 对于比较大的数据集,可以在调试的时候把数据解压到data目录里,对应地配好路径等,不要占用项目空间。 不过我觉得,官方是可以搞一个分享什么的,专门介绍AI Studio的一些操作技巧,看文档有时候没那么直观,新用户上手起来不太顺。直播完了也可以把回看链接放文档里,哈哈哈。
展开

“可以在调试的时候把数据解压到data目录里”

我猜你是在提供一个解决方案,但我有些不是很明白。

我的问题是,很多动态数据很大,例如我的其中一个例子是30G左右。

我有两个办法,把这些数据放到“版本”中,但有1个G的限制

具体如下:

创建后台任务,有一个必填的内容是“项目版本”,也就是我们必须先建立一个项目版本才能创建后台任务,而建立项目版本,需要选中项目中的文件

当你试图创建一个项目版本的时候,就会看到这个1G的限制了。

第二种方法是创建一个静态的数据库

但这个方法也不行,因为没有命令行的方式,我可能需要创建超过100个这种数据(所以我称作是动态数据)

在网页上创建一个30G左右的数据库,大概需要12个小时左右,我得先在AI Studio压缩(这个大概20分钟左右,然后下载到本地,这个可能需要4个小时左右,然后再上传,这个需要6个小时左右,而且不能出错)而我要重复这个动作100次,这可能得几个月了,明显也不容易。

我才你提供的是这个解决方案,不知道我有没有理解错。

 

0
回复
m
miz2014
#17 回复于2022-11
三岁 #11
AI Studio其实应该叫做飞桨开发者社区。官方解释为: [代码] [代码] 根本的意义在于推广国产深度学习框架paddlepaddle,同时也给许多因为没有算力无法学习AI的小伙伴们一个便利,非常多的人提到收费,提到开放框架,我觉得这些有可能更加不符合AIStudio的一个初衷与目的。企业里面都是有自己的平台与算力,AIStudio在我看来更加适合高校,个人开发者,企业快速试错的话easyDL,BML,paddleX(客户端)都是非常好的选择。现在的配置确实不是非常高,但是对于基础的学习还是绰绰有余的。   不管怎么样,有这样子一个平台还是非常棒的。 百度在开创这个平台的时候就没有准备用来盈利吧,它也在百度AI战略中,为中国AI发展做出着属于自己的一份力吧~
展开

“有这样子一个平台还是非常棒的。”

同意你的这个说法,我刚刚接触的时候,就大喊:还有这等好事?有点相见恨晚了。

但按照当前的设计,也无法作为学生的主要学习平台,只能是辅助。其他的深度学习框架和工具,我们还得至少熟悉一个。试想,你到一个大厂面试,面试官问你,如果把一个深度学习任务交给你,你会首选用什么框架?理由是什么?

总不能说:paddlepaddle,理由是我穷,用不起其他框架,对其他框架不熟吧?

面试官会说,不用其他的框架,是因为你懒,而不是你穷 :)

"开创这个平台的时候就没有准备用来盈利吧"

我不是说AI Studio应该用来盈利,而是应该达到百度的某个与成本相匹配的战略目的。我的猜测是,AI Studio和paddlepaddle的成本非常高,而现在达到的成就,与这些成本不相匹配。而问题的关键是总体的设计不够周全。

“easyDL,BML,paddleX(客户端)"

我确实是新手,这些我先了解一下,再向这里的各位大神汇报使用体验。

 

0
回复
深渊上的坑
#18 回复于2022-11
miz2014 #16
“可以在调试的时候把数据解压到data目录里” 我猜你是在提供一个解决方案,但我有些不是很明白。 我的问题是,很多动态数据很大,例如我的其中一个例子是30G左右。 我有两个办法,把这些数据放到“版本”中,但有1个G的限制 [图片] 具体如下: 创建后台任务,有一个必填的内容是“项目版本”,也就是我们必须先建立一个项目版本才能创建后台任务,而建立项目版本,需要选中项目中的文件 [图片] 当你试图创建一个项目版本的时候,就会看到这个1G的限制了。 第二种方法是创建一个静态的数据库 [图片] 但这个方法也不行,因为没有命令行的方式,我可能需要创建超过100个这种数据(所以我称作是动态数据) 在网页上创建一个30G左右的数据库,大概需要12个小时左右,我得先在AI Studio压缩(这个大概20分钟左右,然后下载到本地,这个可能需要4个小时左右,然后再上传,这个需要6个小时左右,而且不能出错)而我要重复这个动作100次,这可能得几个月了,明显也不容易。 我才你提供的是这个解决方案,不知道我有没有理解错。  
展开

“版本”的设计本质上只是给你提供一个脚本,执行这个脚本可以进行一系列操作,从而进行长时间的训练任务。所以这个“脚本”显然不可能很大啊,1G以及很不错了。

那么很明显的,数据,完全没必要和脚本捆绑在一起保存吧?只要这个脚本能运行,提前指定好数据的路径,在训练的时候加载数据能够加载到就行,这就是data目录存在的意义。这个目录保存时不算在脚本中,但是提交了版本后,脚本运行的时候,后台服务器其实容量够用,完全可以指定好路径进行训练。

如果还不明白的话,可以多看看有用到后台任务的精品项目,尤其是CV类的,数据集很大,看看其他人怎么处理的。

0
回复
nkufdu
#19 回复于2022-11

我觉的挺好用就是

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户