百度做这个AI Studio到底是用来干嘛的?
收藏
首先,我得先感谢百度做了这么一个既奢侈又免费的平台。
但是从商业角度看,百度花了这么多一笔钱来到底意欲何为?
一方面,感觉很像是在给各种穷的AI爱好者一个平台,追寻他们的AI梦想,纯属捐献。(by the way,这个的确应该被appreciated,再次感谢百度)
另一方面,感觉又在hard sale他们的PaddlePaddle,建立影响力。
但不管那个方面,效率都很低。
例如如果是捐献,那么应该做的更开放,允许大家用各种其他的package和框架,这样对于真正的AI爱好者能产生更大的价值。我不介意每天免费的运算卡的点数低一点,然后以此来换取更大的开放性。
如果是用于增加PaddlePaddle的影响力,那也应该把平台做的更powerful一点,让用户更容易在更广阔的场景下使用。以当前AI Studio的设计,很不适合工业级的探索。大部分的例子都还很像是toy,稍微大一点的实验都无法做,门槛极高。就我所知,大厂都有自己深厚的架构积累,基本上不会看得上PaddlePaddle,而且大厂的数量也很少,做的起大实验的企业其实很少。
于是我猜,PaddlePaddle本来的初衷是帮助小型企业快速试错,让AI相关技术尽快渗透各行各业(当然,如果平台只能用paddlepaddle,就会让这些小企业强绑定百度,增加百度的用户基础,也改善百度在政府端的形象),但讲真的,AI Studio的设计,离企业级还有一些距离。
例如这些限制,
- 后台任务无法用API或者命令行启动
- 后台任务无法通过**版本**加载超过1G的数据,加载超过1G的数据必须先创建静态的数据集。这对于大量的动态实验非常麻烦。
- 无法用命令行来创建静态数据集,也无法在自己的项目中自动生成能被其他项目挂载的数据集。
- 对于一个有很多数据的工程,在CPU和GPU切换的时候,会因为数据太大而无法切换。这样会强迫用户用GPU的计算资源来做数据传输或者压缩、解压这种CPU就能做的事情,浪费GPU资源。
- 对于数据比较大的工程,在启动和停止的时候,都占用大量的『数据保存中』,或者『数据加载中』,『数据解压中』等时间,甚至有些时候会加载失败,这样使得调试非常困难。
如果有百度内部员工看到这个帖子,请传达我的感激之情和对这种设计的不解。本人使用这个平台不长,可能还存在大量不了解或误解的地方,若有,请多多指正。
1
收藏
请登录后评论
牛的
应该是免费学习深度学习
我爱 AI Stduio !
我爱 AI Stduio !
我爱 AI Stduio !
@开发者
牛的
应该开一下付费模式了
很好的建议贴啊
希望有些建议能被采纳。
后台任务很好用啊,没看懂提的问题,尤其是1G那个。可能是因为我脚本任务用习惯了,转过来很顺。
对于比较大的数据集,可以在调试的时候把数据解压到data目录里,对应地配好路径等,不要占用项目空间。
不过我觉得,官方是可以搞一个分享什么的,专门介绍AI Studio的一些操作技巧,看文档有时候没那么直观,新用户上手起来不太顺。直播完了也可以把回看链接放文档里,哈哈哈。
赞成技巧的分享
AI Studio其实应该叫做飞桨开发者社区。官方解释为:
关于AI Studio
AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区,提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。
根本的意义在于推广国产深度学习框架paddlepaddle,同时也给许多因为没有算力无法学习AI的小伙伴们一个便利,非常多的人提到收费,提到开放框架,我觉得这些有可能更加不符合AIStudio的一个初衷与目的。企业里面都是有自己的平台与算力,AIStudio在我看来更加适合高校,个人开发者,企业快速试错的话easyDL,BML,paddleX(客户端)都是非常好的选择。现在的配置确实不是非常高,但是对于基础的学习还是绰绰有余的。
不管怎么样,有这样子一个平台还是非常棒的。
百度在开创这个平台的时候就没有准备用来盈利吧,它也在百度AI战略中,为中国AI发展做出着属于自己的一份力吧~
肯定有好处啊,不仅对于企业发展,对于作为用户的我们也提供了一个社区来进行交流学习。
后台任务确实有用
AI studio的目的是提高paddle的用户数量,paddle作为一个开源的产品,要想把产品打磨的很完美,必须要有大量的用户不断的使用,反馈,在改进,免费算力就是用,然后反馈用户体验,在改进。有这么一个循环,产品才能不断的精进
算了卡不够了 我该怎么办呀
“可以在调试的时候把数据解压到data目录里”
我猜你是在提供一个解决方案,但我有些不是很明白。
我的问题是,很多动态数据很大,例如我的其中一个例子是30G左右。
我有两个办法,把这些数据放到“版本”中,但有1个G的限制
具体如下:
创建后台任务,有一个必填的内容是“项目版本”,也就是我们必须先建立一个项目版本才能创建后台任务,而建立项目版本,需要选中项目中的文件
当你试图创建一个项目版本的时候,就会看到这个1G的限制了。
第二种方法是创建一个静态的数据库
但这个方法也不行,因为没有命令行的方式,我可能需要创建超过100个这种数据(所以我称作是动态数据)
在网页上创建一个30G左右的数据库,大概需要12个小时左右,我得先在AI Studio压缩(这个大概20分钟左右,然后下载到本地,这个可能需要4个小时左右,然后再上传,这个需要6个小时左右,而且不能出错)而我要重复这个动作100次,这可能得几个月了,明显也不容易。
我才你提供的是这个解决方案,不知道我有没有理解错。
“有这样子一个平台还是非常棒的。”
同意你的这个说法,我刚刚接触的时候,就大喊:还有这等好事?有点相见恨晚了。
但按照当前的设计,也无法作为学生的主要学习平台,只能是辅助。其他的深度学习框架和工具,我们还得至少熟悉一个。试想,你到一个大厂面试,面试官问你,如果把一个深度学习任务交给你,你会首选用什么框架?理由是什么?
总不能说:paddlepaddle,理由是我穷,用不起其他框架,对其他框架不熟吧?
面试官会说,不用其他的框架,是因为你懒,而不是你穷 :)
"开创这个平台的时候就没有准备用来盈利吧"
我不是说AI Studio应该用来盈利,而是应该达到百度的某个与成本相匹配的战略目的。我的猜测是,AI Studio和paddlepaddle的成本非常高,而现在达到的成就,与这些成本不相匹配。而问题的关键是总体的设计不够周全。
“easyDL,BML,paddleX(客户端)"
我确实是新手,这些我先了解一下,再向这里的各位大神汇报使用体验。
“版本”的设计本质上只是给你提供一个脚本,执行这个脚本可以进行一系列操作,从而进行长时间的训练任务。所以这个“脚本”显然不可能很大啊,1G以及很不错了。
那么很明显的,数据,完全没必要和脚本捆绑在一起保存吧?只要这个脚本能运行,提前指定好数据的路径,在训练的时候加载数据能够加载到就行,这就是data目录存在的意义。这个目录保存时不算在脚本中,但是提交了版本后,脚本运行的时候,后台服务器其实容量够用,完全可以指定好路径进行训练。
如果还不明白的话,可以多看看有用到后台任务的精品项目,尤其是CV类的,数据集很大,看看其他人怎么处理的。
我觉的挺好用就是