说起来强化学习已经是我在AIStudio上系统学习的第三门课程了,相比之前的系列课程,比如说CV,NLP之类的,这些领域我还算是有一定的认知,但是强化学习惭愧的讲了解几乎为零。因为强化学习之前一直给我一个印象有点偏向于游戏,或者说是做个AI玩玩这么一个感觉,总之有点华而不实,不太适合在我所处的领域中落地。这个问题待会会在仔细说说,这次AIStudio开设了这门课程,我还是抑制不住强烈的好奇心和求知欲报名参加了哈哈。
开课第一天我的第一反应就是,哇,科科老师这么年轻都成大神了,真是厉害,而且还是个萌妹子,造型还特别像猎空(此处自行百度~)。就这样从第一节课一直跟到最后,感觉老师的教学思路非常清晰,不愧是大神,学霸而不失幽默,从Sarsa-Qlearn-DQN-PG-DDPG,这样循序渐进的学习对于零基础的我来说还是比较容易理解的。现在我也算是正式入门强化学习,又能在别人面前吹吹牛了,真是奇怪的知识又增加了。
那么回到一开始我提到的一个问题,任何技术最终是要回归到产品落地的,我始终在思考,强化学习如何才能服务于我的领域。在课上老师介绍强化学习时说到了ALphaGO,星际争霸2,DOTA2,留的作业呢也都是一些小游戏吧哈哈(不是吐槽科科老师啊),所以还是回到我的问题,强化学习除了玩儿之外怎么才能服务于生产,解放人力。这块儿目前都有那些成功案例,有机会希望飞桨强化学习团队能够给我们介绍一下目前强化学习的工业应用哈。
最后再说说PARL这个框架,因为没有太深度的使用都是一些简单的理解,从作业中呢就可以看到目前主流强化学习的算法都提供了可用的API,还有一个不太确定的感觉是因为强化学习算法与传统的CNN,RNN或者语言模型很不一样,所以似乎GPU对PARL强化学习的计算加速效果不是特别明显,是不是采用CPU集群计算方式更好?总之以后有时间还是会多听听飞将团队的算法大神们的授课哈。
强化学习能打星际难道就不能战场辅助指挥么?哈哈
课上老师还介绍了,EL还能用于金融序列预测。
加油!共同进步!
强化学习应该还是有很多应用领域的,肯定不仅仅是游戏。可能游戏只是相对比较成熟的应用demo吧
还有波士顿动力的机器狗
直接用于金融领域是要输钱的。。。除非用点遗传算法
我知道的是有用在工业空调的节能降耗上,感觉比较像四轴飞行器的简化版,去找一个比较节能的控制策略。。。
利用大数据预测,应该比人做的更好