首页 AI Studio教育版 帖子详情
令人眼前一亮的《强化学习7日打卡营》
收藏
快速回复
AI Studio教育版 文章课程答疑 1497 19
令人眼前一亮的《强化学习7日打卡营》
收藏
快速回复
AI Studio教育版 文章课程答疑 1497 19

         作者:旭日生辉

         7天的紧张学习都在直播、回看视频、做作业中度过,在完成6个实战编程作业后顺利结束了,回顾整个学习过程,对这门课的评价应该是“眼前一亮”!我是在开课一天后才知道这门课并果断报名学习的,一进入班班老师把我介绍进去的同学群,马上感受到年轻后浪们的聪明活力和热情四射,一来二往的沟通交流中,学霸大佬比比皆是,让我这个前浪应接不暇,但更让我印象深刻的是后浪们不仅仅是犀利厉害、刻苦努力,而且总是乐于帮助别人。

              我对这门课有两点体会:

一、特色明显:

         科科老师曾在第1-1课中讲到强化学习的入门路线一般要经过图一所示的路线:

                                                                         图一

           对于大部分学习时间有限的初学者,有没有一种能在很短时间通过实际动手而非理论讲解,对强化学习建立初步认知呢?虽然之前我在EDX上过MIT的机器学习(MIT6.86x)以及微软的强化学习(DAT257x),但强化学习只是前者的一个模块、后者只做实验讲解很少。我认为百度的这门课给学习市场提供了一个很好的选项(如图二所示),即在7天的紧凑学习里直接切入主要算法的最前沿,让我们动手实践体验的同时对理论高屋建瓴,见树也见林,真的是受益匪浅。

                                                                  图二

            特色明显的另一面体现在内容的精挑细选、由浅入深、逻辑自洽,学完有一种行云流水般畅快的感觉。如图三所示:

                                                                            图三

           从有模型的马尔可夫过程(动态规划)概念开始(由于在现实中状态函数P和回报函数R已知的情况并不普遍,科科老师在此课中有意忽略了动态规划算法,直接关注P函数和R函数均未知的免模型算法),到免模型的时序差分算法,体验科科老师称之为“生活手册”的表格型方法(我们通过迷宫游戏体验在线策略的SARSA,离线策略的Q-Learning);

         面对复杂性升级,进入状态数和/或动作数的无限视野(infinite horizon),动手体验通过神经网络(深度学习)前沿方法DQN来近似逼近Q函数(我们通过mountain car游戏体验DQN);至此,通过寻找价值最大的Q函数间接寻找最优策略的方法告一段落。

        逻辑上,有没有直接寻找最优策略的方法呢?答案是肯定的,那就是能够最终给出(离散)动作发生概率(随机策略)的策略梯度法(PG)(我们通过设计乒乓智能体体验PG算法);

        问题到此还没有完,对于连续动作空间的智能体,DQN怎么实现?DDPG算法提供了一个答案,即把深度学习与确定性策略梯度相结合,能够快速有效地求解连续性动作的强化学习任务(我们通过四轴飞行器悬停体验DDPG)。

二、讲解清晰:

        科科老师不愧是百度世界冠军成员、北大学霸,讲课亲切自然、条理清晰,我略举一二例说明。

       科科老师擅长举例讲解晦涩的概念、深入浅出,有一种信手拈来的感觉,例如在第2课讲解SARSA和Q-Learning算法区别时,通过同一个例子的动态演示,让我们看到智能体在SARSA时保守、舍近求远尽量远离陷阱(我将SARSA算法总结为“小心驶得万年船”),而在Q-Learning情况下选择激进、不惜掉入陷阱也要最短距离的最大回报(我将Q-Learning算法总结为“富贵险中求”),从而帮助学生对二者公式项里分别出现的在线和离线概念本质建立起非常直观的认识。如图四、五、六所示:

                                                                            图四

                                                                  图五

                                                                           图六

        又比如,作为一门实践课,理论呈现的拿捏是一门艺术,可以说要画龙点睛、惜墨如金,例如第4-1课中策略期望回报的梯度公式是本课中唯一证明的公式,科科老师不是一上来就证明公式,而是通过对比蒙特卡洛和时序差分里该公式的不同处理,帮助学生对算法中隐含的交叉熵(cross entropy)建立直观理解,把证明放到课程最后,其中用到的技巧巧妙地消掉了未知的状态转移概率,证明过程让人十分过瘾。如图七、八所示:

                                                               图七

                                                              图八       

          强化学习最接近一个人从出生到成人的学习过程:行动试错、从生活中得到奖赏或惩罚、寻找最优策略、达到生活目标,其魅力在于提供了人工智能超越人类的思维方式和策略智慧,反哺人类知识和智慧的进步,有可能实现道与术完美的结合。

       “路漫漫其修远兮,吾将上下而求索”。中国古代先贤很早就用诗句表达出强化学习的哲学思想。在我看来,强化学习本质就是对未知的一种修行,它既是修行的终极目标即智慧,又是修行的手段即日益丰富的算法,更从价值观上吻合我对人生下半场的信念;作为一个悲观的乐观主义者,相信尽管生命有限无法预知,但通过强化学习和终生学习“求索”智慧与美的过程却可以永无止境。            

         这次的学习实践是我第一次体验百度的PARL框架(模型、算法、智能体),虽然只是初步,但也感受到平台的强大,希望有机会利用到PARL平台做更多的尝试,在强化学习之路走得更深更远。最后,再次感谢科科老师、班主任以及可爱的年轻同学们!

2020.6.26

0
收藏
回复
全部评论(19)
时间顺序
AIStudio810261
#2 回复于2020-06

wow, 好详细呀, 写得真心棒

0
回复
aaaaaa
#3 回复于2020-06

点赞

0
回复
lu180420
#4 回复于2020-06

是不错

0
回复
w
wangwei8638
#5 回复于2020-06

写的不错

0
回复
luckydu
#6 回复于2020-07

加油

0
回复
夜夜夜
#7 回复于2020-07

mark一下  学习

0
回复
夜夜夜
#8 回复于2020-07

mark一下  学习

0
回复
skywalk163
#9 回复于2020-07

写的非常好!

0
回复
夜夜夜
#10 回复于2020-07

学习一下,点赞。

0
回复
AIStudio810258
#11 回复于2020-07

收货满满啊,而且老师确实讲得很好!

0
回复
AIStudio810258
#12 回复于2020-07

老实说,我感觉强化学习是最像大家心里原本想的那种人工智能的~~

现阶段比监督学习和无监督学习更像些。

0
回复
w
wangwei8638
#13 回复于2020-07
老实说,我感觉强化学习是最像大家心里原本想的那种人工智能的~~ 现阶段比监督学习和无监督学习更像些。

自主学习,自主进化

0
回复
lu180420
#14 回复于2020-07
自主学习,自主进化

不能和现实交互。这是一大障碍。实现很多时候是没有evn

0
回复
夜夜夜
#15 回复于2020-07

mark 一下,学习学习

0
回复
thinc
#16 回复于2020-07
夜夜夜 #15
mark 一下,学习学习

mark警告哈哈

0
回复
AIStudio810260
#17 回复于2020-07
lu180420 #14
不能和现实交互。这是一大障碍。实现很多时候是没有evn

是的,很多真实场景出现一点失误就会造成严重后果,如果不能完全模拟env的话很难

0
回复
夜夜夜
#18 回复于2020-07

感谢分享,好东西

0
回复
w
wangwei8638
#19 回复于2020-07

反复观摩

0
回复
Mr.郑先生_
#20 回复于2020-08

来学习了

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户