强化学习7日打卡营心得
收藏
首先非常感谢百度提供的这次难得的机会,百度AI在国内一直处于领先水平,这次强化学习7日打卡营让我受益匪浅。
初识强化学习是在我研究路径规划算法的时候,起先在B站上看了莫烦老师的教学视频,让我对这种基于经验学习的局部路径规划算法产生了浓厚兴趣。在学习了一系列基础知识,如马尔科夫决策、玻尔兹曼动作选择策略、贪婪策略、BP神经网络和CNN,和强化学习算法思想之后,于是在我所能应用的背景下将Q-Learning和DQN的代码在Python和Matlab复现了。我也简单比较了一下强化学习在上面两个工具里运行的差异,python运行效率确实会高很多,神经网络的训练也优良的多,但Matlab里面随机函数优化的比Python好的多。
后面便是在强化学习领域里面广泛学习相关知识和锻炼动手能力,看了大量关于强化学习在路径规划上面运用的论文,学习了PG、DDPG、A3C、PPO、DPPO等算法。
本课程的老师讲解基础知识非常细致,对model-based和model-free进行了介绍,对MC和TD的差异进行了比较,对value-based的强化学习算法中基于on-policy的Sarsa算法、基于off-policy的Q-Learning算法进行了详细的原理讲解,对policy-based的的强化学习算法中PG算法、DDPG算法进行了详细的原理讲解。百度AI团队自主开发的PARL框架使用非常方便,提升了代码效率。再次衷心感谢百度对强化学习兴趣者提供的这次宝贵机会。
0
收藏
请登录后评论
向大佬学习
学无止境,共同进步!
能边上课边看论文太强了
我只是跟着老师走了一遍,感觉入了下门,还得多看看文献