写在《强化学习7日打卡营》结营之后

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

ydd 发布于2020-06

对于强化学习，其实不算是小白，初识强化学习可以追溯到16年。那时还在读研，研二上学期选修了马毅大佬的深度学习课程，course project是关于强化学习的，所以自学了一些强化学习基础，包括Sutton老爷子的强化学习圣经《Reinforcement Learning：An Introduction》、David Silver的UCL Course on RL （ https://www.davidsilver.uk/teaching/ ）以及DeepMind的系列paper。此次报名参加强化学习7日打卡营课程，一是想了解下百度的深度学习框架paddlepaddle和强化学习框架PARL，二是很久没接触强化学习了正好借此机会回顾下。
回到课程上，本次课程介绍了强化学习的基本概念和一些经典的强化学习算法，包括Q-learning、Sarsa、DQN、Policy Gradient、DDPG。关于这些算法的原理，我相信人美心善的北大学霸科科老师已经讲得很清楚了，这里就不再赘述。对于初学者，强烈推荐Andrej Karpathy的博客Deep Reinforcement Learning: Pong from Pixels （ http://karpathy.github.io/2016/05/31/rl/ ），讲得通俗易懂，学习过cs231n的同学应该对他很熟悉了。除了每晚的课程直播外，每节课后都留有作业，对于快速入门动手实践十分有帮助。本次课程，总共六次作业满分600分，最终拿到590分（大作业使用DDPG控制四轴飞行器悬停，收敛很慢，没有太多时间调参，最后只拿了90分）。总的来说，这次课程还是很不错的，科科老师、班班芮芮还有助教们也很认真负责，值得推荐。
写在最后，强化学习还是比较前沿的学科，初学者在学习过程中也会遇到各种问题，算法不收敛、调参难...不过，学习强化学习的过程还是蛮有趣的。本来想贴下当年深度学习course project使用A3C算法玩Atari Breakout-v0的视频，发现不支持，就贴几张截图好了。

道阻且长，行则将至，各位炼丹师们大家一起加油吧~

1

收藏

回复

全部评论(1)

aaaaaa

#2 回复于2020-06

点赞

0

回复