强化学习7日打卡营学习心得

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

xinglingtianzi 发布于2020-06

非常有幸参加由飞桨深度学习学院举办的强化学习7日打卡营学习班，收获满满。感谢科科老师、芮芮老师以及多位助教老师的辛劳付出，感谢飞桨深度学习学院提供的学习机会。

本次课程主要以下几个方面：
1、强化学习(RL)初印象--强化学习的基础概念、应用以及核心知识
2、基于表格型方法求解RL--SARSA、Q-Learning算法原理与PARL库的实战应用
3、于神经网络方法求解RL--DQN算法原理与实战
4、基于策略梯度求解RL--PG算法与实战
5、连续动作空间上求解RL--DDPG算法原理与实战

通过对该课程的学习，基本掌握了SARSA、Q-Learning算法的原理与实战使用。其中SARSA需要当前的状态、行动以及下一阶段的状态与行动，策略保守；Q-Learning则仅需要当前的状态、行动以及下一阶段的状态，对于下一行动，使用最优策略。这2类算法适用于状态空间与行动空间均离散可数的场景，Q表格不能太大。
对于状态空间与行动空间规模较大的场景，则可以使用DQN网络的深度学习算法来拟合状态空间。该算法主要包括3个方面：训练网络、target网络、经验回放。其中训练网络主要用于更新参数，target网络用于生成训练网络所需的label--需要间歇性固定训练网络的参数作为target网络，经验回放主要克服了经验数据的相关性（correlated data）和非平稳分布（non-stationary distribution）问题。做法是从以往的状态转移（经验）中随机采样进行训练。优点：1. 数据利用率高，因为一个样本被多次使用。2. 连续样本的相关性会使参数更新的方差（variance）比较大，该机制可减少这种相关性。
但在实际的应用场景中，状态空间规模大且行动大多连续，对于这类场景则适用于DDPG网络，该网络相当于是DQN网络的升级版，将离散行动空间扩展到了连续行动空间。相对DQN网络，其多了策略网络以及target_P网络。

本课程基于飞桨的PARL库进行实战，该库已经封装了强化学习的各类算法，实际使用简单便捷。随着课程的深入，学习难度以及实战的难度逐渐增加，特别是在实战中遇到各类问题，只要认真学习课程知识基本上都可以独立解决。飞桨的paddlepaddle在GitHub上封装了各类算法，不单单包括强化学习的PARL库，以后在实际工作中会经常应用飞桨，支持国产支持百度飞桨。希望该平台越做越大，使用的人越来越多。

全部评论(1)

AIStudio810258

#2 回复于2020-06

收货满满啊～～

加油！共同进步