首页 AI Studio教育版 帖子详情
强化学习7日打卡营学习心得
收藏
快速回复
AI Studio教育版 文章课程答疑 863 1
强化学习7日打卡营学习心得
收藏
快速回复
AI Studio教育版 文章课程答疑 863 1

    非常有幸参加由飞桨深度学习学院举办的强化学习7日打卡营学习班,收获满满。感谢科科老师、芮芮老师以及多位助教老师的辛劳付出,感谢飞桨深度学习学院提供的学习机会。

    本次课程主要以下几个方面:
1、强化学习(RL)初印象--强化学习的基础概念、应用以及核心知识
2、基于表格型方法求解RL--SARSA、Q-Learning算法原理与PARL库的实战应用
3、于神经网络方法求解RL--DQN算法原理与实战
4、基于策略梯度求解RL--PG算法与实战
5、连续动作空间上求解RL--DDPG算法原理与实战

    通过对该课程的学习,基本掌握了SARSA、Q-Learning算法的原理与实战使用。其中SARSA需要当前的状态、行动以及下一阶段的状态与行动,策略保守;Q-Learning则仅需要当前的状态、行动以及下一阶段的状态,对于下一行动,使用最优策略。这2类算法适用于状态空间与行动空间均离散可数的场景,Q表格不能太大。
    对于状态空间与行动空间规模较大的场景,则可以使用DQN网络的深度学习算法来拟合状态空间。该算法主要包括3个方面:训练网络、target网络、经验回放。其中训练网络主要用于更新参数,target网络用于生成训练网络所需的label--需要间歇性固定训练网络的参数作为target网络,经验回放主要克服了经验数据的相关性(correlated data)和非平稳分布(non-stationary distribution)问题。做法是从以往的状态转移(经验)中随机采样进行训练。优点:1. 数据利用率高,因为一个样本被多次使用。2. 连续样本的相关性会使参数更新的方差(variance)比较大,该机制可减少这种相关性。
    但在实际的应用场景中,状态空间规模大且行动大多连续,对于这类场景则适用于DDPG网络,该网络相当于是DQN网络的升级版,将离散行动空间扩展到了连续行动空间。相对DQN网络,其多了策略网络以及target_P网络。


    本课程基于飞桨的PARL库进行实战,该库已经封装了强化学习的各类算法,实际使用简单便捷。随着课程的深入,学习难度以及实战的难度逐渐增加,特别是在实战中遇到各类问题,只要认真学习课程知识基本上都可以独立解决。飞桨的paddlepaddle在GitHub上封装了各类算法,不单单包括强化学习的PARL库,以后在实际工作中会经常应用飞桨,支持国产支持百度飞桨。希望该平台越做越大,使用的人越来越多。

0
收藏
回复
全部评论(1)
时间顺序
AIStudio810258
#2 回复于2020-06

收货满满啊~~

加油!共同进步

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户