强化学习7日打卡营学习笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

s scaucrj 发布于2020-06

重温一下强化学习7天打卡营，主要介绍了强化学习的概念、环境搭建以及常见的几类强化学习求解方法的代码实战。

环境搭建

# 先卸载AIStudio自带的库
!pip uninstall -y parl
!pip uninstall -y pandas scikit-learn
!pip uninstall -y gym
!pip uninstall -y paddlepaddle
# 配置强化学习环境，指定软件版本
!pip install gym
!pip install paddlepaddle==1.6.3
!pip install parl==1.3.1

paddle是百度开源的深度学习算法库，parl是百度开源的强化学习框架。gym则是OpenAI一款开源的软件库，提供了强化学习的游戏模拟环境。通过这几个软件，我们可以很快上手强化学习的模型训练。

模型选择
Sarsa、Q-Learning基于表格求解强化学习问题，它的状态通常是有限个而且不多的，求解和训练过程相对简单。DQN则引入了神经网络代替Q表格，用于解决连续状态空间问题，它的状态也是有限个的。Policy Gradient则基于梯度提升的方法，通过softmax函数计算每个动作的概率，对模型进行训练。上述3种方法只适用于离散动作空间，而DDPG可以解决连续动作空间问题。DDPG是一个双模型结构，既包含了Q网络结构，也包含了策略模型结构。

参数优化
具体问题具体分析。首先选择模型，然后确定神经网络结构，可选择单层神经网络、多层神经网络或者更复杂的神经网络结构。学习率可根据训练情况适当调节。各个模型的理论方法、实现方法可操作打卡营的课程不断重温，也可参考上面提到的论文方法。

全部评论(3)

AIStudio810258

#2 回复于2020-06

收获满满啊～

加油！共同努力！

夜夜夜

#3 回复于2020-07

感谢分享，好东西

pika

#4 回复于2020-07

加油共同努力