首页 AI Studio教育版 帖子详情
强化学习7日打卡营学习笔记
收藏
快速回复
AI Studio教育版 文章课程答疑 1087 3
强化学习7日打卡营学习笔记
收藏
快速回复
AI Studio教育版 文章课程答疑 1087 3

重温一下强化学习7天打卡营,主要介绍了强化学习的概念、环境搭建以及常见的几类强化学习求解方法的代码实战。

环境搭建

# 先卸载AIStudio自带的库
!pip uninstall -y parl
!pip uninstall -y pandas scikit-learn
!pip uninstall -y gym
!pip uninstall -y paddlepaddle
# 配置强化学习环境,指定软件版本
!pip install gym
!pip install paddlepaddle==1.6.3
!pip install parl==1.3.1

paddle是百度开源的深度学习算法库,parl是百度开源的强化学习框架。gym则是OpenAI一款开源的软件库,提供了强化学习的游戏模拟环境。通过这几个软件,我们可以很快上手强化学习的模型训练。

模型选择
Sarsa、Q-Learning基于表格求解强化学习问题,它的状态通常是有限个而且不多的,求解和训练过程相对简单。DQN则引入了神经网络代替Q表格,用于解决连续状态空间问题,它的状态也是有限个的。Policy Gradient则基于梯度提升的方法,通过softmax函数计算每个动作的概率,对模型进行训练。上述3种方法只适用于离散动作空间,而DDPG可以解决连续动作空间问题。DDPG是一个双模型结构,既包含了Q网络结构,也包含了策略模型结构。

参数优化
具体问题具体分析。首先选择模型,然后确定神经网络结构,可选择单层神经网络、多层神经网络或者更复杂的神经网络结构。学习率可根据训练情况适当调节。各个模型的理论方法、实现方法可操作打卡营的课程不断重温,也可参考上面提到的论文方法。

1
收藏
回复
全部评论(3)
时间顺序
AIStudio810258
#2 回复于2020-06

收获满满啊~

加油!共同努力!

0
回复
夜夜夜
#3 回复于2020-07

感谢分享,好东西

0
回复
pika
#4 回复于2020-07

加油 共同努力

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户