强化学习7日打卡营学习笔记
收藏
重温一下强化学习7天打卡营,主要介绍了强化学习的概念、环境搭建以及常见的几类强化学习求解方法的代码实战。
环境搭建
# 先卸载AIStudio自带的库
!pip uninstall -y parl
!pip uninstall -y pandas scikit-learn
!pip uninstall -y gym
!pip uninstall -y paddlepaddle
# 配置强化学习环境,指定软件版本
!pip install gym
!pip install paddlepaddle==1.6.3
!pip install parl==1.3.1
paddle是百度开源的深度学习算法库,parl是百度开源的强化学习框架。gym则是OpenAI一款开源的软件库,提供了强化学习的游戏模拟环境。通过这几个软件,我们可以很快上手强化学习的模型训练。
模型选择
Sarsa、Q-Learning基于表格求解强化学习问题,它的状态通常是有限个而且不多的,求解和训练过程相对简单。DQN则引入了神经网络代替Q表格,用于解决连续状态空间问题,它的状态也是有限个的。Policy Gradient则基于梯度提升的方法,通过softmax函数计算每个动作的概率,对模型进行训练。上述3种方法只适用于离散动作空间,而DDPG可以解决连续动作空间问题。DDPG是一个双模型结构,既包含了Q网络结构,也包含了策略模型结构。
参数优化
具体问题具体分析。首先选择模型,然后确定神经网络结构,可选择单层神经网络、多层神经网络或者更复杂的神经网络结构。学习率可根据训练情况适当调节。各个模型的理论方法、实现方法可操作打卡营的课程不断重温,也可参考上面提到的论文方法。
1
收藏
请登录后评论
收获满满啊~
加油!共同努力!
感谢分享,好东西
加油 共同努力