科老师7天强化学习心得

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

8 888BillyWang 发布于2020-06

作为一个游戏党，之前接触强化学习还是 openAi用deep-mind打败星际选手的那一次。记得上一次新闻里，deepmind已经比99.8%的星际玩家都强了。

之前接触过不少深度学习的内容，在大学里也上过相关的课程，但是强化学习，我从来没有上手玩耍过。之前一种用国外的框架，比如keras+tensorflow。这次用百度的PARL，感触还是很深的。没想到现在国内的AI框架这么强了。很推荐大家去看看，用二进制可以直接下载下下来。希望以后这个框架能越来越好。

这次“7”天课程事实上有5节课。从最简单的RL例子到后面连续动作的例子都介绍了一遍。收获还是很深的。

我们总共接触了4种常见的网络，都是单智能体的。

首先是Sarsa 和 Q-learning 都是环境相关的网络。

Sarsa是用action可能带来的环境反馈作为reward,来更新Q表格。一般和greedy方法配套，随机尝试。

Q-learning则是on-policy的更新方式，先出action再更细Q表格。

之后是DQN:

引入了神经网络来代替Q表格，好处是神经网络可以代表的东西几乎是无限大的。这样就可以把任何问题都可以放到神经网络里来解决。就是说神经网络可以对无数可能性概况，在训练合理的情况下可以输出我们所需要的数值。这样，RL就可以解决像围棋和游戏这种如果建Q表格会很困难的情况了。

最后是DDPG：

DQN只左右与离散动作，那么如何能让它输出连续的动作呢？加一个策略网络，直接输出动作就行。这是我理解DDPG和DQN的区别。比较粗浅。

全部评论(4)

AIStudio810258

#2 回复于2020-06

理解的很深入啊～～

加油！共同进步！

AIStudio810258

#3 回复于2020-06

原来强化学习和监督、非监督学习是三足鼎立的关系。

AIStudio810258

#4 回复于2020-06

从课程上体会，强化学习引入深度学习尤其卷积网络后威力大增啊，估计吃硬件也是杠杠的～～

wangwei8638

#5 回复于2020-06

强化学习，是机器具有进化能力