首页 AI Studio教育版 帖子详情
科老师7天强化学习心得
收藏
快速回复
AI Studio教育版 文章课程答疑 1535 4
科老师7天强化学习心得
收藏
快速回复
AI Studio教育版 文章课程答疑 1535 4

作为一个游戏党,之前接触强化学习还是 openAi用deep-mind打败星际选手的那一次。记得上一次新闻里,deepmind已经比99.8%的星际玩家都强了。

之前接触过不少深度学习的内容,在大学里也上过相关的课程,但是强化学习,我从来没有上手玩耍过。之前一种用国外的框架,比如keras+tensorflow。 这次用百度的PARL,感触还是很深的。没想到现在国内的AI框架这么强了。很推荐大家去看看,用二进制可以直接下载下下来。希望以后这个框架能越来越好。

这次“7”天课程事实上有5节课。从最简单的RL例子到后面连续动作的例子都介绍了一遍。收获还是很深的。

 

我们总共接触了4种常见的网络,都是单智能体的。

首先是Sarsa 和 Q-learning 都是环境相关的网络。

Sarsa是用action可能带来的环境反馈作为reward,来更新Q表格。一般和greedy方法配套,随机尝试。

Q-learning则是on-policy的更新方式,先出action再更细Q表格。

之后是DQN:

引入了神经网络来代替Q表格,好处是神经网络可以代表的东西几乎是无限大的。这样就可以把任何问题都可以放到神经网络里来解决。就是说神经网络可以对无数可能性概况,在训练合理的情况下可以输出我们所需要的数值。这样,RL就可以解决像围棋和游戏这种如果建Q表格会很困难的情况了。

最后是DDPG:

DQN只左右与离散动作,那么如何能让它输出连续的动作呢?加一个策略网络,直接输出动作就行。这是我理解DDPG和DQN的区别。比较粗浅。

 

0
收藏
回复
全部评论(4)
时间顺序
AIStudio810258
#2 回复于2020-06

理解的很深入啊~~

加油!共同进步!

0
回复
AIStudio810258
#3 回复于2020-06

原来强化学习和监督、非监督学习是三足鼎立的关系。

0
回复
AIStudio810258
#4 回复于2020-06

从课程上体会,强化学习引入深度学习尤其卷积网络后威力大增啊,估计吃硬件也是杠杠的~~

0
回复
w
wangwei8638
#5 回复于2020-06

强化学习,是机器具有进化能力

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户