首页 炼丹房 帖子详情
强化学习的Q-learning以及Sarsa
收藏
快速回复
炼丹房 问答新手上路 1157 13
强化学习的Q-learning以及Sarsa
收藏
快速回复
炼丹房 问答新手上路 1157 13

今晚强化学习的直播课,科科老师主要就是介绍了这两个算法,但是有一点不懂得就是,他们在计算Q(S,A)的时候,Q-learning采用的是一直选择最优的作为下一次的结果进行运算(贪心算法),而Sarsa的策略是ε-greedy(个人理解为是随机数决定是否贪心)

按理来说采用随机策略的Sarsa的随机性会更大么?但是为啥老师的模型显示的效果是Q-learning能够更好的找出最优策略呢,有点没理解。

0
收藏
回复
全部评论(13)
时间顺序
星光ld1
#2 回复于2020-06

是这样子的,Q-Learning是学习探索策略和实际决策一致比如都是maxQ,但是SARSA是学习探索策略和实际决策不一致比如探索eps-greedy,实际决策maxQ,所以导致了Q-Learning虽然在探索上不占优,但是一旦探索到了好的策略在实际应用到决策上的表现也是一致的所以出现了Q-Learning效果好一些的情况,这是我的理解

0
回复
aaaaaa
#3 回复于2020-06

我感觉Qlearning在每次迭代的时候是使用最优的Q值,而sarsa使用的是下个位置的Q值,所以前者能找到最优

0
回复
aaaaaa
#4 回复于2020-06

刚刚开始学习,感觉这课不错,适合入门

0
回复
Henry.coder
#5 回复于2020-06
是这样子的,Q-Learning是学习探索策略和实际决策一致比如都是maxQ,但是SARSA是学习探索策略和实际决策不一致比如探索eps-greedy,实际决策maxQ,所以导致了Q-Learning虽然在探索上不占优,但是一旦探索到了好的策略在实际应用到决策上的表现也是一致的所以出现了Q-Learning效果好一些的情况,这是我的理解
展开

懂了懂了,谢谢啦

0
回复
Henry.coder
#6 回复于2020-06
aaaaaa #3
我感觉Qlearning在每次迭代的时候是使用最优的Q值,而sarsa使用的是下个位置的Q值,所以前者能找到最优

嗯嗯,是的是的

0
回复
Henry.coder
#7 回复于2020-06
aaaaaa #4
刚刚开始学习,感觉这课不错,适合入门

我也是正在跟着这个课学,一开始以为会跟起来很难,但没想到昨天也跟上了,哈哈,开心

0
回复
csman
#8 回复于2020-06

学习点赞

0
回复
AIStudio810258
#9 回复于2020-06

我想这个课程讲的算法应该是芝麻开花节节高吧。这也是当时算法进步的过程和思路的演进。

0
回复
aaaaaa
#10 回复于2020-06

马上又开课了

0
回复
joker-wt
#11 回复于2020-06

不知道,听不懂

0
回复
Mr.郑先生_
#12 回复于2020-06

这个要看个人理解了,看你想要的是最大的reward,还是最稳妥的决策

0
回复
Henry.coder
#13 回复于2020-06
这个要看个人理解了,看你想要的是最大的reward,还是最稳妥的决策

最大的reward对应的应该就是Q-learning,最稳妥的策略是Sarsa叭?

0
回复
nascbb
#14 回复于2020-06

学习了

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户