强化学习的Q-learning以及Sarsa
收藏
今晚强化学习的直播课,科科老师主要就是介绍了这两个算法,但是有一点不懂得就是,他们在计算Q(S,A)的时候,Q-learning采用的是一直选择最优的作为下一次的结果进行运算(贪心算法),而Sarsa的策略是ε-greedy(个人理解为是随机数决定是否贪心)
按理来说采用随机策略的Sarsa的随机性会更大么?但是为啥老师的模型显示的效果是Q-learning能够更好的找出最优策略呢,有点没理解。
0
收藏
请登录后评论
是这样子的,Q-Learning是学习探索策略和实际决策一致比如都是maxQ,但是SARSA是学习探索策略和实际决策不一致比如探索eps-greedy,实际决策maxQ,所以导致了Q-Learning虽然在探索上不占优,但是一旦探索到了好的策略在实际应用到决策上的表现也是一致的所以出现了Q-Learning效果好一些的情况,这是我的理解
我感觉Qlearning在每次迭代的时候是使用最优的Q值,而sarsa使用的是下个位置的Q值,所以前者能找到最优
刚刚开始学习,感觉这课不错,适合入门
懂了懂了,谢谢啦
嗯嗯,是的是的
我也是正在跟着这个课学,一开始以为会跟起来很难,但没想到昨天也跟上了,哈哈,开心
学习点赞
我想这个课程讲的算法应该是芝麻开花节节高吧。这也是当时算法进步的过程和思路的演进。
马上又开课了
不知道,听不懂
这个要看个人理解了,看你想要的是最大的reward,还是最稳妥的决策
最大的reward对应的应该就是Q-learning,最稳妥的策略是Sarsa叭?
学习了