有人能看懂Q-学习的这个更新q表的过程吗
收藏
已经到达了s2,s1的Q值不是已经存在了吗,为什么还要用s2的状态的预估s1的现实
0
收藏
请登录后评论
已经存在不假,但是这里讲的是更新Q表的过程,是要对Q值进行更新。
所以,不仅要有现实值,还要有估计值,这样才能知道如何更新Q表。
嗯嗯,明白了,昨天把b站的课又刷了一遍,豁然开朗