有人能看懂Q-学习的这个更新q表的过程吗
收藏
已经到达了s2,s1的Q值不是已经存在了吗,为什么还要用s2的状态的预估s1的现实
0
收藏
请登录后评论
要考虑到两个东西,Q现实和Q估计,Q估计是没到,来估计下,这个道理
这个你看AISTUDIO科科老师的视频,看了秒懂,课程里有。