关于强化学习官方案例A2C中TD误差的理解
收藏
如上图所示:advantage应该是负的TD误差。
TD误差是应为values-returns,因为returns包含一部分真实观测值,我们认为它更可靠,所以让values去靠近returns,而将returns称为TD目标,vlaues-returns称为TD误差。
然后在计算策略网络的loss的时候,前面加负号;而价值网络不需要,因为价值网络的loss函数是均方误差,平方一下就为正数了。
以上为个人理解,欢迎发表不同意见,咱们共同学习。
0
收藏
请登录后评论
是的,next_value是将next_state输入模型计算的到的,由此由奖励r和next_value算出来的returns明显就是TD Target。那么advantage就是TD error咯。
GeGe说的好极了