关于强化学习官方案例A2C中TD误差的理解

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

玥亮发布于2021-12

如上图所示：advantage应该是负的TD误差。

TD误差是应为values-returns,因为returns包含一部分真实观测值，我们认为它更可靠，所以让values去靠近returns,而将returns称为TD目标，vlaues-returns称为TD误差。

然后在计算策略网络的loss的时候，前面加负号；而价值网络不需要，因为价值网络的loss函数是均方误差，平方一下就为正数了。

以上为个人理解，欢迎发表不同意见，咱们共同学习。

0

收藏

回复

全部评论(2)

DeepGeGe

#2 回复于2021-12

是的，next_value是将next_state输入模型计算的到的，由此由奖励r和next_value算出来的returns明显就是TD Target。那么advantage就是TD error咯。

0

回复

玥亮

#3 回复于2021-12

DeepGeGe #2

是的，next_value是将next_state输入模型计算的到的，由此由奖励r和next_value算出来的returns明显就是TD Target。那么advantage就是TD error咯。

GeGe说的好极了

1

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~