首页 Paddle框架 帖子详情
关于强化学习官方案例A2C中TD误差的理解
收藏
快速回复
Paddle框架 文章学习资料 1321 2
关于强化学习官方案例A2C中TD误差的理解
收藏
快速回复
Paddle框架 文章学习资料 1321 2

如上图所示:advantage应该是负的TD误差。

TD误差是应为values-returns,因为returns包含一部分真实观测值,我们认为它更可靠,所以让values去靠近returns,而将returns称为TD目标,vlaues-returns称为TD误差。

然后在计算策略网络的loss的时候,前面加负号;而价值网络不需要,因为价值网络的loss函数是均方误差,平方一下就为正数了。

以上为个人理解,欢迎发表不同意见,咱们共同学习。

0
收藏
回复
全部评论(2)
时间顺序
DeepGeGe
#2 回复于2021-12

是的,next_value是将next_state输入模型计算的到的,由此由奖励r和next_value算出来的returns明显就是TD Target。那么advantage就是TD error咯。

0
回复
玥亮
#3 回复于2021-12
是的,next_value是将next_state输入模型计算的到的,由此由奖励r和next_value算出来的returns明显就是TD Target。那么advantage就是TD error咯。

GeGe说的好极了

1
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户