首页 Paddle框架 帖子详情
使用强化学习时,如果动作中既有连续动作,又有离散动作,应该如何处理?
收藏
快速回复
Paddle框架 其他学习资料 1023 1
使用强化学习时,如果动作中既有连续动作,又有离散动作,应该如何处理?
收藏
快速回复
Paddle框架 其他学习资料 1023 1

输入state ,可以输出一个向量A【a1.a2.a3.a3】,

其中A[0]是离散的区间是[1,5]

其中A[1]是连续的区间是(0,1)

其中A[2]是连续的区间是(0,1)

其中A[3]是连续的区间是(0,1)

其中A[1],A[2],A[3]经过softmax()

这个网络怎么搭建?

0
收藏
回复
全部评论(1)
时间顺序
b
babyNeymar_JR
#2 回复于2022-08

你好~请问你这里的离散动作是如何实现的呢

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户