使用强化学习时，如果动作中既有连续动作，又有离散动作，应该如何处理？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

我我在塘边哈发布于2022-02

输入state ，可以输出一个向量A【a1.a2.a3.a3】,

其中A[0]是离散的区间是[1,5]

其中A[1]是连续的区间是（0,1）

其中A[2]是连续的区间是（0,1）

其中A[3]是连续的区间是（0,1）

其中A[1]，A[2]，A[3]经过softmax（）

这个网络怎么搭建？

0

收藏

回复

全部评论(1)

b

babyNeymar_JR

#2 回复于2022-08

你好~请问你这里的离散动作是如何实现的呢

0

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~