DDPG的动作怎么设计？一直存在问题

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

繁华落幕曲终离发布于2022-08

现在总和是10M，需要根据状态（S1,S2,S3）分成三份。这三份的之和是10M，（简单来说就是确定每份的比例，比如（0.2.0.3，0.5））。请问这种DDPG的动作该怎么设计呢？之前用的离散动作的强化学习，离散的需要涉及到切片的离散的问题，想用连续的试试。希望知道的大佬们帮助一下。

全部评论(6)

玥亮

#2 回复于2022-08

是要自己写个环境吗？

babyNeymar_JR

#3 回复于2022-08

是不是可以考虑3个输出node 然后softmax之后*10呢

繁华落幕曲终离

#4 回复于2022-08

玥亮 #2

是要自己写个环境吗？

是需要自己写环境的

繁华落幕曲终离

#5 回复于2022-08

babyNeymar_JR #3

是不是可以考虑3个输出node 然后softmax之后*10呢

请问你的意思是actor网络的最后一层的激活函数设置成softmax吗

babyNeymar_JR

#6 回复于2022-08

繁华落幕曲终离 #5

请问你的意思是actor网络的最后一层的激活函数设置成softmax吗

嗯嗯，我的理解是网络输出层的激活函数是很灵活的，需要根据你目标问题的类型来选择，可以尝试这么改，看看效果

繁华落幕曲终离

#7 回复于2022-08

babyNeymar_JR #6

嗯嗯，我的理解是网络输出层的激活函数是很灵活的，需要根据你目标问题的类型来选择，可以尝试这么改，看看效果

好的，感谢我试一下

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~