强化学习使用DDPG网络中的策略网络最后一层通过softmax 不收敛？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

我我在塘边哈发布于2022-09

我在actor网络的最后一层使用softmax 激活函数，得到n维向量，作为动作。放到环境里，但是却不能收敛，请问各位大佬有做过类似的操作吗？有相关的代码和论文吗？

全部评论(5)

玥亮

#2 回复于2022-09

为什么要用这个激活函数啊？我有个DDPG项目，也许大佬可以看看

我

我在塘边哈

#3 回复于2022-10

玥亮 #2

为什么要用这个激活函数啊？我有个DDPG项目，也许大佬可以看看

您的项目我看过，写的挺好的，是这样的，我想要输出n个和为1的向量作为action和环境交互，但没法收敛，您写过或遇到类似的代码吗？

玥亮

#4 回复于2022-10

我在塘边哈 #3

您的项目我看过，写的挺好的，是这样的，我想要输出n个和为1的向量作为action和环境交互，但没法收敛，您写过或遇到类似的代码吗？

好像没有。。。

我

我在塘边哈

#5 回复于2022-10

玥亮 #4

好像没有。。。

国庆快乐老哥！

玥亮

#6 回复于2022-10

我在塘边哈 #5

国庆快乐老哥！

哈哈哈，国庆快乐

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~