首页 Paddle框架 帖子详情
强化学习使用DDPG网络中的策略网络最后一层通过softmax 不收敛?
收藏
快速回复
Paddle框架 问答炼丹技巧模型训练 410 5
强化学习使用DDPG网络中的策略网络最后一层通过softmax 不收敛?
收藏
快速回复
Paddle框架 问答炼丹技巧模型训练 410 5

我在actor网络的最后一层使用softmax 激活函数,得到n维向量,作为动作。放到环境里,但是却不能收敛,请问各位大佬有做过类似的操作吗?有相关的代码和论文吗?

0
收藏
回复
全部评论(5)
时间顺序
玥亮
#2 回复于2022-09

为什么要用这个激活函数啊?我有个DDPG项目,也许大佬可以看看

0
回复
我在塘边哈
#3 回复于2022-10
玥亮 #2
为什么要用这个激活函数啊?我有个DDPG项目,也许大佬可以看看

您的项目我看过,写的挺好的,是这样的,我想要输出n个和为1的向量 作为action和环境交互,但没法收敛,您写过或遇到类似的代码吗?

0
回复
玥亮
#4 回复于2022-10
您的项目我看过,写的挺好的,是这样的,我想要输出n个和为1的向量 作为action和环境交互,但没法收敛,您写过或遇到类似的代码吗?

好像没有。。。

0
回复
我在塘边哈
#5 回复于2022-10
玥亮 #4
好像没有。。。

国庆快乐 老哥!

0
回复
玥亮
#6 回复于2022-10
国庆快乐 老哥!

哈哈哈,国庆快乐

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户