强化学习使用DDPG网络中的策略网络最后一层通过softmax 不收敛?
收藏
我在actor网络的最后一层使用softmax 激活函数,得到n维向量,作为动作。放到环境里,但是却不能收敛,请问各位大佬有做过类似的操作吗?有相关的代码和论文吗?
0
收藏
请登录后评论
为什么要用这个激活函数啊?我有个DDPG项目,也许大佬可以看看
您的项目我看过,写的挺好的,是这样的,我想要输出n个和为1的向量 作为action和环境交互,但没法收敛,您写过或遇到类似的代码吗?
好像没有。。。
国庆快乐 老哥!
哈哈哈,国庆快乐