DDPG的动作怎么设计?一直存在问题
收藏
现在总和是10M,需要根据状态(S1,S2,S3)分成三份。这三份的之和是10M,(简单来说就是确定每份的比例,比如(0.2.0.3,0.5))。请问这种DDPG的动作该怎么设计呢?之前用的离散动作的强化学习,离散的需要涉及到切片的离散的问题,想用连续的试试。希望知道的大佬们帮助一下。
0
收藏
请登录后评论
是要自己写个环境吗?
是不是可以考虑3个输出node 然后softmax之后*10呢
是需要自己写环境的
请问你的意思是actor网络的最后一层的激活函数设置成softmax吗
嗯嗯,我的理解是 网络输出层的激活函数是很灵活的,需要根据你目标问题的类型来选择,可以尝试这么改,看看效果
好的,感谢 我试一下