强化学习中的ddpg网络 输出维度可以根据输入可以动态变化吗?
收藏
正常ddpg网络的一开始的输出维度就固定了,如何设计动态的 ,或者固定,如何达到我下面的需求?
比如 ddpg网络输入
当state=【6】,输出层经过softmax=【0.1,0.2,0.1,0.1,0.25,0.1,0.1】
当state=【3】,输出层经过softmax=【0.5,0.3,0.2】
当state=【4】,输出层进过softmax= 【0.2,0.3,0.3,0.2】
0
收藏
请登录后评论