强化学习如何设计多维离散action
收藏
假设action的维度为3,A={a1,a2,a3}
a1的取值有0,1,2
a2的取值有0,1,2,3
a3的取值有0,1
请问如何设计网络的输出node?
0
收藏
请登录后评论
长度为9的OneHot肿么样,哈哈哈