使用强化学习时,如果动作中既有连续动作,又有离散动作,应该如何处理?
收藏
输入state ,可以输出一个向量A【a1.a2.a3.a3】,
其中A[0]是离散的区间是[1,5]
其中A[1]是连续的区间是(0,1)
其中A[2]是连续的区间是(0,1)
其中A[3]是连续的区间是(0,1)
其中A[1],A[2],A[3]经过softmax()
这个网络怎么搭建?
0
收藏
请登录后评论
你好~请问你这里的离散动作是如何实现的呢