强化学习中的策略梯度算法，对应的动作空间是有限的？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

不不吃酸的我发布于2021-10

一般采用策略梯度的方法，是不是对应的动作空间是有限的呢？比如动作空间有{上，下，左，右}，但是对当前状态的施加某个动作的概率是不一定的，所以要寻找最佳的动作策略，是吗

0

收藏

回复

全部评论(1)

三岁

#2 回复于2021-10

差不多就这个意思吧

0

回复