当DQN算法拥有56169种action时，如何配置相关参数？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

我我在塘边哈发布于2022-01

state_dim = 3

action_dim = 56169

learning_rate =取多少合适？

记忆库大小 = 取多少合适？

一次取多少训练 = 取多少合适？

训练多少episode = 取多少合适？

epsilon=取多少合适？比如episode=10000 在多少时 epsilon 可以达到0.9？

hid1_size = 取多少合适？
hid2_size = 取多少合适？

全部评论(6)

JavaRoom

#2 回复于2022-01

我也不会。

DeepGeGe

#3 回复于2022-01

这些参数只能靠阅读这个方面大量论文，看看一般情况下大家都是怎么做的来取一个可能比较好的值。

但是这样做也不一定能够获得比较好的参数设置，强化学习就是这样，没办法。

我

我在塘边哈

#4 回复于2022-01

DeepGeGe #3

这些参数只能靠阅读这个方面大量论文，看看一般情况下大家都是怎么做的来取一个可能比较好的值。但是这样做也不一定能够获得比较好的参数设置，强化学习就是这样，没办法。

56169种action，一共有56169个输出层，这种网络确定可以收敛吗？我跑半天，结果都没收敛

DeepGeGe

#5 回复于2022-01

我在塘边哈 #4

56169种action，一共有56169个输出层，这种网络确定可以收敛吗？我跑半天，结果都没收敛

强化学习一个不同的随机数种子都可能导致不收敛。。。

我

我在塘边哈

#6 回复于2022-01

DeepGeGe #5

强化学习一个不同的随机数种子都可能导致不收敛。。。

随机种子用的都是同一批的

DeepGeGe

#7 回复于2022-01

我在塘边哈 #6

随机种子用的都是同一批的

我的意思是说很难根据跑半天没收敛就确定输出层很大能不能收敛。。。

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~