首页 Paddle框架 帖子详情
当DQN算法拥有56169种action时,如何配置相关参数?
收藏
快速回复
Paddle框架 文章学习资料 1638 6
当DQN算法拥有56169种action时,如何配置相关参数?
收藏
快速回复
Paddle框架 文章学习资料 1638 6

state_dim = 3

action_dim = 56169

learning_rate =取多少合适?

记忆库大小 = 取多少合适?

一次取多少训练 = 取多少合适?

训练多少episode = 取多少合适?

epsilon=取多少合适? 比如episode=10000 在多少时 epsilon 可以达到0.9?

hid1_size = 取多少合适?
hid2_size = 取多少合适?

 

0
收藏
回复
全部评论(6)
时间顺序
JavaRoom
#2 回复于2022-01

我也不会。

0
回复
DeepGeGe
#3 回复于2022-01

这些参数只能靠阅读这个方面大量论文,看看一般情况下大家都是怎么做的来取一个可能比较好的值。

但是这样做也不一定能够获得比较好的参数设置,强化学习就是这样,没办法。

0
回复
我在塘边哈
#4 回复于2022-01
这些参数只能靠阅读这个方面大量论文,看看一般情况下大家都是怎么做的来取一个可能比较好的值。 但是这样做也不一定能够获得比较好的参数设置,强化学习就是这样,没办法。

56169种action,一共有56169个输出层,这种网络确定可以收敛吗?我跑半天,结果都没收敛

0
回复
DeepGeGe
#5 回复于2022-01
56169种action,一共有56169个输出层,这种网络确定可以收敛吗?我跑半天,结果都没收敛

强化学习一个不同的随机数种子都可能导致不收敛。。。

0
回复
我在塘边哈
#6 回复于2022-01
强化学习一个不同的随机数种子都可能导致不收敛。。。

随机种子用的都是同一批的

0
回复
DeepGeGe
#7 回复于2022-01
随机种子用的都是同一批的

我的意思是说很难根据跑半天没收敛就确定输出层很大能不能收敛。。。

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户