当DQN算法拥有56169种action时,如何配置相关参数?
收藏
state_dim = 3
action_dim = 56169
learning_rate =取多少合适?
记忆库大小 = 取多少合适?
一次取多少训练 = 取多少合适?
训练多少episode = 取多少合适?
epsilon=取多少合适? 比如episode=10000 在多少时 epsilon 可以达到0.9?
hid1_size = 取多少合适?
hid2_size = 取多少合适?
0
收藏
请登录后评论
我也不会。
这些参数只能靠阅读这个方面大量论文,看看一般情况下大家都是怎么做的来取一个可能比较好的值。
但是这样做也不一定能够获得比较好的参数设置,强化学习就是这样,没办法。
56169种action,一共有56169个输出层,这种网络确定可以收敛吗?我跑半天,结果都没收敛
强化学习一个不同的随机数种子都可能导致不收敛。。。
随机种子用的都是同一批的
我的意思是说很难根据跑半天没收敛就确定输出层很大能不能收敛。。。