外部数据进行强化学习训练
收藏
外部数据的输入是在何时,以怎样的形式进行的,每个episode中多用while来进行,以done来break,对于有限的数据,循环迭代是怎么处理的?
我有一批数据进行训练(作为输入状态数据S),比如有1000条,并不是像cartpole那样,每次step会调整state,每次就是输入一条数据
0
收藏
请登录后评论
可以到有关的群或者社区里面交流讨论一下,官网有群二维码,可以去看一下,看了表述感觉那样子沟通有效一些