ddpg训练时,target_actor(batch_s’)需要和choose_act一样处理吗?
收藏
比如,我在中choose_action函数对forward(state)取前四个输出,第五个输出置0,那么在训练时 target_actor(batch_next_s),需要封装去前四个输出和第五个输出置0操作吗?还是不用管,直接forward()?
0
收藏
请登录后评论