DQN解决MountainCar任务学习率的调整
收藏
《强化学习7日打卡营-世界冠军带你从零实践》课程学习使用DQN解决MOUNTAINCAR任务,预期效果:test_reward > -140,分数越高越好。实际作业结果不好,老师评语:收敛的不是很好,增加训练轮数或者调高学习率试试。
重新建立环境,开始实验,试验通过调整学习率来看看收敛变化。将学习率从0.001提高到0.005:
1. learning_rate =0.001
2. learning_rate = 0.005
学习率从0.001提高到0.005后,收敛有明显改善,说明参数调整有一定效果。但是后期明显没有太大变化,说明参数调整还可再优化。可以再取中间值进行测试,由于时间关系就不再测试,基本达到作业要求。通过这次作业,从中深刻认识到学习率等敏感参数对深度学习的影响非常大,难怪乎很多人把深度学习称作炼丹术,深刻而有精辟!
0
收藏
请登录后评论
强化学习收敛的难度比监督学习大不少,监督学习的情况下,上个adam自适应学习率随便一调就基本可以收敛个结果(当然最佳的化还是要好好调的),但是强化的就是各种震荡不收敛