强化学习总结
收藏
最近学习了《强化学习七日打卡营》
课程浅显易懂,是一个很好的强化学习的指引,相比去啃一个大部头的书,看这个视频课很有效率,解决了hello world问题,后续就要详细去体会学习了。
下面做一个总结,以供后续学习更新。
关键要素:environment,agent, reward, action
核心公式是表示一次action前后的q值变化,算法持续以一定的学习率去修正q值(这个地方需要再细化一下)
探索利用使用的e-greedy算法
算法分为基于value的和基于policy的
常用算法有sarsa, q-learning, dqn, dg
其中dqn是在q-learning基础上改表格为神经网络,(dnn, cnn)
dg中要注意蒙特卡洛算法,是在这个动作之后所有的动作
0
收藏
请登录后评论
收货满满~~
加油!共同进步!