强化学习总结

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

E EthanBaiSD 发布于2020-06

最近学习了《强化学习七日打卡营》

课程浅显易懂，是一个很好的强化学习的指引，相比去啃一个大部头的书，看这个视频课很有效率，解决了hello world问题，后续就要详细去体会学习了。

下面做一个总结，以供后续学习更新。

关键要素：environment，agent, reward, action

核心公式是表示一次action前后的q值变化，算法持续以一定的学习率去修正q值（这个地方需要再细化一下）

探索利用使用的e-greedy算法

算法分为基于value的和基于policy的

常用算法有sarsa, q-learning, dqn, dg

其中dqn是在q-learning基础上改表格为神经网络，（dnn, cnn）

dg中要注意蒙特卡洛算法，是在这个动作之后所有的动作

0

收藏

回复

全部评论(1)

AIStudio810258

#2 回复于2020-06

收货满满～～

加油！共同进步！

0

回复