首页 AI Studio教育版 帖子详情
强化学习总结
收藏
快速回复
AI Studio教育版 文章课程答疑 867 1
强化学习总结
收藏
快速回复
AI Studio教育版 文章课程答疑 867 1

最近学习了《强化学习七日打卡营》

课程浅显易懂,是一个很好的强化学习的指引,相比去啃一个大部头的书,看这个视频课很有效率,解决了hello world问题,后续就要详细去体会学习了。

下面做一个总结,以供后续学习更新。

关键要素:environment,agent, reward, action

核心公式是表示一次action前后的q值变化,算法持续以一定的学习率去修正q值(这个地方需要再细化一下)

探索利用使用的e-greedy算法

算法分为基于value的和基于policy的

常用算法有sarsa, q-learning, dqn, dg

其中dqn是在q-learning基础上改表格为神经网络,(dnn, cnn)

dg中要注意蒙特卡洛算法,是在这个动作之后所有的动作

 

0
收藏
回复
全部评论(1)
时间顺序
AIStudio810258
#2 回复于2020-06

收货满满~~

加油!共同进步!

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户