强化学习七日打卡营总结

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

hyy永勇发布于2020-06

学习基本路线:

搭建环境--强化学习初印象--基于表格型方法求解RL--基于神经网络求解RL--基于策略梯度求解RL--连续动作空间上求解RL

环境搭建:

安装强化学习环境库GYM、强化学习框架库PARL

强化学习初印象:

强化学习RL是什么--强化学习由agent和env两部分构成,三要素分别为state action reward

强化学习能干嘛--能应用于游戏行业-机器人行业-推荐系统等方面

强化学习是怎么办到的--主要通过策略去探索,一步步学习,通过与环境交互得到反馈,然后优化算法

基于表格型方法求解RL:

什么是表格方法--Q表格知道每一个step的动作选择,然后根据与环境的交互得到的reward更新Q表格

on-policy与off-policy:Sarsa是on-policy, 实际优化的是他实际执行的策略,而Qlearning是off _policy,探索策略不断探索执行交给目标策略去决定

基于神经网络求解RL:

在强化学习的过程中加入了神经网络得到DQN,DQN怎么训练,DQN算法解析,DQN代码解析

基于策略梯度求解RL:

连续动作空间上求解RL:DDPG算法的结构和代码分析,通过四轴飞行器悬停的作业进行体验

0

收藏

回复

全部评论(1)

AIStudio810258

#2 回复于2020-06

收货满满啊～～

加油！共同进步！

0

回复