强化学习七日打卡营总结
收藏
学习基本路线:
搭建环境--强化学习初印象--基于表格型方法求解RL--基于神经网络求解RL--基于策略梯度求解RL--连续动作空间上求解RL
环境搭建:
安装强化学习环境库GYM、强化学习框架库PARL
强化学习初印象:
强化学习RL是什么--强化学习由agent和env两部分构成,三要素分别为state action reward
强化学习能干嘛--能应用于游戏行业-机器人行业-推荐系统等方面
强化学习是怎么办到的--主要通过策略去探索,一步步学习,通过与环境交互得到反馈,然后优化算法
基于表格型方法求解RL:
什么是表格方法--Q表格知道每一个step的动作选择,然后根据与环境的交互得到的reward更新Q表格
on-policy与off-policy:Sarsa是on-policy, 实际优化的是他实际执行的策略,而Qlearning是off _policy,探索策略不断探索 执行交给目标策略去决定
基于神经网络求解RL:
在强化学习的过程中加入了神经网络得到DQN,DQN怎么训练,DQN算法解析,DQN代码解析
基于策略梯度求解RL:
连续动作空间上求解RL:DDPG算法的结构和代码分析,通过四轴飞行器悬停的作业进行体验
0
收藏
请登录后评论
收货满满啊~~
加油!共同进步!