强化学习7日打卡营小结：铁打的RL流水的帐

首页版块访问AI主站注册发帖

gbsrept 发布于2020-06 浏览:3420 回复:1

强化学习7日打卡营小结：铁打的RL流水的帐

快速回复

最后编辑于2022-04

再次趁着每天的夜色混到7日打卡营里打酱油。这次的主题是强化学习，招生广告很吸引人——世界冠军带你从零实践。课表是这样的：

课节1: 预习课程
[项目]新手入门第一课-什么是深度学习？
[项目]新手入门第二课-必备数学知识
[项目]新手入门第三课-Python快速入门
[项目]新手入门第四课-PaddlePaddle快速入门
[项目]AI Studio基本操作-Notebook篇
课节2: 强化学习(RL)初印象
[项目]PARL强化学习公开课Lesson1
[视频]Lesson1-1-强化学习初印象
[视频]Lesson1-2-强化学习的概念及应用
[视频]Lesson1-3-强化学习的核心知识
[视频]Lesson1-4-GYM、PARL
课节3: 基于表格型方法求解RL
[项目]PARL强化学习公开课 Lesson2_Sarsa
[项目]PARL强化学习公开课Lesson2_Q_learning
[视频]Lesson2-1-MDP、Q表格
[视频]Lesson2-2-强化概念、TD更新等
[视频]Lesson2-3-Sarsa算法介绍
[视频]Lesson-2-4-Qlearning
课节4: 基于神经网络方法求解RL
[项目]PARL强化学习公开课Lesson3_DQN
[视频]Lesson3-0-关于作业与补充说明
[视频]Lesson3-1-函数逼近与神经网络
[视频]Lesson3-2-DQN算法解析
[视频]Lesson3-3-PARLDQN代码
[视频]Lesson3-4-DQN训练展示、总结
课节5: 基于策略梯度求解RL
[项目]PARL强化学习公开课Lesson4_Policy_Gradient
[视频]Lesson4-1-随机策略与策略梯度
[视频]Lesson4-2-PG算法
[视频]Lesson4-3-PG代码
[视频]Lesson4-4-总结、作业、公式推导
课节6: 连续动作空间上求解RL
[项目]PARL强化学习公开课Lesson5_DDPG
[视频]Lesson5-0-对第4课PPT的修正
[视频]Lesson5-1-连续动作空间
[视频]Lesson5-2-DDPG代码与总结
[视频]Lesson5-3-大作业与创意赛环境

强化学习（Reinforcement learning）简称RL，是机器学习中的一个用于基于环境而行动取得最大化预期收益的分支。强化学习多用于策略选择、自动控制等持续交互的方向。强化学习的场景式是：模型以智体（agent）的身份在环境（environment）中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。

第一天的课程除了学习基本的强化学习概念外顺便了解百度基于PaddlePaddle制作的强化学习利器PARL以及一个经典的环境库gym，课后作业：搭建GYM环境+PARL环境，把QuickStart 跑起来（ https://aistudio.baidu.com/aistudio/projectdetail/589290 ）。

第二天的内容是基于表格型方法求解RL，学到两种算法Sarsa、Q-learning。这两种算法都是维护一个状态数*动作数的矩阵，但是如何选取动作有分别。通过对比了解了算法的区别：Sarsa选择下一步是随机的，因此会在最坏中取最好，结果就很保守；Q-learning正相反，认为一定能够取到最好结果，于是在悬崖问题中，一定会贴着悬崖走最短路径。都是查表法，但是为了让我们实践学习两种算法的差异，作业是分别使用Q-learning和Sarsa解题，共2个（ https://aistudio.baidu.com/aistudio/projectdetail/589297 、 https://aistudio.baidu.com/aistudio/projectdetail/589327 ）。

第三天开始用到DL了，不是通过算法维护策略选择表，而是基于神经网络方法实现能够代替策略选择表的黑箱，这个算法叫做DQN。课后作业：使用DQN解决 MountianCar问题（ https://aistudio.baidu.com/aistudio/projectdetail/589331 ）。

第四天与前几天基于价值的方式不同，基于策略的的Policy Gradient算法完全抛掉了策略选择表的方式、或者说是不在由算法最后通过策略选择动作，而是基于神经网络方法softmax层直接输出备选动作的概率，整个决策过程全都由神经网络完成。课后作业是使用Policy Gradient解决Atari的Pong问题（ https://aistudio.baidu.com/aistudio/projectdetail/591437 ）。

第五天的学习内容是在连续动作空间上求解RL。连续动作空间的环境返回的，是连续的观察值，为了状态、观察值、行为三者之间能够联系起来，引入了DDPG算法。之前的学习中使用神经网络将行为和状态联系了起来，增加了观察值之后就再增加一个网络将状态和行为联系到观察值上，这个新加的网络的作用，相当于一个专家评委。这次的作业更像是一个比赛，要基于百度的RL环境库RLSchool控制四轴飞行器仿真器，作业目标是14000分，最终没有人达到。这里贴下老师的答案，据说用GPU跑6小时可以上8000分。（ https://aistudio.baidu.com/aistudio/projectdetail/591444 ）

本次打卡营，学到了RL的解题方法和经典算法，开拓了DL应用的思路。

其他

个赞

共1条回复最后由用户已被禁言回复于2022-04

#2男人真NaM回复于2022-03

大神，能利用小度开发一个局域网或者广域网唤醒电脑和NAS的技能吗？

快速回复

小编推荐

【征稿计划第二期】评测报告、使用攻略、行业案例

用户已被禁言 14回复

Baidu Create 2019 | 百度大脑

用户已被禁言 6回复

【颁奖】第三期百度大脑新品体验师

用户已被禁言 19回复

【四月评测】远场语音识别套件

goJhou 17回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服