强化学习7日打卡营学习心得

首页版块访问AI主站注册发帖

强化学习7日打卡营学习心得

wangwei8638 发布于2020-06 浏览:3468 回复:1

强化学习7日打卡营学习心得

快速回复

最后编辑于2022-04

感谢强化学习7日打卡营的班主任和精英教师团队的老师们，能够提供如此高效快捷的强化学习课程。初次接触强化学习，通过7天课程学习和实践，对强化学习有了初步的认识和理解。

一、强化学习的思想

智能体agent在环境environment中学习，根据环境的状态state，执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。与监督学习不同的是，在强化学习的过程中，没有人的示范，而是让机器自主去做一个动作。机器人用一定的初始策略选到一个动作。它不知道自己做的对不对，但是可以他拿到一个立即的reward。同时假设这个动作做对了奖励是 +1，做错了奖励是0，通过不断的训练，机器自己能够自主学会拿到高分的方法。

二、强化学习的应用范围

游戏（马里奥、Atari、Alpha Go、星际争霸等）
机器人控制（机械臂、机器人、自动驾驶、四轴飞行器等）
用户交互（推荐、广告、NLP等）
交通（拥堵管理等）
资源调度（物流、带宽、功率等）
金融（投资组合、股票买卖等）
其他

三、强化学习的算法和环境

经典算法：Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO
环境分类：离散控制场景（输出动作可数）、连续控制场景（输出动作值不可数）
强化学习经典环境库GYM将环境交互接口规范化为：重置环境reset()、交互step()、渲染render()
强化学习框架库PARL将强化学习框架抽象为Model、Algorithm、Agent三层，使得强化学习算法的实现和调试更方便和灵活。

最后，还是要赞扬一下百度AI Studio平台所提供的视频+源码+文档+免费GPU算力的一条龙式在线教育服务，尤其是免费GPU算力，为想深入学习人工智能而缺乏硬件基础的同学提供了极大的便利。

技术问答

热门活动

平台资讯

个赞

共1条回复最后由用户已被禁言回复于2022-04

#2wangwei8638回复于2020-06

深入强化学习

快速回复

小编推荐

【征稿计划第二期】评测报告、使用攻略、行业案例

用户已被禁言 14回复

Baidu Create 2019 | 百度大脑

用户已被禁言 6回复

【颁奖】第三期百度大脑新品体验师

用户已被禁言 19回复

【四月评测】远场语音识别套件

goJhou 17回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服