飞桨7日强化学习打卡笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

goforapaddle 发布于2020-06

## 前言
首先感谢百度提供了这次飞桨7日强化学习打卡学习机会。
通过这7天了解什么是强化学习，通过做作业并能够学会和体验了实操做题目。

## 学习内容和作业
前置课程里因为已经有python基础和必备数学知识，这些就跳过了，重点学习了PaddlePaddle快速入门对于之前不了解Paddle的还是有帮助的。
Day 1 强化学习(RL)初印象
RL概述、入门路线
实践：环境搭建（lesson1 的代码提供了格子环境世界的渲染封装）
作业非常简单
Day 2 基于表格型方法求解RL
MDP、状态价值、Q表格
实践： Sarsa、Q-learning 作业简单
Day 3 基于神经网络方法求解RL
函数逼近方法
实践：DQN 作业中等
Day 4 基于策略梯度求解RL
策略近似、策略梯度
实践：Policy Gradient
作业有点难
Day 5 连续动作空间上求解RL
实战：DDPG。感觉作业较难。

## 心得

1 使用GPU的问题和解决见
https://aistudio.baidu.com/aistudio/projectdetail/569104

感觉GPU加速不明显。

###
## 致谢

最后感谢百度飞桨的班主任、答疑老师和小助手在群里详细讨论解答问题。

0

收藏

回复

全部评论(1)

AIStudio810258

#2 回复于2020-06

学得很认真啊，加油！共同努力！

0

回复