7日强化学习小结

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

回回憶那纯真温馨发布于2020-06

我之前学习过CV，对强化学习一无所知，通过7天的快速学习，感觉进入了一扇新的大门，而且门里还很有意思。

网络上虽然已有许多相关学习材料、视频，但是若没有这7天的入门，懒惰如我一般不会主动去寻找，所以这7天感觉很值啊。

这7天，科老师基本上按强化学习的时间线给我们讲解，学习了Q-Learning，SARSA，这两种应该算是原始形态的算法。

后来借鉴了CV中的深度模型，有了DQN，DDPG等，用深度网络拟合函数，用函数来代替表格，节约了大量空间。

由于我是从CV过来的，所以遇到自己熟悉的东西还是很激动的。科老师课堂的例子中，深度网络模型都使用了简单的全连接fc，只有两层或三层，我感觉很不过瘾，很想把它改复杂，增加表达力。

于是，在训练flappy-bird的时候，我在网上偶然发现了经典的Atari模型，里面用了若干个卷积和全连接，我使用DQN训练了4天4次，每次使用不同的超参数，然而结果非常让我失望，测试reward稳稳的1.0分，也就是说，小鸟出门就撞水管，可以说是失败透顶。在论坛你看到别的同学还是训练小鸟，仅使用了两层全连接，分数很不错。所以，我在想，是不是在强化学习中，模型并不需要复杂。但是，如果选择模型？什么情况下需要把模型复杂化，什么情况应该简化了？这个问题，目前还是萦绕在我心头，希望有达人能解答一下。

最后，表扬一下百度的小伙伴们，天天晚上加班陪我们学习，传递知识，而且还免费啊！这是一种什么精神啊！太赞了！

0

收藏

回复

全部评论(2)

UnseenMe

#2 回复于2020-06

同感，科老师深夜剪视频，芮老师也加班对应，这种精神太赞了。

0

回复

AIStudio810258

#3 回复于2020-06

我也发现，强化学习没用很深的网络。

可能是因为画面比较简单吧～～

加油！共同进步！

0

回复