首页 AI Studio教育版 帖子详情
7日强化学习小结
收藏
快速回复
AI Studio教育版 文章课程答疑 853 2
7日强化学习小结
收藏
快速回复
AI Studio教育版 文章课程答疑 853 2

我之前学习过CV,对强化学习一无所知,通过7天的快速学习,感觉进入了一扇新的大门,而且门里还很有意思。

网络上虽然已有许多相关学习材料、视频,但是若没有这7天的入门,懒惰如我一般不会主动去寻找,所以这7天感觉很值啊。

这7天,科老师基本上按强化学习的时间线给我们讲解,学习了Q-Learning,SARSA,这两种应该算是原始形态的算法。

后来借鉴了CV中的深度模型,有了DQN,DDPG等,用深度网络拟合函数,用函数来代替表格,节约了大量空间。

由于我是从CV过来的,所以遇到自己熟悉的东西还是很激动的。科老师课堂的例子中,深度网络模型都使用了简单的全连接fc,只有两层或三层,我感觉很不过瘾,很想把它改复杂,增加表达力。

于是,在训练flappy-bird的时候,我在网上偶然发现了经典的Atari模型,里面用了若干个卷积和全连接,我使用DQN训练了4天4次,每次使用不同的超参数,然而结果非常让我失望,测试reward稳稳的1.0分,也就是说,小鸟出门就撞水管,可以说是失败透顶。在论坛你看到别的同学还是训练小鸟,仅使用了两层全连接,分数很不错。所以,我在想,是不是在强化学习中,模型并不需要复杂。但是,如果选择模型?什么情况下需要把模型复杂化,什么情况应该简化了?这个问题,目前还是萦绕在我心头,希望有达人能解答一下。

最后,表扬一下百度的小伙伴们,天天晚上加班陪我们学习,传递知识,而且还免费啊!这是一种什么精神啊!太赞了!

0
收藏
回复
全部评论(2)
时间顺序
UnseenMe
#2 回复于2020-06

同感,科老师深夜剪视频,芮老师也加班对应,这种精神太赞了。

0
回复
AIStudio810258
#3 回复于2020-06

我也发现,强化学习没用很深的网络。

可能是因为画面比较简单吧~~

加油!共同进步!

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户