7日强化学习小结
收藏
我之前学习过CV,对强化学习一无所知,通过7天的快速学习,感觉进入了一扇新的大门,而且门里还很有意思。
网络上虽然已有许多相关学习材料、视频,但是若没有这7天的入门,懒惰如我一般不会主动去寻找,所以这7天感觉很值啊。
这7天,科老师基本上按强化学习的时间线给我们讲解,学习了Q-Learning,SARSA,这两种应该算是原始形态的算法。
后来借鉴了CV中的深度模型,有了DQN,DDPG等,用深度网络拟合函数,用函数来代替表格,节约了大量空间。
由于我是从CV过来的,所以遇到自己熟悉的东西还是很激动的。科老师课堂的例子中,深度网络模型都使用了简单的全连接fc,只有两层或三层,我感觉很不过瘾,很想把它改复杂,增加表达力。
于是,在训练flappy-bird的时候,我在网上偶然发现了经典的Atari模型,里面用了若干个卷积和全连接,我使用DQN训练了4天4次,每次使用不同的超参数,然而结果非常让我失望,测试reward稳稳的1.0分,也就是说,小鸟出门就撞水管,可以说是失败透顶。在论坛你看到别的同学还是训练小鸟,仅使用了两层全连接,分数很不错。所以,我在想,是不是在强化学习中,模型并不需要复杂。但是,如果选择模型?什么情况下需要把模型复杂化,什么情况应该简化了?这个问题,目前还是萦绕在我心头,希望有达人能解答一下。
最后,表扬一下百度的小伙伴们,天天晚上加班陪我们学习,传递知识,而且还免费啊!这是一种什么精神啊!太赞了!
0
收藏
请登录后评论
同感,科老师深夜剪视频,芮老师也加班对应,这种精神太赞了。
我也发现,强化学习没用很深的网络。
可能是因为画面比较简单吧~~
加油!共同进步!