首页 炼丹房 帖子详情
百度强化学习7日打卡训练营学习心得
收藏
快速回复
炼丹房 其他新手上路 948 2
百度强化学习7日打卡训练营学习心得
收藏
快速回复
炼丹房 其他新手上路 948 2

首先特别感谢科科老师,班班老师,还有其他几位助教老师,感谢百度飞桨团队推出的这次强化学习课程。我是偶然在刷微信公众号时看到了这次的课程,之前对强化学习基本没有了解,看了课程介绍非常感兴趣,就赶紧报名了。本来对这次的免费课程没有抱太大的期待,但是一周下来真的觉得课程超赞!有一说一,科科老师讲的真的很好,深入浅出,非常有条理,可以看出花费了很大的心思备课。直播课由于信息量比较大,我只能听懂一部分,就在第二天再看几遍视频重播。这几次课下来感觉还是收获很多,对经典的几个强化学习算法原理有了一定的了解,飞桨平台还为我们提供了线上的计算环境,有了动手实践的机会。从离散的动作空间和状态空间的表格式算法sarsa, Q-learning,到加入神经网络后可以进行连续状态学习的DQN,再到基于概率的Policy Gradient算法,最后是适用于连续动作空间和连续状态空间的DDPG算法。了解了Parl框架,对神经网络的搭建也熟悉了。课后还提供了作业,我虽然完成了作业,但是因为作业的框架都给好了,自己只需要改动很少的部分,在参数调整,网络结构设计方面还不甚了解,最后的两个作业跑了好久结果也不太理想。强化学习就像是一个一无所知的小孩,在未知的环境里不断试探,通过环境给出的反馈来对自己的行为和选择做出调整,在这个过程中不断提高对环境的适应度,最后形成自己的认知,很像人类的学习和成长经历。也存在一些问题需要改进,比如学习过程太漫长,要训练很久,结果也不一定很满意,我想可以把一些先验知识加到模型里面,相当于在前人经验的基础上自己再学习,这样会少走很多的弯路。还有就是我们人类学习的结果是会总结出一些经验或者理论,去解释一些现象。怎样把强化学习学出来的东西总结出来一套规则需要好好研究。我是研究控制理论方向,强化学习与控制理论联系还是比较密切,与最优控制相关的研究甚至被认为是强化学习发展过程的一条主线,我在考虑如何把强化学习纳入到我现在的研究中来。最后再次感谢百度飞桨团队的付出!谢谢!

0
收藏
回复
全部评论(2)
时间顺序
星光ld1
#2 回复于2020-06

感觉强化的参数难调,各种不收敛

0
回复
Mr.郑先生_
#3 回复于2020-08

赞!

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户