百度强化学习7日打卡训练营学习心得

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

大大海的波心发布于2020-06

首先特别感谢科科老师，班班老师，还有其他几位助教老师，感谢百度飞桨团队推出的这次强化学习课程。我是偶然在刷微信公众号时看到了这次的课程，之前对强化学习基本没有了解，看了课程介绍非常感兴趣，就赶紧报名了。本来对这次的免费课程没有抱太大的期待，但是一周下来真的觉得课程超赞！有一说一，科科老师讲的真的很好，深入浅出，非常有条理，可以看出花费了很大的心思备课。直播课由于信息量比较大，我只能听懂一部分，就在第二天再看几遍视频重播。这几次课下来感觉还是收获很多，对经典的几个强化学习算法原理有了一定的了解，飞桨平台还为我们提供了线上的计算环境，有了动手实践的机会。从离散的动作空间和状态空间的表格式算法sarsa, Q-learning，到加入神经网络后可以进行连续状态学习的DQN，再到基于概率的Policy Gradient算法，最后是适用于连续动作空间和连续状态空间的DDPG算法。了解了Parl框架，对神经网络的搭建也熟悉了。课后还提供了作业，我虽然完成了作业，但是因为作业的框架都给好了，自己只需要改动很少的部分，在参数调整，网络结构设计方面还不甚了解，最后的两个作业跑了好久结果也不太理想。强化学习就像是一个一无所知的小孩，在未知的环境里不断试探，通过环境给出的反馈来对自己的行为和选择做出调整，在这个过程中不断提高对环境的适应度，最后形成自己的认知，很像人类的学习和成长经历。也存在一些问题需要改进，比如学习过程太漫长，要训练很久，结果也不一定很满意，我想可以把一些先验知识加到模型里面，相当于在前人经验的基础上自己再学习，这样会少走很多的弯路。还有就是我们人类学习的结果是会总结出一些经验或者理论，去解释一些现象。怎样把强化学习学出来的东西总结出来一套规则需要好好研究。我是研究控制理论方向，强化学习与控制理论联系还是比较密切，与最优控制相关的研究甚至被认为是强化学习发展过程的一条主线，我在考虑如何把强化学习纳入到我现在的研究中来。最后再次感谢百度飞桨团队的付出！谢谢！

0

收藏

回复

全部评论(2)

星光ld1

#2 回复于2020-06

感觉强化的参数难调，各种不收敛

0

回复

Mr.郑先生_

#3 回复于2020-08

赞！

0

回复