首页 AI Studio教育版 帖子详情
感谢:强化学习-科科老师-百度
收藏
快速回复
AI Studio教育版 文章课程答疑 2083 2
感谢:强化学习-科科老师-百度
收藏
快速回复
AI Studio教育版 文章课程答疑 2083 2

强化学习七日打卡营完美结营! 在此我代表我自己感谢强化学习打卡营这个活动,感谢科科老师,感谢百度提供这个学习的平台和机会。

强化学习是在机器学习中我最喜欢的一种学习方式,我很认同强化学习的理念:智能体与环境不停的交互,不断地探索与学习,通过环境的反馈来重新认不断调整自己,增长知识,这是一种很自然的学习方法,和我们人类认识世界的方式很相似。我是一个机器学习的爱好者和初学者,虽然已经参加工作很多年了,但是接触机器学习,深度学习也是最近一两年,因为之前的工作内容不怎么用到,所以机器学习,深度学习也是自己在业余时间看些资料和书籍。因为毕竟不是科班出身,数学知识也遗忘很多;所以学习的过程中很多概念和推导还是不是很清楚,不是很理解,也希望能系统的学习一下;一次在某个微信公众号上看到:强化学习七日打卡营-世界冠军带你从零实践,百度出品,免费! 看到后非常欣喜,立马就报了名;说实话,一开始并没有抱很大期望,因为课程是免费的,就是本着能有个老师带领着系统梳理下知识,答疑解惑也好,然而。。。。然而。。。。当上完了第一次课之后就,就被科科老师强化学习领域渊博的知识惊艳到了,感觉这次真是赚大了。。。科科老师虽然看上很年轻,但是知识丰富,功力深厚,不愧是拿到两次世界冠军的,从理论到实践,无不信手拈来,娓娓道来。科科老师总能高屋建瓴的把晦涩难懂的术语,概念用生动形象话的方式展示出来,对每个强化学习的算法来龙去脉梳理的清清楚楚。科科老师用我们营地里的说就是:人美心善代码6,但是我觉得更准确的说应该是:人美心细技高码6!

本次强化学习打卡营,我自己有几个收获:

  • 收获1:此次课程最大的收获是在科科老师的带领下,系统梳理了下强化学习的知识,明确清晰了强化学习之前很多模棱两可的感念和理念,学习到了强化学习主要的学习方法的区别和联系,如:基于表格的强化学习SARSA,Q-Learing;基于网络的学习DQN,这两种都是基于Q值的强化学习;基于值函数的学习方式主要的去查找和更新Q值,选择动作的策略是使Q值最大的那个动作,所以基于Q值的强化学习的策略是根据Q再去选择动作; 而基于策略的强化学习如Policy-Gradient,则是直接输出最优的动作,跳过了值函数这一步;不论是Sarsa,Q-Learnign,DQN,Policy-Grandient,他们都受限于有限的动作空间,如果是连续的动作空间就要用类似DDPG复杂一点的网络来处理了。
  • 收获2:PARL,PARL是百度自研的强化学习框架,PARL框架非常的精炼,在我看来PARL框架的抽象已经精炼到了极致,有点多一分就胖少一分就瘦的感觉(至少以我现在的编程水平感觉是这样),PARL的模块设计非常简洁,明确,把强化学习框架和业务完全的剥离了开来,框架尽可能的把框架该做的事情都做了,开发者只专注于真正的业务方面,如模型的设计,参数的调整和实验就好了。以前没接触过PARL,此次课程之后,感觉PARL真的很好用。以后的强化学习框架就PARL了。
  • 收获3:对自己工作的启发和指导:我在自己的工作领域里,也会有机器学习方面的尝试,之前有一个问题一直也没有找到合适的解决方案,本次课程之后,感觉基于表格的Q-Learning强化学习方式,对于这个问题是一种很好的值得尝试的方案,所以最近这几天也一直在想怎么去建模。

 

当然有收获也有遗憾:

  • 本次课程最大的遗憾是没有充分的去完成课程的作业,虽然5次作业都按时的提交了,但是训练的结果没有达到较好的效果;这7天的打卡营课程对于上班的人来说,确实挑战挺大的;白天上班,晚上上课,作业第二天中午就得交,所以做作业的时间只有上完课立马做作业;因此没有仔细的去斟酌模型,调参和去实验。 这几天因为科科老师把课程作业的答案提供给我们了,我自己又重新对照着老师的代码,审视了下自己的代码,看看哪里有自己没有考虑到的,哪里不足的,重新尝试再运行一下结果。

 

Nice To Have In Future:

  • 这次课程科科老师,主要是带领我们系统学习了下强化学习各个学习算法的实践,都是在给定的现成环境下实践,在真正的强化学习的应用实践中,我感觉对Environment的建模是非常重要的,包括State, Action的抽象,reward的设计,怎么把实际的问题建模成一个合理的Environment,我感觉这是强化学习解决实际问题的基础,很重要的一个方面,所以在以后的课程中考虑是不是可以增加这方面的指导。

 

以上就是我此次打卡营的收获和感想,

最后再次感谢:科科老师(我的强化学习入门导师); 感谢百度!

 

王涛

2020/06/25 

 

 

 

 

 

 

 

 

 

0
收藏
回复
全部评论(2)
时间顺序
w
wangwei8638
#2 回复于2020-06

很详细

0
回复
AIStudio810258
#3 回复于2020-06

心得满满,收货颇丰啊~~

加油!共同进步!

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户