百度飞桨强化学习7日打卡营学习心得
duanduanwa 发布于2020-06 浏览:2265 回复:1
0
收藏

机器学习有三大板块:监督学习,非监督学习,强化学习。

之前对强化学习基本上没什么概念,对这个能让智能体通过与环境的交互来进行学习的技术也挺好奇,所以参加了此次强化学习打卡营。

课程学习采用的百度开发的PARL, 它是一个高性能、灵活的强化学习框架,能帮助用户快速实现强化学习。用户使用时只要逐步构建Model、Algorithm和Agent的结构,大大提升了开发效率。实战项目采用gym导入一些常见的挑战环境。

学习营一如既往的,有优秀的教师,此次的授课的科科老师全程直播手把手教学,5大实战作业,带大家从零实践强化学习!

科科老师授课非常有特点,理论介绍,代码讲解,效果展示,思维导图总结,条理十分清晰,实战的项目能让学员很快体验到强化学习的魅力。

强化学习是一个大家族,包含了很多种算法, 授课内容提到之中一些比较有名的算法,比如有通过行为的价值来选取特定行为的方法,包括使用表格学习的 q learning, sarsa,使用神经网络学习的 deep q network, 还有直接输出行为的 policy gradients。其中,Policy Gradient算法和连续动作空间的DDPG算法给我的印象最深刻,因为对应的两个实战项目的调参非常有挑战性,调参的tricks感觉和普通的深度学习还是有差异,特别是reward设计是强化学习的难点,应该对环境和action有更深的理解(先验知识??)才能够设计出好的方案。作业里面这两个项目的调参,尝试了基本的学习率和网络模型修改,训练结果都不太理想,结营后还要多学习老师放出的标准答案,进一步总结。

总体来说,强化学习趣味性和挑战性很强,感兴趣的话,确实可以深入学习了解,强烈推荐本课程,科科老师的讲解能让你很快入门。

收藏
点赞
0
个赞
共1条回复 最后由用户已被禁言回复于2022-04
#2duanduanwa回复于2020-06

课程资源:https://github.com/PaddlePaddle/PARL/tree/develop/examples/tutorials

可以在自己的电脑上跑。

0
TOP
切换版块