强化学习PARL学习总结
fxbnl123 发布于2020-06 浏览:2435 回复:0
0
收藏
最后编辑于2022-04

通过百度强化学习7日打卡营课程, 让我充分了解到PRAL框架的魅力,接下来,分享一下我对PARL框架的理解。

PARL的特点:

  • 可复现性保证:提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标。
  • 大规模并行支持:框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练。
  • 可复用性强:用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中。
  • 良好扩展性:当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法。

PARL的框架结构:

说到结构之前,我们先看下面一张图:

智能体通过(Action)与环境交互过程中得到了状态(state)和回报(reward), 这里通过PRAL智体的具体行为策略可以划分为3个部分进行抽象,分别为Model,Algorithm,Agent,解释如下

  • Model:用来定义前向(Forward)网络,这通常是一个策略网络(Policy Network)或者一个值函数网络(Value Function),输入是当前环境状态(State)。
  • Algorithm:定义了具体的算法来更新前向网络(Model),也就是通过定义损失函数来更新Model。一个Algorithm包含至少一个Model。
  • Agent:负责算法与环境的交互,在交互过程中把生成的数据提供给Algorithm来更新模型(Model),数据的预处理流程也一般定义在这里。

通过对智能体的3个部分进行抽象,我们能够非常简便的切换不同的交互环境,而不需要修改大量智能体相关代码,很大程度上做到了软件开发的高内聚,低耦合。

最后,非常感谢强化学习7日打卡营的人美声甜的班主任和超级无敌的科科老师,能够提供如此简洁易懂的强化学习课程,为我后续的学习打下良好的基础。

收藏
点赞
0
个赞
TOP
切换版块