强化学习（RL）初印象学习笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

ghuijffdghjjkh 发布于2020-06

作为一名统计学专业的学生，对机器学习已经有所了解。初步接触人工智能，到目前为止对基本概念还有些陌生，因此做将其基础知识和心得体会分享如下。

1）机器学习

机器学习是实现人工智能的一种手段，也是目前被认为比较有效的实现人工智能的手段，目前在业界使用机器学习在计算机视觉、自然语言处理、推荐系统等领域应用广泛。机器学习是人工智能（AI）的一个分支，而在很多时候，几乎成为人工智能的代名词。简单来说，机器学习就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来做预测。

人工智能是计算机科学的一个分支，研究计算机中智能行为的仿真。每当一台机器根据一组预先定义的解决问题的规则来完成任务时，这种行为就被称为人工智能。机器学习是指计算机使用大数据集而不是硬编码规则来学习的能力。机器学习允许计算机自己学习。这种学习方式利用了现代计算机的处理能力，可以轻松地处理大型数据集。基本上，机器学习是人工智能的一个子集;更为具体地说，它只是一种实现AI的技术，一种训练算法的模型，这种算法使得计算机能够学习如何做出决策。从某种意义上来说，机器学习程序根据计算机所接触的数据来进行自我调整。

2）深度学习

深度学习是一种机器学习方法，它允许我们训练人工智能来预测输出，给定一组输入(指传入或传出计算机的信息)。监督学习和非监督学习都可以用来训练人工智能。

3）强化学习、监督学习、非监督学习

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其核心思想是：智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。在科科老师讲过的马里奥、Atari、Alpha Go、星际争霸等游戏中就应用到了强化学习，此外在机械臂、机器人、自动驾驶、四轴飞行器等机器人控制方面也用到了强化学习；在推荐、广告、NLP、拥堵管理、物流、带宽、投资组合、股票买卖等实例中也广泛应用了强化学习，由此可见，强化学习已经渗透到生活的各个方面，已经被广泛应用到用户交互、交通、资源调度、金融等各个领域。这些都体现了强化学习的重要意义。

监督式学习需要使用有输入和预期输出标记的数据集。之所以被称为监督式学习，是因为算法从训练数据集学习的过程就像是一位老师正在监督学习。在我们预先知道正确的分类答案的情况下，算法对训练数据不断进行迭代预测，然后预测结果由“老师”进行不断修正。当算法达到可接受的性能水平时，学习过程才会停止。

非监督式学习是利用既不分类也不标记的信息进行机器学习，并允许算法在没有指导的情况下对这些信息进行操作。

三者的区别与联系：

强化学习、监督学习、非监督学习是机器学习里的三个不同的领域，都跟深度学习有交集。监督学习寻找输入到输出之间的映射，比如分类和回归问题。非监督学习主要寻找数据之间的隐藏关系，比如聚类问题。强化学习则需要在与环境的交互中学习和寻找最佳决策方案。监督学习处理认知问题，强化学习处理决策问题。

强化学习通过不断的试错探索，吸取经验和教训，持续不断的优化策略，从环境中拿到更好的反馈。强化学习有两种学习方案：基于价值(value-based)、基于策略(policy-based)。强化学习的经典算法：Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO。强化学习的环境分类：离散控制场景（输出动作可数）、连续控制场景（输出动作值不可数）。

强化学习框架库PARL将强化学习框架抽象为Model、Algorithm、Agent三层，使得强化学习算法的实现和调试更方便和灵活。

PARL开源库地址：https://github.com/PaddlePaddle/PARL