首页 AI Studio教育版 帖子详情
强化学习(RL)初印象学习笔记
收藏
快速回复
AI Studio教育版 文章课程答疑 2363 7
强化学习(RL)初印象学习笔记
收藏
快速回复
AI Studio教育版 文章课程答疑 2363 7

        作为一名统计学专业的学生,对机器学习已经有所了解。初步接触人工智能,到目前为止对基本概念还有些陌生,因此做将其基础知识和心得体会分享如下。

        1)机器学习

        机器学习是实现人工智能的一种手段,也是目前被认为比较有效的实现人工智能的手段,目前在业界使用机器学习在计算机视觉、自然语言处理、推荐系统等领域应用广泛。机器学习是人工智能(AI)的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。

        人工智能是计算机科学的一个分支,研究计算机中智能行为的仿真。每当一台机器根据一组预先定义的解决问题的规则来完成任务时,这种行为就被称为人工智能。机器学习是指计算机使用大数据集而不是硬编码规则来学习的能力。机器学习允许计算机自己学习。这种学习方式利用了现代计算机的处理能力,可以轻松地处理大型数据集。基本上,机器学习是人工智能的一个子集;更为具体地说,它只是一种实现AI的技术,一种训练算法的模型,这种算法使得计算机能够学习如何做出决策。从某种意义上来说,机器学习程序根据计算机所接触的数据来进行自我调整。

        2)深度学习

        深度学习是一种机器学习方法 , 它允许我们训练人工智能来预测输出,给定一组输入(指传入或传出计算机的信息)。监督学习和非监督学习都可以用来训练人工智能。

        3)强化学习、监督学习、非监督学习

        强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其核心思想是:智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。在科科老师讲过的马里奥、Atari、Alpha Go、星际争霸等游戏中就应用到了强化学习,此外在机械臂、机器人、自动驾驶、四轴飞行器等机器人控制方面也用到了强化学习;在推荐、广告、NLP、拥堵管理、物流、带宽、投资组合、股票买卖等实例中也广泛应用了强化学习,由此可见,强化学习已经渗透到生活的各个方面,已经被广泛应用到用户交互、交通、资源调度、金融等各个领域。这些都体现了强化学习的重要意义。

        监督式学习需要使用有输入和预期输出标记的数据集。之所以被称为监督式学习,是因为算法从训练数据集学习的过程就像是一位老师正在监督学习。在我们预先知道正确的分类答案的情况下,算法对训练数据不断进行迭代预测,然后预测结果由“老师”进行不断修正。当算法达到可接受的性能水平时,学习过程才会停止。

        非监督式学习是利用既不分类也不标记的信息进行机器学习,并允许算法在没有指导的情况下对这些信息进行操作。

        三者的区别与联系:

        强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。监督学习寻找输入到输出之间的映射,比如分类和回归问题。非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。强化学习则需要在与环境的交互中学习和寻找最佳决策方案。监督学习处理认知问题,强化学习处理决策问题。

        强化学习通过不断的试错探索,吸取经验和教训,持续不断的优化策略,从环境中拿到更好的反馈。 强化学习有两种学习方案:基于价值(value-based)、基于策略(policy-based)。强化学习的经典算法:Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO。强化学习的环境分类:离散控制场景(输出动作可数)、连续控制场景(输出动作值不可数)。

        强化学习框架库PARL将强化学习框架抽象为Model、Algorithm、Agent三层,使得强化学习算法的实现和调试更方便和灵活。

        PARL开源库地址:https://github.com/PaddlePaddle/PARL

 

 

 

 

 

 

3
收藏
回复
全部评论(7)
时间顺序
AIStudio810261
#2 回复于2020-06

写的很赞呀.

0
回复
LiuNick2000
#3 回复于2020-07

如果能画个韦恩图就跟好了,纯文字内容很赞

0
回复
kj7541
#4 回复于2020-07

感觉百度出的强化学习的parl框架有的时候还不如直接用fluid简单。

0
回复
夜夜夜
#5 回复于2020-07

mark 一下,学习学习

0
回复
夜夜夜
#6 回复于2020-07

mark学习一下。

0
回复
半岛铁盒
#7 回复于2020-08

感谢分享

0
回复
Mr.郑先生_
#8 回复于2020-09

赞!

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户