在学校老师的推荐下,我们了解到了百度飞桨这个平台,然后再到李宏毅老师的机器学习。讲的非常好,举重若轻,风趣幽默,不仅有机器学习,深度学习的基础知识,也有各种最新技术的解读,ppt十分风趣幽默,很吸引学生的注意。
《李宏毅机器学习特训营》的基础课程有13节,可以分为6部分:
第一部分:1、机器学习介绍;2、回归;实践:PM2.5预测。
第二部分:1、梯度下降;2、分类;实践:年收入判断。
第三部分:1、支持向量机;2、集成学习;3、深度学习预备;实践:Paddle2.0基础练习。
第四部分:1、卷积神经网络;实践1:食物图片分类;实践2:语句分类。
第五部分:1、半监督学习;2、无监督学习;3、深度生成模型;4、迁移学习;实践:迁移学习。
第六部分:挑战赛:中文新闻文本标题分类;百度官方比赛;直播讲解赛题。
下面是机器学习的介绍:
1.首先,机器学习是什么:机器学习,就是“根据所给数据,寻找一个函数,给出适当输出”。通过这个函数,我们可以给它一个输入,得到理想的、正确的输出。我们通常需要给它数据,训练一个机器的学习能力。例如:Speech Recognition就是我们给它一段音频,它给我们识别,输出这个音频说的内容是什么。
2.机器学习的大致步骤:
机器学习,虽然分为很多种,但大致都有三个步骤:
1)确定Model:Model就是a set of function(函数的集合),一个Model有很多个函数,通过函数我们得到想要的output。
2)评价函数(Goodness of function):因为有许多的函数,我们要通过一个确定的方式去挑选出最好的函数,通常我们用loss function 去评价一个函数的好坏。
3)挑选并使用函数。
3.机器学习地图:
机器学习以情景分类,可以分为:
1)Supervised Learning:即给定系统各个输入(input)以及对应的确定的输出(label),告诉系统:我给你一个X,你就要输出确定的输出Y,这也是最常用的机器学习方式。
2)Semi-supervised Learning:有些情况下,我们手中的数据不够,有一部分输入对应确定的输出,但有一部分没有确定的输出(即一些input缺少label),这种情况就是半监督学习。
3)Unsupervised Learning:所有input都没有label,即机器在没有任何监督它,只给它大量的输入,让它根据输入数据自己总结规律。(例如新闻分类)
4)Transfer Learning:迁移学习,可以有label也可以没有label。比如我们有个模型可以识别猫和狗,我们将它迁移使用,用来识别大象和老虎。也就是数据都变了,但想模型重复使用。
5)Reinforcement Learning:
强化学习,是机器学习很重要的分支。
在监督学习时,机器在向“老师”学习。我们就是机器的老师:我们告诉机器,我给你一个输入,你就该给我对应的这个输出,我说hello,你就应该回复我Hi!
在强化学习中,机器在向“评价”学习。机器自己学习,我们没告诉他应该具体什么,只给它输出的结果打分,它在一次次的结果中,被批评的过程中自己总结经验。
举个很著名的例子:AlphaGo——它就是在和监督学习强化学习中被训练的。首先,它向棋谱学习,也就是说告诉它应该做什么,应该怎么下,这是固定的套路(监督学习);其次,到了后期,它的水平很高之后,它开始向对手学习,这个“对手”可以是另一台机器,也可以是人类棋手,它在一次次比赛结果中总结经验(强化学习)。
4.监督学习的细分:
按照任务,主要分为regression、classification和structure learning。
1)regression:我给你一个输入,你给我一个数值输出,例如:我给你过去几天的PM2.5浓度,你给我预测一下明天的PM2.5浓度(这是个数值输出)。
2)classification:我给你一个输入,你告诉我这个输入属于哪个类。例如:我给你个邮件,你判断一下这个是不是个垃圾邮件(二分类问题)。
classification按照方法,又分为:线性模型和非线性模型。
非线性模型常见的方法有:深度学习,SVM,决策树,K-NN等等
厉害