【李宏毅机器学习特训营】课程学习心得-回归、分类

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

Y仰望灬星空发布于2021-04

自从初步了解到机器学习的概念，想投入机器学习的念头越来越清晰，我在网上找了很多的课，也看了很多人写的技术交流文章，但都没有办法让我理解机器学习的架构，因此经历了一大段的撞墙期。直到无意间看到公众号发布台大教授-李宏毅讲解深度学习的文章，既活泼又简单的例子，让我又重新点燃想学习的动能。也让我意识到，原来一个生硬的东西也可以讲的如此生动。李宏毅老师讲的非常好，举重若轻，风趣幽默，不仅有机器学习，深度学习的基础知识，也有各种最新技术（生成对抗网络诸多变种和循环神经网络）的领读。他的课经常用增强现实游戏宝可梦举例，接地气，亲近年轻人。尤其是李宏毅老师讲课的思路，非常贴合年轻人的思路，ppt和备课十分用心。讲的时候看似很搞笑的东西，其实都是促进理解的良药。李老师讲课的时候，很多东西都会在衔接的地方有过渡说明，这个非常重要！

回归(Regression)

回归是一种数学模型，主要用于分析因变量与自变量之间的函数关系，如果因变量和自变量之间的关系是线性关系，那么该回归就是线性回归。在机器学习领域，回归的主要功能是预测，即通过使用在已知的数据集上训练并总结出来的因变量与自变量之间的函数规律，对未知的或没有统计到的数据进行预测推断。主要应用场景在：股市预测、自动驾驶和推荐系统等。在课程中李宏毅老师用预测宝可梦进化后的CP值进行回归问题的解释。

分类(Classification)
与回归问题不同，分类问题不需要输出具体的预测的值，只需要输出所输入的数据属于哪个类别。在医疗诊断、手写文字识别、金融贷款和人脸识别等领域有着广泛应用。那么要如何进行分类呢？首先要收集数据，尽可能地收集每个类别上的数据。要注意，分类问题并不能使用回归的方法来做，回归对于分类器f好坏的定义与分类中不同，回归会受到大数值的数据影响，使分类器向大数值方向偏转而忽略了在分类器周围的数据。对于二元分类问题，需要找到一个f，将数据x输入，根据输出来判断是属于类别1还是类别2。定义损失函数：统计分类器f在训练集上判断错误的次数，找到好的f的方法有：支持向量机(Support Vector Mechine)和感知机(Perceptron)。李宏毅老师首先引入了生成(Generative)模型算法，假设出现的数据都服从某一概率分布，即训练集中的数据都是从某一个高斯分布中抽取出来的，要用训练集中的数据分布来估计出该高斯分布中的μ和Σ。要注意的是，所有的高斯分布都能从中抽取出训练集中的这些数据，有区别的是不同高斯分布抽取出这些数据的概率不同，而我们的目标就是找到一个高斯分布，从这个高斯分布中抽取出训练集中的这些数据的概率最大。

概率生成模型概念：（从概率生成模型到判别模型）；概率生成模型：由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型。例如：朴素贝叶斯、隐马尔可夫（em算法）；判别模型：由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型。例如：k近邻法、感知机、决策树、逻辑回归、线性回归、最大熵模型、支持向量机(SVM)、提升方法、条件随机场（CRF）

思路：1、分类问题及其解决方法的讨论

1）首先，什么是分类问题

　　 2）接着，分类问题该如何解决呢

2、建立概率生成模型的步骤（以朴素贝叶斯分类器为例）

　　 step1：求先验概率

　　 step2：确定数据属于哪一个分布，用最大似然估计出分布函数的参数

　　 step3：求出后验概率

3、生成模型解决分类问题的总结以及逻辑回归方法（判别模型）的引出

全部评论(1)

PaddleTalent

#2 回复于2021-05

赞赞赞, 好认真呀