本次课程讲了机器学习的两个子类——监督学习和无监督学习
首先说监督学习。监督学习(Supervised Learning)指的是在进行机器学习之前,我们会给一个数据集,其中包含“正确答案”。比如房价预测。在进行机器学习之前,我们会给定一个样本数据,其中有不同面积下的房价数据,也就是说,机器学习的输出——房价这样的标签已经在数据集中给定。我们在这些数据的训练下,才能得到正确的输出。监督学习可以分为回归(Regression)和分类(Classification)。所谓回归问题,就是预测连续输出的问题(Predict continuous valued output),如房价预测,训练数据会被正确地标注不同面积下的房价。所谓分类问题,就是离散输出问题(Discrete valued output)。比如,预测肿瘤是否是恶性肿瘤,训练数据中会明确标注哪些是恶性肿瘤,哪些不是。以上这些都是样本数据会被标注的问题。生动地来说,就是机器会在“正确答案的监督下”进行。
再说无监督学习(Unsupervised Learning)。我们给定的训练数据中不会有正确的标注,即“正确答案”,机器需要通过自己来学习数据之间的区别,将他们分成不同的簇(cluster)。我们常用的搜索引擎就是很好的无监督学习的例子。算法会自动将相关的主题聚集在一起,这就是“聚类算法”。聚类算法在组织计算机集群、社交网络分析、市场细分以及天文数据分析中有这广泛的应用。
总结一下,监督学习问题就是训练数据中包含正确标注的机器学习问题,而非监督学习的训练数据中没有任何标注。这是监督学习和非监督学习之间的本质区别。在监督学习中,算法需要根据带有正确标注的数据训练出一个函数,来得到正确的输出;而非监督学习的训练数据中没有标注,机器需要通过自己来学习不同样本之间的联系和区别,实现聚类。