机器学习步骤

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

时间女神发布于2022-08

本文将讲解一般机器学习的5大步骤

1、获取原始数据
机器学习旨在从数据中进行归纳总结，因此数据是我们要准备的第一件事情。根据准备数据方式的不同，机器学习可以分为以下几大类：

（1）监督学习：用人工的方式来生成标签

（2）自监督学习：用程序算法生成标签，比如bert用的

（3）无监督学习：如聚类算法，它的标签可以视作整个数据集的某些特征。

（4）强化学习(深度强化学习)：让AI与环境互动，对其某些动作进行奖励与惩罚，在这个过程中生成标签。

2、加工数据
这个过程是将我们原始的数据格式转换成可以输入到神经网络中的格式。另外，在这个步骤中，我们也可以对数据进行增广，扩充数据集，从而加强模型的泛化能力。

3、选择模型
准备好数据集之后我们就可以选择我们的模型了。根据模型的速度，精度，以及复杂程度等，我们可以从当前这个任务中表现比较好的模型里进行选择，也可以自己搭建模型，还可以对当前模型进行特定的修改以适配自己的任务。

4、训练模型
模型搭建完成之后，我们需要使用GPU或CPU来对我们的模型进行训练，这一步将通过梯度下降方法来自动的调整我们模型里的一个个的参数。在这个阶段，有很多东西值得注意：

（1）损失函数，损失函数表示了模型输出与真实标签之间的差距，因为神经网络的学习不可能使得误差为0，因此不同的损失函数对模型最终效果是有明显影响的。

（2）优化器，优化器一方面影响着模型的收敛速度，以及最终能收敛到的级别。一般我们选用Adam优化器即可。

（3）训练硬件，因为我们的神经网络在内部的设计都是可以并行运算的，所以用GPU训练会快上几十倍相比CPU而言。

（4）监督训练过程，这一步同样十分重要，可以让我们在早期就能对模型最终效果有一个大致的判断，从而提前终止训练过程。更快调试我们的网络架构和超参数。除了损失值之外，各个领域我们也有独有的验证手段。如：语音上，我们可以将模型输出的语音保存，然后听。图像上，我们可以使用psnr指标，还可以保存图像，然后看。分类任务上，我们可以使用分类精度指标。

5、模型预测
这一步就是把我们训练好的模型保存起来，下次做该方向任务时就可以直接调用。在竞赛中，我们一般就打包成.zip文件提交就行。在网页端，我们可以在服务器后端调用该模型，为用户提供服务。在自动驾驶中，我们就将模型的参数取出，然后保存到相关的非电脑硬件中。