数据准备的能力，影响企业AI研发的边界

首页版块访问AI主站注册发帖

数据准备的能力，影响企业AI研发的边界

官

用户已被禁言发布于2021-08 浏览:1973 回复:0

数据准备的能力，影响企业AI研发的边界

快速回复

做过产业级 AI 研发的人，都知道和学术研究的差别有多大。

当前，基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域，需要更多数据以提升模型效果。

在学术领域，已经有一些规模较大的公开数据集，如 ImageNet，COCO 等。对于深度学习入门者，这些公开数据集可以提供非常大的帮助。

但是对于大部分企业开发者，特别在医学成像、自动驾驶、工业质检等领域中，他们更需要利用专业领域的实际业务数据定制 AI 模型应用，以保证其能够更好地应用在业务中。因此，业务场景数据的采集和标注也是在实际 AI 模型开发过程中必不可少的重要环节。

数据标注的质量和规模通常是提升 AI 模型应用效果的重要因素，然而标注人员的培训与手工标注成本高、耗时长，完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集并不容易，行业中常开的玩笑“有多少人工就有多少智能”就是这么来的。

1分钟读懂智能标注的原理

为解决上述问题，我们可以利用主动学习的方法，采用“Human-in-the-loop”的交互式框架（图1）进行数据标注，以有效减少人工数据标注量。

▲ 图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架

主动学习（Active Learning, AL）是一种挑选具有高信息度数据的有效方式，它将数据标注过程呈现为学习算法和用户之间的交互。其中，算法负责挑选对训练AI模型价值更高的样本，而用户则标注那些挑选出来的样本。如“Human-in-the-loop”交互式数据标注框架，通过用户已标注的一部分数据来训练AI模型，通过此模型来标注剩余数据，再从中筛选出 AI 模型标注较为困难的数据进行人工标注，再将这些数据用于模型的优化。

几轮过后，用于数据标注的 AI 模型将会具备较高的精度，更好地进行数据标注。以图像分类问题举例，首先，人工挑选并标注一部分图像数据，训练初始模型，然后利用训练的模型预测其余未标注的数据，再通过“主动学习”中的“查询方法”挑选出模型比较难分辨类别的数据，再人为修正这些“难”数据的标签并加入训练集中再次微调（Fine-tuning）训练模型。“查询方法”是主动学习的核心之一，最常见的“查询方法”有基于不确定性的样本查询策略和基于多样性的样本查询策略。

基于不确定性的样本查询策略可查询出深度学习模型预测时，靠近决策边界的样本。以二分类问题举例，当一个未标注样本被预测为任一标签的概率都是50%时，则该样本对于预测模型而言是“不确定”的，极有可能被错误分类。要注意的是，主动学习是一个迭代过程，每次迭代，模型都会接收认为修正后的标注数据微调模型，通过这个过程直接改变模型决策的边界，提高分类的正确率。

基于多样性的查询策略，可实现对当前深度学习模型下状态未知样本的查询。将通过多样性查询挑选出的数据加入训练集，可丰富训练集的特征组合，提升模型的泛化能力。模型学习过的数据特征越丰富，泛化能力越强，预测模型适用的场景也越广。

如何实践智能标注

为解决大数据量标注的痛点，基于主动学习且融合多样查询策略的智能标注AI解决方案应运而生。通过百度 BML 全功能 AI 开发平台的智能标注功能，开发者们只需标注数据集中30%左右的数据，即可启动智能标注在 BML 后台自动标注剩余数据，再返回少量后台难以确定的数据再次进行人工标注，同时提升自动标注的准确性，经过几轮之后，在实际项目测试中，智能标注功能可以帮助用户节省70%的数据标注量，极大地减少数据标注中的人力成本和时间成本。

目前，BML 的智能标注功能已支持计算机视觉 CV 方向的物体检测、图像分割任务，及自然语言处理 NLP 方向的文本分类任务。在 BML 平台主页点击“智能标注”即可免费开启使用。

使用方法也很简单，以物体检测任务为例，共为三步：

Step1 上传数据集并标注少量数据

将所有需要标注的图片加入数据集，并创建所有需要识别的标签
按照不同的任务类型要求进行少量标注，如物体检测任务，要求每个标签下的标注框数不少于10个

Step 2 启动智能标注任务并进行难例确认

创建智能标注任务，系统会基于用户选择数据类型及数据量级，自动预估任务运行时长。

智能标注任务启动后，系统自动标注的过程中还会筛出部分难例，用户可以逐一对难例标注的效果确认或修改。

最新版的 BML 上，还提供了“指定模型标注”的形式，用户可以选择复用自己之前训练的相似模型，完成对新数据集的快速标注。

Step 3 评估难例效果，完成任务

当用户对难例完成确认后，可以根据本轮次预标注的结果是否满意，判断是否还需要进入下一轮难例筛选阶段。如果满意本轮难例的预标注效果，即可结束智能标注的任务，进行后续的模型训练。

平台资讯

个赞

快速回复

小编推荐

【开奖啦】投稿赢大奖-奇思妙想+AI技术=？

用户已被禁言 55回复

百度AI社区开发者联盟集结！！

用户已被禁言 9回复

社区积分商城上线啦～

用户已被禁言 25回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服