语音自训练平台技术详解，快速训练专属语音识别模型

首页版块访问AI主站注册发帖

官

用户已被禁言发布于2019-11 浏览:28759 回复:25

快速回复

语音自训练平台4月份公测以来，有1000多名名用户创建了1600+模型，涉及医疗、金融、农业、教育、餐饮、物流、建筑、地产等多个行业，模型上线后应用到业务数据采集录入、音频关键词质检、智能语音助手、呼叫中心等多个语音识别场景上。模型在业务场景的识别率平均训练提升5-25%，真正有效解决了“垂直场景中语音识别的文字不准”“业务侧对文字后处理难度很高”“公司缺少模型训练的算法能力”等问题。

平台上线以来，也收到不少用户的反馈提问，如何正确利用语音自训练平台，提升训练效果，更好地实现业务场景上识别模型的训练优化。以下，将从自训练平台的训练原理、平台训练流程、训练建议几个方面为大家介绍如何正确使用语音自训练平台。

➣ 自训练平台的训练原理

一般的语音识别模型训练分为“声学模型训练 ”和“语言模型训练”两种。

● 声学模型训练主要是解决音频中的说话人发音、语种、方言语调、环境噪声、声源远近、声纹（男女儿童）类型等方面的影响因素来实现声音识别准确；

● 语言模型训练则主要解决声音识别为文字的过程中，根据文本训练语料中上下文文字搭配的统计概率来倾向于识别出正确的文字，例如将“hongqiaojichang”正确识别为”虹桥机场“而不是”红桥鸡场“。

自训练平台应用技术能力则是语言模型训练，通过上传词汇、固定搭配、长句文本等语料来干预模型如何识别出正确的文字，提升识别率。

➣ 自训练平台怎么用——平台使用流程介绍及训练建议

1) 准备测试集：测试集主要用途为：评估基础模型准确率和训练后模型准确率。系统会自动将训练前后模型在测试集音频上识别出的文字结果和上传的标注文字结果进行对比，得到识别率。训练前后的识别率变化即直观展示了训练效果。因此，测试集的音频需要为业务实际音频，且涵盖更多的业务场景，测试集的标注文本需要100%正确。

2) 上传测试集

a) 音频文件需要16k/8k 16bit单声道pcm/wav文件（8k为客服场景）。上传测试集音频必须压缩为zip文件，请将所有音频文件直接压缩，切勿将音频存放在文件夹内再压缩。

b) 标注文本文件需要TXT格式GBK编码。

测试集文件上传后，系统即可自动评估。系统根据基础模型的识别率自动推荐适合训练的基础模型，如果基础模型的识别率不到50%往往是因为音频与标注文件不匹配、场景选择和音频不一致或音频不符合要求。

3) 获取评估报告，选择基础模型

评估完成后系统会提供具体的评估结果详情报告，展示字准率，句准率，插入错误，删除错误，替换错误5个指标，以及在该测试集上的具体识别结果与标注结果的对比，根据识别错误信息可以更加精准地准备训练文本。

4) 上传训练文本

训练文本的准备决定了模型训练效果。模型训练分为热词训练和句篇训练两种，可以分别上传训练也可以一起上传训练。

a) 格式要求：训练文本文件需要TXT格式GBK编码。热词训练要求每个词之间需要换行，句篇训练支持上传多行单句或一整段由文字和标点符号组成的篇章。这里一定要上传与您所需模型内容高度相关的文本或关键词，以便最大程度提高模型识别率。

b) 内容建议：

● 在热词训练中，可以添加全部行业术语、专有名词、固定搭配等，以及模型评估中识别不准确的名词，例如：明月棹孤舟（会议室名称）、阿托伐他汀（药品名称）、五彩葵花（金融产品）等。

● 在句篇训练中，可以围绕热词训练中的名词进行造句，让行业术语或专有名词分别多次出现在句首、句中和句尾，每个相同类型的具体可以更换句子的实际内容来提高识别率。也可以将包含专有名词的句子进行组织，组成接近实际业务场景的段落。

例如：明月棹孤舟（会议室名称）识别不准确

热词训练---明月棹孤舟

句篇训练---明月棹孤舟这个会议室在哪里？

---我预定的明月棹孤舟是几点？

---你好，帮我预定明天上午11点的明月棹孤舟

c) 训练结果：系统自动训练，训练后模型会再次识别测试集中的音频得到训练后的识别率，并输出一份训练报告，展示字准、句准等指标以及训练后模型的识别结果和标注文本的结果对比。

5) 迭代训练：一次训练的结果不满意，可以多次上传训练集进行迭代上传，直至结果满意

6) 上线模型：几次训练后对识别结果满意的话便可以申请模型上线，上线后的模型暂时不支持迭代训练，此项功能已在开发中。一个账号下最多只能上线3个模型。申请上线后后台管理员会在1-3个工作日内进行审核，审核失败可在点击“？”查看失败原因。若对审核过程和结果有任何问题可以加入官方QQ群（群号: 686267521）咨询群管。

7) 调用模型：模型上线后会获得您的专属模型参数PID:xxx LM_ID:xxxxx，在SDK或API内部配置即可调用训练后的模型。搜索模型、输入法模型支持RESTful API、Android SDK、IOS SDK、Linux SDK等调用方式，呼叫中心模型支持C++ SDK、JAVA SDK、MRCP server三种调用方式。

语音自训练平台公测期间，为了帮助客户验证线上效果，每个账号支持上线3个模型，每个账号累计有50000次免费调用量。正式商用后，免费资源可能会有所调整。公测期QPS限额：个人未认证账户2QPS；个人认证账户3QPS；企业认证账户5QPS。公测期间如需更多资源，欢迎点击商务合作咨询。

福利：语音主题月活动

语音自训练平台限时赠送5-20万调用次数包，点击立即领取：

https://cloud.baidu.com/campaign/Promotion-ASR/index.html?_=&hmsr=aibanner&hmpl=speech

相关资料

百度语音自训练平台简介：https://ai.baidu.com/tech/smartasr

百度语音自训练平台文档说明：https://ai.baidu.com/docs#/SmartASR-intro/top

百度语音自训练平台视频教学：
http://abcxueyuan.cloud.baidu.com/#/play_video?id=15006&courseId=15006&mediaId=mda-jgin7xynx757aveb&videoId=2690

平台资讯

个赞

共25条回复最后由用户已被禁言回复于2022-04

#6进985回复于2020-04

不错

#5用户已被禁言回复于2019-12

对#4 爱情来过的时节回复

具体怎么上传测试集和txt文件呢？我只有学习的语音课件，没有txt .该怎么具体操作呢？我和需要语音转文字，我听力不好，听录音几乎没啥用！

展开

您的问题已在QQ群中和您沟通。

#4爱情来过的时节回复于2019-12

具体怎么上传测试集和txt文件呢？我只有学习的语音课件，没有txt .该怎么具体操作呢？我和需要语音转文字，我听力不好，听录音几乎没啥用！

#3用户已被禁言回复于2019-11

对#2 wangwei8638回复

专业定制

是的，开放的可针对特殊场景的定制优化

#2wangwei8638回复于2019-11

专业定制

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服