语音自训练平台4月份公测以来,有1000多名名用户创建了1600+模型,涉及医疗、金融、农业、教育、餐饮、物流、建筑、地产等多个行业,模型上线后应用到业务数据采集录入、音频关键词质检、智能语音助手、呼叫中心等多个语音识别场景上。模型在业务场景的识别率平均训练提升5-25%,真正有效解决了“垂直场景中语音识别的文字不准”“业务侧对文字后处理难度很高”“公司缺少模型训练的算法能力”等问题。
平台上线以来,也收到不少用户的反馈提问,如何正确利用语音自训练平台,提升训练效果,更好地实现业务场景上识别模型的训练优化。以下,将从自训练平台的训练原理、平台训练流程、训练建议几个方面为大家介绍如何正确使用语音自训练平台。
➣ 自训练平台的训练原理
一般的语音识别模型训练分为“声学模型训练 ”和“语言模型训练”两种。
● 声学模型训练主要是解决音频中的说话人发音、语种、方言语调、环境噪声、声源远近、声纹(男女儿童)类型等方面的影响因素来实现声音识别准确;
● 语言模型训练则主要解决声音识别为文字的过程中,根据文本训练语料中上下文文字搭配的统计概率来倾向于识别出正确的文字,例如将“hongqiaojichang”正确识别为”虹桥机场“而不是”红桥鸡场“。
自训练平台应用技术能力则是语言模型训练,通过上传词汇、固定搭配、长句文本等语料来干预模型如何识别出正确的文字,提升识别率。
➣ 自训练平台怎么用——平台使用流程介绍及训练建议
1) 准备测试集:测试集主要用途为:评估基础模型准确率和训练后模型准确率。系统会自动将训练前后模型在测试集音频上识别出的文字结果和上传的标注文字结果进行对比,得到识别率。训练前后的识别率变化即直观展示了训练效果。因此,测试集的音频需要为业务实际音频,且涵盖更多的业务场景,测试集的标注文本需要100%正确。
2) 上传测试集
a) 音频文件需要16k/8k 16bit单声道pcm/wav文件 (8k为客服场景)。上传测试集音频必须压缩为zip文件,请将所有音频文件直接压缩,切勿将音频存放在文件夹内再压缩。
b) 标注文本文件需要TXT格式GBK编码。
测试集文件上传后,系统即可自动评估。系统根据基础模型的识别率自动推荐适合训练的基础模型,如果基础模型的识别率不到50%往往是因为音频与标注文件不匹配、场景选择和音频不一致或音频不符合要求。
3) 获取评估报告,选择基础模型
评估完成后系统会提供具体的评估结果详情报告,展示字准率,句准率,插入错误,删除错误,替换错误5个指标,以及在该测试集上的具体识别结果与标注结果的对比,根据识别错误信息可以更加精准地准备训练文本。
4) 上传训练文本
训练文本的准备决定了模型训练效果。模型训练分为热词训练和句篇训练两种,可以分别上传训练也可以一起上传训练。
a) 格式要求:训练文本文件需要TXT格式GBK编码。热词训练要求每个词之间需要换行,句篇训练支持上传多行单句或一整段由文字和标点符号组成的篇章。这里一定要上传与您所需模型内容高度相关的文本或关键词,以便最大程度提高模型识别率。
b) 内容建议:
● 在热词训练中,可以添加全部行业术语、专有名词、固定搭配等,以及模型评估中识别不准确的名词,例如:明月棹孤舟(会议室名称)、阿托伐他汀(药品名称)、五彩葵花(金融产品)等。
● 在句篇训练中,可以围绕热词训练中的名词进行造句,让行业术语或专有名词分别多次出现在句首、句中和句尾,每个相同类型的具体可以更换句子的实际内容来提高识别率。也可以将包含专有名词的句子进行组织,组成接近实际业务场景的段落。
例如:明月棹孤舟(会议室名称)识别不准确
热词训练---明月棹孤舟
句篇训练---明月棹孤舟这个会议室在哪里?
---我预定的明月棹孤舟是几点?
---你好,帮我预定明天上午11点的明月棹孤舟
c) 训练结果:系统自动训练,训练后模型会再次识别测试集中的音频得到训练后的识别率,并输出一份训练报告,展示字准、句准等指标以及训练后模型的识别结果和标注文本的结果对比。
5) 迭代训练:一次训练的结果不满意,可以多次上传训练集进行迭代上传,直至结果满意
6) 上线模型:几次训练后对识别结果满意的话便可以申请模型上线,上线后的模型暂时不支持迭代训练,此项功能已在开发中。一个账号下最多只能上线3个模型。申请上线后后台管理员会在1-3个工作日内进行审核,审核失败可在点击“?”查看失败原因。若对审核过程和结果有任何问题可以加入官方QQ群(群号: 686267521)咨询群管。
7) 调用模型:模型上线后会获得您的专属模型参数PID:xxx LM_ID:xxxxx,在SDK或API内部配置即可调用训练后的模型。搜索模型、输入法模型支持RESTful API、Android SDK、IOS SDK、Linux SDK等调用方式,呼叫中心模型支持C++ SDK、JAVA SDK、MRCP server三种调用方式。
语音自训练平台公测期间,为了帮助客户验证线上效果,每个账号支持上线3个模型,每个账号累计有50000次免费调用量。正式商用后,免费资源可能会有所调整。 公测期QPS限额:个人未认证账户2QPS;个人认证账户3QPS;企业认证账户5QPS。 公测期间如需更多资源,欢迎点击商务合作咨询。
福利:语音主题月活动
语音自训练平台限时赠送5-20万调用次数包,点击立即领取 :
https://cloud.baidu.com/campaign/Promotion-ASR/index.html?_=&hmsr=aibanner&hmpl=speech
相关资料
百度语音自训练平台简介:https://ai.baidu.com/tech/smartasr
百度语音自训练平台文档说明:https://ai.baidu.com/docs#/SmartASR-intro/top
百度语音自训练平台视频教学:
http://abcxueyuan.cloud.baidu.com/#/play_video?id=15006&courseId=15006&mediaId=mda-jgin7xynx757aveb&videoId=2690
不错
您的问题已在QQ群中和您沟通。
具体怎么上传测试集和txt文件呢?我只有学习的语音课件,没有txt .该怎么具体操作呢?我和需要语音转文字,我听力不好,听录音几乎没啥用!
是的,开放的可针对特殊场景的定制优化
专业定制