语音识别重复内容，且自定义词库，不准确

首页版块访问AI主站注册发帖

语音识别重复内容，且自定义词库，不准确

☆蠟筆尐俽★ 发布于2018-09 浏览:1671 回复:1

语音识别重复内容，且自定义词库，不准确

快速回复

音频内容为重复如第一号、第一号、第一号... （间隔约1s）

自定义词库内容为：

第一号

第二号

第三号

采用python sdk，音频为16k wav，pid=1536

识别出来的结果并不准确，

如第一好、第一d，等等，如何解决

识别-REST_API

个赞

共1条回复最后由用户已被禁言回复于2022-04

#2fujiayi1984回复于2018-09

自定义词库适合短句，保证词库中一模一样的短句可以被识别出，词库中的分词优先级较高。自定义词库仅对dev_pid = 1536生效，并且原始音频的采用率为16K。

最好在1万行以内。

副作用：如果用户的测试集中包含大量非自定义词表的query，整体上准确率下降。

举例：
词库定义了1个短句： 1 . 摆渡船来了百度内部处理的可能的分词结果：摆渡船来了

以下录音的结果

原始音频：摆渡船来了 =>识别结果：摆渡船来了【保证结果】
原始音频：摆渡船来了么 =>识别结果：百度传来了么【可能结果，不保证】
原始音频：摆渡船来 => 识别结果：百度传来【可能结果，不保证】
原始音频：百度传来了喜讯 => 识别结果：摆渡船传来了喜讯【不保证，词库内的分词优先级高】

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服