语音识别自定义词库的问题想请教下

首页版块访问AI主站注册发帖

语音识别自定义词库的问题想请教下

vincent668880 发布于2018-04 浏览:2334 回复:1

快速回复

我有个关于语音识别自定义词库的问题想请教下我取的官方样例文件(pcm 16k 内容为北京科技馆) 在自定义词库中上传的文件中定义为“
北京颗寄管
颗寄
颗寄管
卓子
油卖菜
宫宝鸡丁
华硕笔及本”
返回的识别结果依然为 “北京科技馆，“（有标点）
使用的代码为
php sdk:
$result2=$client2->asr(file_get_contents('saestor://gcmscloud/weixin/16k.pcm'), 'pcm', 16000, array(
'dev_pid' => '1536',
));

是我哪里写的有问题吗？

语音识别

个赞

共1条回复最后由用户已被禁言回复于2022-04

#2周俊316回复于2018-04

支持1536状态下的自定义词库，不含标点

自定义词库
自定义词库适合短句，保证词库中一模一样的短句可以被识别出，词库中的分词优先级较高。自定义词库仅对搜索模型生效。最好在1万行以内。

副作用：如果用户的测试集中包含大量非自定义词表的query，整体上准确率下降。

举例：
词库定义了1个短句： 1 . 摆渡船来了百度内部处理的可能的分词结果：摆渡船来了

以下录音的结果

原始音频：摆渡船来了 =>识别结果：摆渡船来了【保证结果】
原始音频：摆渡船来了么 =>识别结果：百度传来了么【可能结果，不保证】
原始音频：摆渡船来 => 识别结果：百度传来【可能结果，不保证】
原始音频：百度传来了喜讯 => 识别结果：摆渡船传来了喜讯【不保证，词库内的分词优先级高】

您生效代码后，在测试下

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服