语音识别 自定义词库 的问题想请教下
vincent668880 发布于2018-04 浏览:2205 回复:1
0
收藏
我有个关于语音识别 自定义词库 的问题想请教下 我取的官方样例文件(pcm 16k 内容为北京科技馆) 在自定义词库中上传 的文件中定义为“
北京颗寄管
颗寄
颗寄管
卓子
油卖菜
宫宝鸡丁
华硕笔及本”
返回的识别结果依然为 “北京科技馆 ,“(有标点)
使用的代码为
php sdk:
$result2=$client2->asr(file_get_contents('saestor://gcmscloud/weixin/16k.pcm'), 'pcm', 16000, array(
'dev_pid' => '1536',
));
是我哪里写的有问题吗?
收藏
点赞
0
个赞
共1条回复 最后由用户已被禁言回复于2022-04
#2周俊316回复于2018-04

支持1536状态下的自定义词库,不含标点

 

自定义词库
自定义词库适合短句,保证词库中一模一样的短句可以被识别出,词库中的分词优先级较高。 自定义词库仅对搜索模型生效。最好在1万行以内。

副作用:如果用户的测试集中包含大量非自定义词表的query,整体上准确率下降。

举例:
词库定义了1个短句: 1 . 摆渡船来了 百度内部处理的可能的分词结果: 摆渡船 来 了

以下录音的结果

原始音频:摆渡船来了 =>识别结果: 摆渡船来了 【保证结果】
原始音频:摆渡船来了么 =>识别结果: 百度传来了么 【可能结果,不保证】
原始音频:摆渡船来 => 识别结果: 百度传来 【可能结果,不保证】
原始音频:百度传来了喜讯 => 识别结果: 摆渡船传来了喜讯 【不保证,词库内的分词优先级高】

 

 

您生效代码后,在测试下

0
TOP
切换版块