音频内容为重复如 第一号、第一号、第一号... (间隔约1s)
自定义词库内容为:
第一号
第二号
第三号
采用python sdk,音频为16k wav,pid=1536
识别出来的结果并不准确,
如 第一好、第一d,等等,如何解决
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
自定义词库适合短句,保证词库中一模一样的短句可以被识别出,词库中的分词优先级较高。 自定义词库仅对dev_pid = 1536生效,并且原始音频的采用率为16K。
最好在1万行以内。
副作用:如果用户的测试集中包含大量非自定义词表的query,整体上准确率下降。
举例:
词库定义了1个短句: 1 . 摆渡船来了 百度内部处理的可能的分词结果: 摆渡船 来 了
以下录音的结果
原始音频:摆渡船来了 =>识别结果: 摆渡船来了 【保证结果】
原始音频:摆渡船来了么 =>识别结果: 百度传来了么 【可能结果,不保证】
原始音频:摆渡船来 => 识别结果: 百度传来 【可能结果,不保证】
原始音频:百度传来了喜讯 => 识别结果: 摆渡船传来了喜讯 【不保证,词库内的分词优先级高】