语音识别 自定义词库 的问题想请教下
Ta的回复 :支持1536状态下的自定义词库,不含标点 自定义词库 自定义词库适合短句,保证词库中一模一样的短句可以被识别出,词库中的分词优先级较高。 自定义词库仅对搜索模型生效。最好在1万行以内。 副作用:如果用户的测试集中包含大量非自定义词表的query,整体上准确率下降。 举例: 词库定义了1个短句: 1 . 摆渡船来了 百度内部处理的可能的分词结果: 摆渡船 来 了 以下录音的结果 原始音频:摆渡船来了 =>识别结果: 摆渡船来了 【保证结果】 原始音频:摆渡船来了么 =>识别结果: 百度传来了么 【可能结果,不保证】 原始音频:摆渡船来 => 识别结果: 百度传来 【可能结果,不保证】 原始音频:百度传来了喜讯 => 识别结果: 摆渡船传来了喜讯 【不保证,词库内的分词优先级高】 您生效代码后,在测试下