语音识别重复内容,且自定义词库,不准确
Ta的回复 :自定义词库适合短句,保证词库中一模一样的短句可以被识别出,词库中的分词优先级较高。 自定义词库仅对dev_pid = 1536生效,并且原始音频的采用率为16K。 最好在1万行以内。 副作用:如果用户的测试集中包含大量非自定义词表的query,整体上准确率下降。 举例: 词库定义了1个短句: 1 . 摆渡船来了 百度内部处理的可能的分词结果: 摆渡船 来 了 以下录音的结果 原始音频:摆渡船来了 =>识别结果: 摆渡船来了 【保证结果】 原始音频:摆渡船来了么 =>识别结果: 百度传来了么 【可能结果,不保证】 原始音频:摆渡船来 => 识别结果: 百度传来 【可能结果,不保证】 原始音频:百度传来了喜讯 => 识别结果: 摆渡船传来了喜讯 【不保证,词库内的分词优先级高】