音频文件: https://mindflow-files.workbene.com/RackMultipart20180103-19214-wqln90.wav
是由小程序录音为 mp3 通过如下命令转为 wav 的:
ffmpeg -y -i audio.mp3 -acodec pcm_u8 -ar 16000 audio.wav
转成功后通过 ruby 调用识别接口,参数如下:
{
format: 'wav',
rate: 16000,
channel: 1,
lan: :zh,
cuid: 'someone',
token: 'token',
speech: Base64.strict_encode64(file_content),
len: file_content.length
}
得到返回结果为:
{ "err_msg": json param speech error.","err_no": 3300 }
但同样的小程序生成的 mp3 按照相同流程,偶尔可以识别成功,且 5 秒内的识别结果大都准确,20 秒以上的,只能识别不到 10 秒的内容,并且存在识别错误。 请协助解决。非常感谢。
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
请问解决了吗?
请提供一下识别错误的长语音的音频文件
看你一个问了3个独立的问题
0. 先测试5 秒内的音频,比如官方提供的音频文件,跑通api。
1. { "err_msg": json param speech error.","err_no": 3300 } ,确认len和speech是否一致。
2. 20 秒以上的,只能识别不到 10 秒的内容,请给出原始音频,测试结果及期望结果
3 . 大都准确,请给出不准确的。要求同上
最后 pcm_u8这个参数不知道哪里来的,具体看下我们的rest api文档
正在帮你召唤大神~ 请稍等
长语音识别成功但内容错误举例:
语音内容:“今天天气不错,挺风和日丽的,我们下午没有课,这的确挺爽的。。”
识别结果:“嗯,不” 或者 “哦哦哦哦哦哦哦”
短语音识别成功内容也正确:
语音内容:“这是一个测试”
识别结果:“这是一个测试。”
另外,我看到有帖子回复说可以联系邮箱 voice_feedback@baidu.com,发了邮件大约一天没有回复,希望能提到回复效率。