一、背景:
为什么要用短语音接口来解析长语音文件呢?因为短语音接口很便宜,甚至免费,但是长语音文件解析就比较贵。
二、技术方案简介:
先将长语音文件进行拆分,单纯的按60秒进行拆分是不合适的,为什么呢?
因为有可能那个时间点是用户说的一个单词的中间,那样的话可能会导致识别有误差;而且也可能是一段文字的中间位置,那样会导致分段及语义解析有误差。
合理的拆分方式,是在有1秒以上停顿的位置进行拆分,而且,对于2秒以上停顿的位置,增加换行符,这样就可以实现自动分段功能。
然后对每一段采用百度的短语音识别接口进行识别。
而且可以并发识别。
三、具体实现的步骤:
a) 在百度云开通“短语音识”;
b) 在服务器安装语音识别 PHP SDK
c) 修改php代码:
这些值在创建应用后获取
// 你的 APPID AK SK
const APP_ID = '你的 App ID';
const API_KEY = '你的 Api Key';
const SECRET_KEY = '你的 Secret Key';
d) 按停顿拆分语音文件;
e) 将语音文件并发发送给服务器php,php将结果文本返回;
f) 按位置拼接字符串,对于停顿2秒以上的拆分位置,增加换行符。
四、实现的效果:
略
五、总结:使用了哪些工具,调用哪些接口
调用了接口“短语音识别”。
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块