我在2016年11月份这样的时候,写了一款“录音啦”语音转文字软件,到目前2年多了,也更新了55次以上,就是用户可以把自己的录音以及视频,放到软件里面,进行识别成文档,同时可以对识别的文字,二次翻译,支持视频以及常见录音格式,我在细节优化上,客户添加视频的话,可以识别双语字幕出来。那么,原理是什么呢?不说原理就感觉真的是在打广告啦!
一、客户录音不标准问题,首先客户的录音格式肯定是不标准的,有手机录音的M4A,录音笔的MP3,WAV,视频格式的话,有MP4,MOV,等等几十种格式,但是大家也知道,百度支持的采样率是16000,单声道的录音,那么如果你直接把用户录音POST上去,肯定不行的,一个是文件大于60S,还有就是这个文件不符合识别引擎的需求
二、音频文件转码:http://ai.baidu.com/docs#/ASR-Tool-convert/top
借助开源的平台“ffmpeg”,先把所有客户的录音,统一转换成,采样率16000,单声道的录音。然后利用“ffmpeg”分割每段录音长度不高于60S,提交到百度云,返回识别结果即可
三、翻译结果二次翻译
比如客户识别的是中文的录音,他想看到英文的结果,我们可以通过“百度翻译API”,把文字内容,post到百度翻译,从而获得结果,这里我给大家一个提示:需要翻译的内容,取“,”作为分隔符号,不然会导致翻译结果不连贯,所以一定要一句句进行翻译
http://api.fanyi.baidu.com/api/trans/product/index
四、深度开发语音识别功能
什么叫深度开发呢?首先我们正常识别,都是一段一段去识别的,对于正确率是有影响的,我这边,采用了波形分段技术,把整段录音中,开始说话和结束部分,分割成一段,单独识别反馈结果,这样,客户就可以很好的指定,哪分钟,这个人说了什么话,可以进行了关键字搜索,那么,再深入呢?如果客户导入的是视频,那么就可以直接识别成字幕了,不需要用户自己手打字幕了。利用百度的翻译技术,软件还实现了双语字幕的导出。
上面图片,可以明显的看出来分段精准到毫秒级了,然后提交该段录音,可以获得不错的识别效果
五、成功总结
百度开放了那么多好的技术,语音识别,翻译,等等,而且目前都是免费给大家用,其实可以好好的去结合多家集团的优势,资源整合一下,就可以形成一款很不错的商业软件,目前我这边客户量已经达到20万用户,百度的技术还是可以的,清晰的录音识别准确率蛮高的!~
不错喔,期待你更多的小作品