录音啦-采用百度语音+百度翻译

首页版块访问AI主站注册发帖

录音啦-采用百度语音+百度翻译

灬相随灬发布于2018-12 浏览:10925 回复:1

快速回复

我在2016年11月份这样的时候，写了一款“录音啦”语音转文字软件，到目前2年多了，也更新了55次以上，就是用户可以把自己的录音以及视频，放到软件里面，进行识别成文档，同时可以对识别的文字，二次翻译，支持视频以及常见录音格式，我在细节优化上，客户添加视频的话，可以识别双语字幕出来。那么，原理是什么呢？不说原理就感觉真的是在打广告啦！

一、客户录音不标准问题，首先客户的录音格式肯定是不标准的，有手机录音的M4A，录音笔的MP3,WAV，视频格式的话，有MP4,MOV，等等几十种格式，但是大家也知道，百度支持的采样率是16000，单声道的录音，那么如果你直接把用户录音POST上去，肯定不行的，一个是文件大于60S，还有就是这个文件不符合识别引擎的需求

二、音频文件转码：http://ai.baidu.com/docs#/ASR-Tool-convert/top

借助开源的平台“ffmpeg”，先把所有客户的录音，统一转换成，采样率16000，单声道的录音。然后利用“ffmpeg”分割每段录音长度不高于60S,提交到百度云，返回识别结果即可

三、翻译结果二次翻译

比如客户识别的是中文的录音，他想看到英文的结果，我们可以通过“百度翻译API”，把文字内容，post到百度翻译，从而获得结果，这里我给大家一个提示：需要翻译的内容，取“,”作为分隔符号，不然会导致翻译结果不连贯，所以一定要一句句进行翻译

http://api.fanyi.baidu.com/api/trans/product/index

四、深度开发语音识别功能

什么叫深度开发呢？首先我们正常识别，都是一段一段去识别的，对于正确率是有影响的，我这边，采用了波形分段技术，把整段录音中，开始说话和结束部分，分割成一段，单独识别反馈结果，这样，客户就可以很好的指定，哪分钟，这个人说了什么话，可以进行了关键字搜索，那么，再深入呢？如果客户导入的是视频，那么就可以直接识别成字幕了，不需要用户自己手打字幕了。利用百度的翻译技术，软件还实现了双语字幕的导出。

上面图片，可以明显的看出来分段精准到毫秒级了，然后提交该段录音，可以获得不错的识别效果

五、成功总结

百度开放了那么多好的技术，语音识别，翻译，等等，而且目前都是免费给大家用，其实可以好好的去结合多家集团的优势，资源整合一下，就可以形成一款很不错的商业软件，目前我这边客户量已经达到20万用户，百度的技术还是可以的，清晰的录音识别准确率蛮高的！~

文档

其他

个赞

共1条回复最后由用户已被禁言回复于2022-04

#2goJhou回复于2019-01

不错喔，期待你更多的小作品

快速回复

小编推荐

小帅丶干货之图像识别在微信小程序展示

用户已被禁言 62回复

用php开发的在线OCR文字识别工具

交换机高手 15回复

C# SDK-CLI快速部署框架

goJhou 33回复

个人学习总结瞎扯蛋类博客成功建站完成

goJhou 47回复

[人脸检测] 基于C# WPF的开发尝试

goJhou 24回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服