过百度语音识别引擎获取转换后的时间戳也就是类似字幕的效果目前只能通过LinuxC++SDK来实现:
以下教程为本人最近的操作步骤整理,仅作为参考。
1.安装VM,安装ubuntu14.0.6 64位
参考教程:https://blog.csdn.net/qq_36186690/article/details/82819080
ubuntu14.0.6 64位 下载地址:http://releases.ubuntu.com/trusty/ubuntu-14.04.6-desktop-amd64.iso
其他版本的系统不保证可以正常编译运行。
a.强烈建议迅雷下载,官网很慢,
b.请不要轻易结束VM进程,我尝试过直接导致虚拟机损毁
c.建议使用命令行关机shutdow -P now, 出现过关机时卡住强制结束进程直接导致虚拟机损毁
2.登陆ubuntu,安装g++
如果你没有操作过ubuntu,没有执行过命令行请看这里:https://jingyan.baidu.com/article/48206aea84b183216ad6b3ec.html
常用命令:https://www.jianshu.com/p/3a40cc6f20f5(请重点关注cd等等命令)
默认gcc已经安装了,官方的下载 源超慢,强烈建议先切换到阿里云的源地址,参考教程:https://blog.csdn.net/ezreal_king/article/details/72790291
安装g++4.8教程:
https://www.cnblogs.com/tntboom/p/4442679.html,可以不执行第一步(sudo add-apt-repository ppa:ubuntu-toolchain-r/test)
3.下载百度SDKdemo,
https://ai.baidu.com/sdk#asr, 下载Linux SDK
4.分别编译,注意顺序,请仔细阅读README.md
sample/asr 目录下main.cpp 直接展示如何使用SDK, 运行build.sh 执行
sample/asrDemo2, 对SDK做了进一步封装,简化调用。运行run/build.sh 执行。asrDemo2 同时也是Clion的项目,可以直接导入运行。
sample/asrDemo-srt, 在asrDemo2,一个完整的添加视频文件字幕的程序,请读sample/asrDemo-srt/Readme.md文件后,再进行测试。(请下载README.md中的视频,到对应video文件夹,或者手动转换出一个合法的pcm文件,然后重命名为fasheng01.pcm即可自动转换)
如果你没有在Ubuntu下编译过程序,建议先编译一个helloworld.c,参考教程:https://www.cnblogs.com/chenyucong/p/6095942.html
最终video文件夹下会出现转换pcm音频后的字幕fasheng01.srt
如下:
1
00:00:00,190 --> 00:00:02,450
activity two
2
00:00:02,700 --> 00:00:07,929
listen to the conversations and number the pictures one too far
3
00:00:08,589 --> 00:00:10,630
conversation one
4
00:00:11,600 --> 00:00:13,939
do you have a soccer ball pol
5
00:00:14,349 --> 00:00:16,120
no I don't
6
00:00:16,429 --> 00:00:20,870
我要吐槽:1.当前论坛板块的富文本编辑器不支持复制粘贴富文本,效率低,2.插入png图片偶发失败,3.站点登陆后过一段时间会失效,点击按钮会出现need login 提示信息,不友好,建议跳转新页面登陆。
我要点赞:百度语音QQ群运营的同事态度和工作技能都非常好,弥补了当前帮助文档和api接口的不足之处
点赞,感谢楼主分享!