java & H5 语音技术实例

首页版块访问AI主站注册发帖

java & H5 语音技术实例

精

荒墨丶迷失发布于2018-01 浏览:43707 回复:100

java & H5 语音技术实例

快速回复

最后编辑于2023-10

各位小伙伴们 2018 又和大家见面了！

新的一年还需要继续努力，突破创新......

今天,给大家带来的是 Global-AI1.0 语音技术的内容，什么是Global-AI1.0呢？

Global-AI1.0 是基于百度的AI接口，通过我这边测试和开发，实现了H5的各个技术的应用示例集合项目。

预计会包括语音技术，人脸识别，UNIT，自然语言，以及图像处理的AI应用，有这一些技术实践的小伙伴也可以一起分享。

好啦，说说今天分享的【语音技术】，主要接入语音识别和语音合成，在之前的帖子中分别简单的介绍这些实现的原理和Demo源码，可以翻一翻之前的帖子！

当然还是收到许多小伙伴的吐槽，毕竟开源有风险的，哈哈 ~

当然今天分享的内容，会在之前的例子上有所改善和突破，总体如下：

1.H5录音通过音频流文件上传到后台后，不再是保存为wav格式的音频，而是处理流的形式转为二进制数组，直接调用百度语音识别SDK方法，返回识别结果。

2.前端录音操作，不再是手动的点击结束录音然后上传，而是通过音量控制判断是否需要结束，优化了操作体验。

3.语音合成，返回的音频二进制数组，不再是先保存为MP3格式音频，然后前台用audio播放MP3路径，而是将二进制数据传到前台先转base64然后转化为Blob对象，合成一个Blob音频路径，然后audio直接播放这个Blob音频路径即可

总结：就是增加不说话主动停止录音，语音识别和语音合成播放都通过流转化操作，不再保存任何格式文件形式。

当然了，具体还是根据大家反应的建议，努力提供最好的开源，下面看看这个语音交互页面吧！

下面先简单的讲解上面三条内容的实现方式吧~

1.H5录音通过音频流文件上传到后台后，不再是保存为wav格式的音频，而是处理流的形式转为二进制数组，直接调用百度语音识别SDK方法，返回识别结果。springMVC 用 MultipartFile 来接收前台上传的音频文件

//音频文件 转化为 byte[]
InputStream content = audioData.getInputStream();
ByteArrayOutputStream swapStream = new ByteArrayOutputStream();
byte[] buff = new byte[100];
int rc = 0;
while ((rc = content.read(buff, 0, 100)) > 0) {
	swapStream.write(buff, 0, rc);
}
// 获得二进制数组
byte[] byte1 = swapStream.toByteArray();
String Rtext = vsc.getVoiceBySdk(byte1);
System.out.println("语音识别内容:"+Rtext);
modelMap.put("Rtext", Rtext);

通过上述代码即可将音频文件转化Byte数组的形式调用语音识别。

2.前端录音操作，不再是手动的点击结束录音然后上传，而是通过音量控制判断是否需要结束，优化了操作体验。

// 音频采集
		recorder.onaudioprocess = function(e) {
			var data= e.inputBuffer.getChannelData(0);
			var l = Math.floor(data.length / 10);
	        var vol = 0;
	        for(var i = 0; i < l ; i++){
	            vol += Math.abs(data[i*10]);
	        }
	        emptyCheckCount ++;
	        console.log(vol);
	        if(vol < 30){ //设置音量  数值越大越容易停
	            emptydatacount ++;
	            console.log(emptydatacount);
	            if(emptydatacount > 30){  //设置静音停止次数
	            	console.log('stoped');
	            	self.recordStop();
	            }
	        } else {
	            emptydatacount = 0;
	        }
			audioData.input(e.inputBuffer.getChannelData(0));
		};

音频采集的过程中（录音过程），判断输入音量的大小是否小于设置的值，小于的话就停止录音。

//根据base64音频数据 转化为 blob对象
	function getBlob(base64Data){
		var dataURI = "data:audio/wav;base64,"+base64Data; //base64 字符串
	    var mimeString =  dataURI.split(',')[0].split(':')[1].split(';')[0]; // mime类型
	    var byteString = atob(dataURI.split(',')[1]); //base64 解码
	    var arrayBuffer = new ArrayBuffer(byteString.length); //创建缓冲数组
	    var intArray = new Uint8Array(arrayBuffer); //创建视图
	    for (i = 0; i < byteString.length; i += 1) {
	         intArray[i] = byteString.charCodeAt(i);
	    }
	    return new Blob([intArray], { type:  "audio/wav" }); //转成blob
	}

根据后台获取base64音频数据调用上诉的方法转化为 blob对象，再用window.URL.createObjectURL设置audio的src然后播放~

关于如何项目部署，大家可以在本贴下方的源码地址，下载Global-AI1.0 进行测试。

如果在测试过程中有任何问题，欢迎下方留言！

git下载地址：https://gitee.com/liyingming/Global_AI_1.0

语音合成

语音识别

文档

个赞

共100条回复最后由192******42回复于2023-10

#132192******42回复于2023-10

#108goJhou回复于2019-07

对#107 荒墨丶迷失回复

现在已经跌出前4名了哈哈

哈哈哈，你看不到第6名，指不定就比你差1分

#107荒墨丶迷失回复于2019-07

对#106 goJhou回复

那是，可是在积分榜首呢

现在已经跌出前4名了哈哈

#106goJhou回复于2019-07

对#105 驴宝宝来了回复

楼主好棒

那是，可是在积分榜首呢

#105驴宝宝来了回复于2019-07

楼主好棒

#104青林939回复于2019-06

楼主能留个qq嘛，很急

#103goJhou回复于2019-03

对#102 荒墨丶迷失回复

不客气后续还有更多的最新分享

期待荒墨的后续分享~

#102荒墨丶迷失回复于2019-03

对#101 堕落的诸侯回复

感谢楼主的帖子，我刚接触语音识别这方面，对我很有帮助，感谢

不客气后续还有更多的最新分享

#101堕落的诸侯回复于2019-03

感谢楼主的帖子，我刚接触语音识别这方面，对我很有帮助，感谢

#100荒墨丶迷失回复于2018-12

对#98 外星生物狮子回复

设置per参数之后在输入链接下载下来之后用播放器播放还是男声朗读在百度语音文档查的per是设置男音女音的参数,但是确实不好用

展开

确实没遇到过你这种情况提交bug问问或者直接代码测试试试

#99goJhou回复于2018-12

对#98 外星生物狮子回复

设置per参数之后在输入链接下载下来之后用播放器播放还是男声朗读在百度语音文档查的per是设置男音女音的参数,但是确实不好用

展开

可能是会是bug。实在测不出右上角工单看看官方怎么说

#98外星生物狮子回复于2018-12

对#96 goJhou回复

body里应该是需要缓存的pcm流吧？一半语音合成我都放在后台做，没在js里试过

展开

设置per参数之后在输入链接下载下来之后用播放器播放还是男声朗读在百度语音文档查的per是设置男音女音的参数,但是确实不好用

#97外星生物狮子回复于2018-12

对#95 荒墨丶迷失回复

body里面乱码的应该是你用URL post传参数的时候没有传UTF-8这个编码格式嘛

展开

post传参已经设置utf-8了

#96goJhou回复于2018-12

对#94 外星生物狮子回复

用postman 测试了 tests 的status状态是 200OK 但是body里面全都乱码不知道什么原因,可能是音频链接就这样

展开

body里应该是需要缓存的pcm流吧？一半语音合成我都放在后台做，没在js里试过

#95荒墨丶迷失回复于2018-12

对#94 外星生物狮子回复

用postman 测试了 tests 的status状态是 200OK 但是body里面全都乱码不知道什么原因,可能是音频链接就这样

展开

body里面乱码的应该是你用URL post传参数的时候没有传UTF-8这个编码格式嘛

#94外星生物狮子回复于2018-12

对#91 goJhou回复

先用postman试一下。

用postman 测试了 tests 的status状态是 200OK 但是body里面全都乱码不知道什么原因,可能是音频链接就这样

#93外星生物狮子回复于2018-12

对#92 荒墨丶迷失回复

看上去这个请求没问题呢你这个URL可以用postman测试也是这样嘛

展开

直接在网上下载下来之后也是男声,语速参数和中英参数都是好用的只有发音没有作用

#92荒墨丶迷失回复于2018-12

对#90 外星生物狮子回复

您好我有问题想请教您一下如果方便的话帮忙看一下好吗我在前端js 写了一个语音的 url '<source id="tts_source_id" src="http://tts.baidu.com/text2audio?lan=zh&ie=UTF-8&per=1&spd=4&text=123456" type="audio/mpeg">'; 参数per 不管是1 2 3 4 都是男声发音 ,能否帮忙解答一下 ,万分感谢

展开

看上去这个请求没问题呢你这个URL可以用postman测试也是这样嘛

#91goJhou回复于2018-12

对#90 外星生物狮子回复

展开

先用postman试一下。

#90外星生物狮子回复于2018-12

您好我有问题想请教您一下如果方便的话帮忙看一下好吗

我在前端js 写了一个语音的 url ''; 参数per 不管是1 2 3 4 都是男声发音 ,能否帮忙解答一下 ,万分感谢

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服