java & H5 语音技术实例

首页版块访问AI主站注册发帖

java & H5 语音技术实例

精

荒墨丶迷失发布于2018-01 浏览:40586 回复:100

java & H5 语音技术实例

快速回复

最后编辑于2023-10

各位小伙伴们 2018 又和大家见面了！

新的一年还需要继续努力，突破创新......

今天,给大家带来的是 Global-AI1.0 语音技术的内容，什么是Global-AI1.0呢？

Global-AI1.0 是基于百度的AI接口，通过我这边测试和开发，实现了H5的各个技术的应用示例集合项目。

预计会包括语音技术，人脸识别，UNIT，自然语言，以及图像处理的AI应用，有这一些技术实践的小伙伴也可以一起分享。

好啦，说说今天分享的【语音技术】，主要接入语音识别和语音合成，在之前的帖子中分别简单的介绍这些实现的原理和Demo源码，可以翻一翻之前的帖子！

当然还是收到许多小伙伴的吐槽，毕竟开源有风险的，哈哈 ~

当然今天分享的内容，会在之前的例子上有所改善和突破，总体如下：

1.H5录音通过音频流文件上传到后台后，不再是保存为wav格式的音频，而是处理流的形式转为二进制数组，直接调用百度语音识别SDK方法，返回识别结果。

2.前端录音操作，不再是手动的点击结束录音然后上传，而是通过音量控制判断是否需要结束，优化了操作体验。

3.语音合成，返回的音频二进制数组，不再是先保存为MP3格式音频，然后前台用audio播放MP3路径，而是将二进制数据传到前台先转base64然后转化为Blob对象，合成一个Blob音频路径，然后audio直接播放这个Blob音频路径即可

总结：就是增加不说话主动停止录音，语音识别和语音合成播放都通过流转化操作，不再保存任何格式文件形式。

当然了，具体还是根据大家反应的建议，努力提供最好的开源，下面看看这个语音交互页面吧！

下面先简单的讲解上面三条内容的实现方式吧~

1.H5录音通过音频流文件上传到后台后，不再是保存为wav格式的音频，而是处理流的形式转为二进制数组，直接调用百度语音识别SDK方法，返回识别结果。springMVC 用 MultipartFile 来接收前台上传的音频文件

//音频文件 转化为 byte[]
InputStream content = audioData.getInputStream();
ByteArrayOutputStream swapStream = new ByteArrayOutputStream();
byte[] buff = new byte[100];
int rc = 0;
while ((rc = content.read(buff, 0, 100)) > 0) {
	swapStream.write(buff, 0, rc);
}
// 获得二进制数组
byte[] byte1 = swapStream.toByteArray();
String Rtext = vsc.getVoiceBySdk(byte1);
System.out.println("语音识别内容:"+Rtext);
modelMap.put("Rtext", Rtext);

通过上述代码即可将音频文件转化Byte数组的形式调用语音识别。

2.前端录音操作，不再是手动的点击结束录音然后上传，而是通过音量控制判断是否需要结束，优化了操作体验。

// 音频采集
		recorder.onaudioprocess = function(e) {
			var data= e.inputBuffer.getChannelData(0);
			var l = Math.floor(data.length / 10);
	        var vol = 0;
	        for(var i = 0; i < l ; i++){
	            vol += Math.abs(data[i*10]);
	        }
	        emptyCheckCount ++;
	        console.log(vol);
	        if(vol < 30){ //设置音量  数值越大越容易停
	            emptydatacount ++;
	            console.log(emptydatacount);
	            if(emptydatacount > 30){  //设置静音停止次数
	            	console.log('stoped');
	            	self.recordStop();
	            }
	        } else {
	            emptydatacount = 0;
	        }
			audioData.input(e.inputBuffer.getChannelData(0));
		};

音频采集的过程中（录音过程），判断输入音量的大小是否小于设置的值，小于的话就停止录音。

//根据base64音频数据 转化为 blob对象
	function getBlob(base64Data){
		var dataURI = "data:audio/wav;base64,"+base64Data; //base64 字符串
	    var mimeString =  dataURI.split(',')[0].split(':')[1].split(';')[0]; // mime类型
	    var byteString = atob(dataURI.split(',')[1]); //base64 解码
	    var arrayBuffer = new ArrayBuffer(byteString.length); //创建缓冲数组
	    var intArray = new Uint8Array(arrayBuffer); //创建视图
	    for (i = 0; i < byteString.length; i += 1) {
	         intArray[i] = byteString.charCodeAt(i);
	    }
	    return new Blob([intArray], { type:  "audio/wav" }); //转成blob
	}

根据后台获取base64音频数据调用上诉的方法转化为 blob对象，再用window.URL.createObjectURL设置audio的src然后播放~

关于如何项目部署，大家可以在本贴下方的源码地址，下载Global-AI1.0 进行测试。

如果在测试过程中有任何问题，欢迎下方留言！

git下载地址：https://gitee.com/liyingming/Global_AI_1.0

语音合成

语音识别

文档

个赞

共100条回复最后由192******42回复于2023-10

#89荒墨丶迷失回复于2018-12

对#88 goJhou回复

不止是谷歌，麦克风&摄像头的流，必须要通过ssl协议才能向上层传递

我最近想到了一个改进方式就是用Java客户端来录音到时候试试效果...

#88goJhou回复于2018-11

对#86 荒墨丶迷失回复

不好意思现在才看到你的消息，这个问题在于谷歌浏览器的限制需要https的访问，你把端口映射到https上启动就可以跨服务器访问语音了，这个在下面的留言里面也有回复的

展开

不止是谷歌，麦克风&摄像头的流，必须要通过ssl协议才能向上层传递

#86荒墨丶迷失回复于2018-11

对#85 小神永远不刀回复

楼主，我在测试的时候遇到一个问题。直接用本地测试是没问题，但是我用内网网穿透通过域名映射出去，就会出现用户拒绝提供信息或者没有找到麦克风 18等错误信息。

展开

#85小神永远不刀回复于2018-11

#84小神永远不刀回复于2018-11

楼主能留下QQ或微信吗能请教一点问题吗

#83小神永远不刀回复于2018-11

楼主为什么我老是提示用户拒绝提供信息

#82荒墨丶迷失回复于2018-11

对#80 btr930730回复

实例还是很基础版滴

嗯是的呢从基础开始实现

#81荒墨丶迷失回复于2018-11

对#78 杨家小子8888回复

大神，为啥按照这上面得来，如果是英语得话就识别不了，最后返回得还是汉字？

展开

你在调用百度的接口的时候需要传参数进去这个时候你可以选择识别的语言

#80btr930730回复于2018-11

实例还是很基础版滴

#79goJhou回复于2018-10

对#78 杨家小子8888回复

大神，为啥按照这上面得来，如果是英语得话就识别不了，最后返回得还是汉字？

展开

语音识别需要选择语言。目前不支持混合，只支持常用词。你要全英语的自己手动把语言切成英语

#78杨家小子8888回复于2018-10

大神，为啥按照这上面得来，如果是英语得话就识别不了，最后返回得还是汉字？

#77杨家小子8888回复于2018-10

对#72 迟到大王da回复

为什么我的识别正确了怎么还是不明白

他得后台写得是equals 你把这个给改了就好

#75迟到大王da回复于2018-08

#74迟到大王da回复于2018-08

#73迟到大王da回复于2018-08

为什么我的识别正确了怎么还是不明白

#72迟到大王da回复于2018-08

为什么我的识别正确了怎么还是不明白

#71迟到大王da回复于2018-08

为什么我的识别正确了怎么还是不明白

#70迟到大王da回复于2018-08

为什么我的识别正确了怎么还是不明白

#69迟到大王da回复于2018-08

为什么我的识别正确了怎么还是不明白

#68荒墨丶迷失回复于2018-05

大家可以关注我的gitee 近期有时间会更新相关的示例谢谢~

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服