java & H5 语音技术实例

首页版块访问AI主站注册发帖

java & H5 语音技术实例

精

荒墨丶迷失发布于2018-01 浏览:43359 回复:100

java & H5 语音技术实例

快速回复

最后编辑于2023-10

各位小伙伴们 2018 又和大家见面了！

新的一年还需要继续努力，突破创新......

今天,给大家带来的是 Global-AI1.0 语音技术的内容，什么是Global-AI1.0呢？

Global-AI1.0 是基于百度的AI接口，通过我这边测试和开发，实现了H5的各个技术的应用示例集合项目。

预计会包括语音技术，人脸识别，UNIT，自然语言，以及图像处理的AI应用，有这一些技术实践的小伙伴也可以一起分享。

好啦，说说今天分享的【语音技术】，主要接入语音识别和语音合成，在之前的帖子中分别简单的介绍这些实现的原理和Demo源码，可以翻一翻之前的帖子！

当然还是收到许多小伙伴的吐槽，毕竟开源有风险的，哈哈 ~

当然今天分享的内容，会在之前的例子上有所改善和突破，总体如下：

1.H5录音通过音频流文件上传到后台后，不再是保存为wav格式的音频，而是处理流的形式转为二进制数组，直接调用百度语音识别SDK方法，返回识别结果。

2.前端录音操作，不再是手动的点击结束录音然后上传，而是通过音量控制判断是否需要结束，优化了操作体验。

3.语音合成，返回的音频二进制数组，不再是先保存为MP3格式音频，然后前台用audio播放MP3路径，而是将二进制数据传到前台先转base64然后转化为Blob对象，合成一个Blob音频路径，然后audio直接播放这个Blob音频路径即可

总结：就是增加不说话主动停止录音，语音识别和语音合成播放都通过流转化操作，不再保存任何格式文件形式。

当然了，具体还是根据大家反应的建议，努力提供最好的开源，下面看看这个语音交互页面吧！

下面先简单的讲解上面三条内容的实现方式吧~

1.H5录音通过音频流文件上传到后台后，不再是保存为wav格式的音频，而是处理流的形式转为二进制数组，直接调用百度语音识别SDK方法，返回识别结果。springMVC 用 MultipartFile 来接收前台上传的音频文件

//音频文件 转化为 byte[]
InputStream content = audioData.getInputStream();
ByteArrayOutputStream swapStream = new ByteArrayOutputStream();
byte[] buff = new byte[100];
int rc = 0;
while ((rc = content.read(buff, 0, 100)) > 0) {
	swapStream.write(buff, 0, rc);
}
// 获得二进制数组
byte[] byte1 = swapStream.toByteArray();
String Rtext = vsc.getVoiceBySdk(byte1);
System.out.println("语音识别内容:"+Rtext);
modelMap.put("Rtext", Rtext);

通过上述代码即可将音频文件转化Byte数组的形式调用语音识别。

2.前端录音操作，不再是手动的点击结束录音然后上传，而是通过音量控制判断是否需要结束，优化了操作体验。

// 音频采集
		recorder.onaudioprocess = function(e) {
			var data= e.inputBuffer.getChannelData(0);
			var l = Math.floor(data.length / 10);
	        var vol = 0;
	        for(var i = 0; i < l ; i++){
	            vol += Math.abs(data[i*10]);
	        }
	        emptyCheckCount ++;
	        console.log(vol);
	        if(vol < 30){ //设置音量  数值越大越容易停
	            emptydatacount ++;
	            console.log(emptydatacount);
	            if(emptydatacount > 30){  //设置静音停止次数
	            	console.log('stoped');
	            	self.recordStop();
	            }
	        } else {
	            emptydatacount = 0;
	        }
			audioData.input(e.inputBuffer.getChannelData(0));
		};

音频采集的过程中（录音过程），判断输入音量的大小是否小于设置的值，小于的话就停止录音。

//根据base64音频数据 转化为 blob对象
	function getBlob(base64Data){
		var dataURI = "data:audio/wav;base64,"+base64Data; //base64 字符串
	    var mimeString =  dataURI.split(',')[0].split(':')[1].split(';')[0]; // mime类型
	    var byteString = atob(dataURI.split(',')[1]); //base64 解码
	    var arrayBuffer = new ArrayBuffer(byteString.length); //创建缓冲数组
	    var intArray = new Uint8Array(arrayBuffer); //创建视图
	    for (i = 0; i < byteString.length; i += 1) {
	         intArray[i] = byteString.charCodeAt(i);
	    }
	    return new Blob([intArray], { type:  "audio/wav" }); //转成blob
	}

根据后台获取base64音频数据调用上诉的方法转化为 blob对象，再用window.URL.createObjectURL设置audio的src然后播放~

关于如何项目部署，大家可以在本贴下方的源码地址，下载Global-AI1.0 进行测试。

如果在测试过程中有任何问题，欢迎下方留言！

git下载地址：https://gitee.com/liyingming/Global_AI_1.0

语音合成

语音识别

文档

个赞

共100条回复最后由192******42回复于2023-10

#21a13531732231回复于2018-01

很实用，谢谢楼主！

#20荒墨丶迷失回复于2018-01

对#19 2841820156hehe回复

博主你好，很强大但是部署起来之后，点击录音后保存，后台一直报3301的错误。 {"err_msg":"speech quality error.","sn":"230799438281515834061","err_no":3301} 语音识别内容: [B@3d892152 没有识别到任何东西，请问博主是怎么解决的？

展开

你好这个问题可能是你的麦克风问题。可以一步一步排除。首先确定麦克风可以录音。然后把录音之后的音频通过流保存音频文件然后听一下有没有声音。具体可加qq一起探讨

#192841820156hehe回复于2018-01

博主你好，很强大但是部署起来之后，点击录音后保存，后台一直报3301的错误。

{"err_msg":"speech quality error.","sn":"230799438281515834061","err_no":3301}
语音识别内容:
[B@3d892152

没有识别到任何东西，请问博主是怎么解决的？

#18荒墨丶迷失回复于2018-01

对#17 卡农LLLL回复

http://ai.baidu.com/forum/topic/show/497491 快去给我点赞.我厚颜无耻的先点了一个.

展开

OKOK 已经过去支持了嘿嘿~

#17卡农LLLL回复于2018-01

http://ai.baidu.com/forum/topic/show/497491

快去给我点赞.我厚颜无耻的先点了一个.

#16荒墨丶迷失回复于2018-01

对#14 卡农LLLL回复

准备发个cordova的插件..年底很忙.没搞其他东西呢.

这是一个怎么样的插件呢期待~

#15goJhou回复于2018-01

对#14 卡农LLLL回复

准备发个cordova的插件..年底很忙.没搞其他东西呢.

可以的，插件开发者卡农

#14卡农LLLL回复于2018-01

对#13 荒墨丶迷失回复

期待期待~ 提前透露一下发的关于什么呢

准备发个cordova的插件..年底很忙.没搞其他东西呢.

#13荒墨丶迷失回复于2018-01

对#11 卡农LLLL回复

很快就发一个..

期待期待~ 提前透露一下发的关于什么呢

#12荒墨丶迷失回复于2018-01

对#10 卡农LLLL回复

你们学坏了啊....

都是跟go大神学的哇塞大神3600的积分了

#11卡农LLLL回复于2018-01

很快就发一个..

#10卡农LLLL回复于2018-01

你们学坏了啊....

#9荒墨丶迷失回复于2018-01

对#8 goJhou回复

第一炮，啊不第一贴哈哈哈哈 @卡农LLLL

干啥学我呢哈哈

#8goJhou回复于2018-01

对#7 荒墨丶迷失回复

卡农兄你的2018第一炮哦不第一贴什么时候出来哇~

第一炮，啊不第一贴哈哈哈哈 @卡农LLLL

#7荒墨丶迷失回复于2018-01

对#6 卡农LLLL回复

感谢大神的技术分享才是真的.

卡农兄你的2018第一炮哦不第一贴什么时候出来哇~

#6卡农LLLL回复于2018-01

对#5 荒墨丶迷失回复

哈哈。感谢卡农的真爱。么么哒～

感谢大神的技术分享才是真的.

#5荒墨丶迷失回复于2018-01

对#4 卡农LLLL回复

gitee点星才是真爱.哈哈

哈哈。感谢卡农的真爱。么么哒～

#4卡农LLLL回复于2018-01

gitee点星才是真爱.哈哈

#3荒墨丶迷失回复于2018-01

呕心沥血之作嘿嘿

#2goJhou回复于2018-01

强势沙发霸占现场

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服