【语音识别-常见问答】汇总帖

首页版块访问AI主站注册发帖

【语音识别-常见问答】汇总帖

官

周俊316 发布于2017-11 浏览:50415 回复:115

【语音识别-常见问答】汇总帖

快速回复

最后编辑于2023-05

语音识别
Q：语音合成、语音识别接口每天调用限额是多少？默认QPS是多少？如何申请提高配额？
A：语音合成服务默认提供100QPS，服务接口每天不限制调用量。语音识别服务默认提供10QPS，服务接口每天不限制调用量。如需要的QPS大于默认额度，需申请提高配额，请登录控制台，点击百度语音，选择应用列表，选择对应应用，查看详情，点击申请提高配额，一般会在2个工作日内完成审核，审核通过后，将可使用提额后的QPS额度。

Q：控制台--语音应用详情页高级设置，语音识别词库设置、语义解析设置有什么注意事项？
A：语音识别词库设置，适用于在线语音识别，目前只在搜索模型下生效（API和SDK均支持）。上传词库中的词或句子，在单说的情况下，识别率会高
语义解析设置，覆盖天气、日历、航班等常见领域的语义库，可以有效识别用户意图，适用于相关领域的问答场景；目前只适用于语音识别SDK3.0以下版本设置。3.0以上版本，默认开启全部领域无需设置，且在此处的设置无效。

Q：语音识别REST API支持的音频格式、采样率有哪些？
A：原始 PCM 的录音参数必须符合16k 采样率、16bit 位深、单声道，支持的格式有：pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）。

Q：语音识别 REST API 最长支持多长的录音？
A：最长支持60s的录音文件。对文件大小没有限制，只对时长有限制。

Q：语音识别SDK支持的音频格式、采样率有哪些？
A：Android SDK：支持Android 2.3及以上系统，支持ARM\X86架构。安装包最小增加200k，支持16k采样率，pcm格式。

iOS SDK：支持iOS 5.0及以上系统，支持ARM-v7\ARM-v7s\ARM64\i386\x86_64架构。安装包最小增加400k，支持16k采样率，pcm格式。

Q：什么是语音识别REST API？有什么注意事项？
A：语音识别全平台REST API，采用http方式请求，可适用于任何平台的语音识别。使用REST API，录音、压缩及上传模块需要自行开发。且REST API语音识别暂时不支持语义解析。

Q：百度语音是否单独提供录音功能，以及语音通讯功能？
A：不单独提供独立录音的功能，目前识别SDK包含语音输入和识别功能。语音通讯功能需开发者自行搭建。

Q：语音服务是免费的？还是需要付费
A：目前语音基础服务（语音识别、语音合成、语音唤醒）全部免费。

Q：语音识别和合成支持什么语言？
A：语音识别支持：普通话、四川话、粤语、英语

语音合成支持：中英文混合

Q：我使用SDK后，代码出错，不能正常运行怎么办？
A：您好，请您先测试官方demo，测试通demo，再添加您自己的代码，基本都是可以使用的了。如果还是有问题，可以在AI社区讨论，我们进一步查看原因。

Q：我想提高一些词的识别准确率，有什么办法？
A：您好，您可以自行上传词库，训练专属识别模型。入口是：控制台--语音应用详情页高级设置，语音识别词库设置。

Q：语音识别REST API和SDK的区别是什么？
A： REST API：开发者上传录音——百度语音进行识别——识别结果返回开发者；SDK：百度语音提供从录音到识别结果返回的整体解决方案

Q：语音识别通过哪个接口获取音频信息？
A： Android SDK：当VoiceClientStatusChangeListener.onClientStatusChange(int status, Object obj) 的status是VoiceRecognitionClient.CLIENT_STATUS_AUDIO_DATA时，obj为byte[]音频数据；

iOS SDK：MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时，aObj为NSData音频数据。数据格式均为pcm，采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取，获取的音频格式是位深16bit，单声道。

Q：如何才能提高语音识别的准确率？
A：自定义语音识别设置：打开百度开放云平台，在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本，保存并生效。注：只在搜索模型下生效

Q：百度语音SDK与其他百度SDK，或其他第三方SDK冲突时，如何解决？
A：与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar，请检查是否重复导入了该jar包；与其他第三方SDK冲突一般是由于so库的架构不统一，请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致，如果不能保证一致，则一般只能所有SDK仅使用armeabi架构的so库

Q：首次开启语音识别功能的延迟时间较长，需要如何调控？
A：首次延迟时间较长一般是由于权限验证造成，可以通过预先调用接口： (int)verifyApiKey:(NSString *)apiKey withSecretKey:(NSString *)secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求，从而降低语音识别启动的延迟。

Q：如何在语音识别时获取音频文件？
A： Api： cp服务器自己备存用户录音信息；Sdk：可以通过CLIENT_STATUS_AUDIO_DATA回调，将回调对象强转成byte[]顺序写入到文件中即可得到原始的音频文件。

Q：为什么语音识别Demo的API_Key和Secret_Key是空的还能进行识别呢？我开发的应用的API_Key和Secret_Key是不是必须得填写呢？
A： SDK自带demo用的特殊的方式验证的，故可以不使用AK和SK。开发者自行开发的应用AK和SK是必须填写的，否则无法调用语音识别。

Q：【Android纯在线】如何从识别SDK中获取音频？
A：通过监听onClientStatusChange函数的CLIENT_STATUS_AUDIO_DATA消息（在一次会话中会回调多次）拼接音频，如：

class MyVoiceRecogListener implements VoiceClientStatusChangeListener{
OutputStream outFile;
@Override
public void onClientStatusChange(int status, Object obj) {
switch(status) {
... // 省略其它消息
case VoiceRecognitionClient.CLIENT_STATUS_AUDIO_DATA:
// 有音频数据输出
if (obj!= null && obj instanceof byte[]) {
// 演示如何保持PCM音频，细节请各位工程师更加实际情况优化
byte[] buf = (byte[])obj;
FileOutputStream out = new FileOutputStream("sdcard/your_file.pcm", true);
out.write(buf);
out.close();
}
break;
default:
break;
}
}

Q：【Android离在线】如何从识别SDK中获取音频？
A：方式1：设置outfile参数可以指定语音数据的保存路径，设置方式如：

intent.putExtra("outfile", "/sdcard/your_audio.pcm");

语音数据的保存格式为PCM，播放和压缩请自行查找相关类库。

方式2：通过监听onBufferReceived(byte[] buf)回调，拼接音频实现。

识别-Android

识别-iOS

识别-REST_API

个赞

共115条回复最后由回复于2023-05

#58用户已被禁言回复于2019-03

对#26 唯创知能回复

这个几个参数怎么用的呢?, 刚好需要上传联系人, 但没找到相关demo,文档也没有相关说明. BDS_UPLOADER_NAME BDS_ASR_ENABLE_CONTACTS BDS_UPLOADER_SLOT_NAME BDS_UPLOADER_SLOT_WORDS

展开

能麻烦再详细描述下您的需求吗？

#57用户已被禁言回复于2019-03

对#24 juma_voice回复

请问现在是否不需要申请离线识别授权这个步骤了呢？

不需要申请，也没有纯离线识别模式，只有离在线融合模式。

#56用户已被禁言回复于2019-03

对#23 邵思杰哥哥回复

楼主，我的pcm是，前端wav文件到后端转的，识别率很低很低，我不太会改前端生成wav的格式编码，楼主可以帮帮我吗，谢谢！

展开

参考音频文件转码工具文档 https://ai.baidu.com/docs#/ASR-Tool-convert/top

#55用户已被禁言回复于2019-03

对#22 super_guard回复

你好我选用了一段中文，编码为utf8后，请求成功后生成的mp3文件，在播放是，不是中文语音，这是什么情况？

展开

没有报错吗？具体生成的是什么语言？

#54用户已被禁言回复于2019-03

对#25 百无一用是昵称回复

有没有收费版的语音识别，速度和稳定上有保障的那种

有，百度近期推出了极速版语音识别api 参考文档 https://ai.baidu.com/docs#/ASR-API-PRO/top

#53用户已被禁言回复于2019-03

对#16 新到不能再新回复

发送指令 --> 启动语音识别 , 之后不会走- (void)VoiceRecognitionClientWorkStatus:(int)workStatus obj:(id)aObj代理方法是什么原因

展开

你这里没有报错代码，请提供完整的报错日志。

#52用户已被禁言回复于2019-03

对#15 lovhlv回复

求解语音识别怎么检测静音后停止录音啊

识别结束后会有回调。

#51用户已被禁言回复于2019-03

对#18 uana_001回复

是否能够在识别前，获取音频数据，对音频进行降噪和增益操作，之后在进行语音识别等操作？？

展开

这个需要你自己想办法实现。

#50用户已被禁言回复于2019-03

对#17 最晴天_爱回复

能在线语音识别吗

可以。可以看下http://ai.baidu.com/docs#/FAQ/top

#49用户已被禁言回复于2019-03

对#14 lizhlin回复

我想后台进行语音在线识别，但是报错为录音设备异常，请问怎么解决 Error Domain=10 Code=655361 "MIC ERR: audio queue start failed.--560557684" [prepareRecorder setActive failed, desc:NSOSStatusErrorDomain, code:560557684]

展开

android 还是io是？具体哪个sdk 还是api？

#48用户已被禁言回复于2019-03

对#11 dun白羊123回复

{u'err_no': 3303, u'err_msg': u'backend error.', u'sn': u'518901810831515740170'} 麻烦帮忙查询一下报错原因，谢谢

展开

这个报错是服务器端问题，请问报错频率如何？

#47用户已被禁言回复于2019-03

对#10 lizhlin回复

Encounter error: MIC ERR: audio queue start failed.--561145187 vr_handler work_status=8, encoded_err=655361, err_desc=MIC ERR: audio queue start failed.--561145187, need_finish=1, need_stop=0, need_loop=0 iOS平台语音识别，第三方键盘的开发，第一次录音是没有问题的，也可以取到录音文件并且播放，但是还是不能识别。但是第二次之后就不行了，录音文件语音识别啥都获取不到。请问这是什么问题呀？

展开

ios问题需在控制台内发工单反馈。

#46用户已被禁言回复于2019-03

对#9 largezhou回复

为什么比如我说“去吃饭啊”结果只能识别为“去吃饭，”？有解决办法吗？

保证无噪音环境。

#45用户已被禁言回复于2019-03

对#8 ironbridge0746回复

语音识别　REST API 支持多少路的并发？

10个。

#44用户已被禁言回复于2019-03

对#7 ENSMY回复

2018-01-02 16:41:38.165097+0800 GSProject[2483:896706] load offline engine failed: 4001 2018-01-02 16:41:40.608795+0800 GSProject[2483:896706] load offline engine failed: 4001 2018-01-02 16:41:41.985330+0800 GSProject[2483:896909] [BoringSSL] Function boringssl_session_errorlog: line 2871 [boringssl_session_read] SSL_ERROR_ZERO_RETURN(6): operation failed because the connection was cleanly shut down with a close_notify alert demo成功集成到项目中报错？请问怎么解决

展开

ios需要在控制台内提交工单反馈。

#43用户已被禁言回复于2019-03

对#6 慢慢的大米饭回复

apk添加到内置apk中报错I/WakeupEventAdapter: wakeup name:wp.error; params:{"error":11,"desc":"Wakeup engine model file invalid","sub_error":11005} 01-01 00:00:24.067 1269-1269/ voice.jxsmartecho.com E/fwz: 唤醒错误：11;错误消息：未知错误:11; 原始返回{"error":11,"desc":"Wakeup engine model file invalid","sub_error":11005} 请问什么原因啊

展开

10005错误是指模型文件不可用。按文档重新集成。

#42用户已被禁言回复于2019-03

对#4 xiaoxx1234回复

百度语音，我使用Unity20172开发，调用C#SDK，打包发布EXE，可以正常使用，打包发布APK，语音识别能用，但反应好慢，语音合成没有反应，不知道是什么原因？？？？为什么？？？

展开

具体反应慢是耗时久吗？音频文件的0.6倍时长是正常范围内的。语音合成需要语音合成的sdk。你在哪里下载的C# sdk？

#41用户已被禁言回复于2019-03

对#5 glorious777回复

提高配额后也是免费吗，要提高到每日20万次呢，怎么收费？

提高后也是免费的。

#40用户已被禁言回复于2019-03

对#3 萤火丶魅子回复

Q：百度语音SDK与其他百度SDK，或其他第三方SDK冲突时，如何解决？请问 IOS 的冲突怎么弄？

展开

不会冲突，ios 把.a文件换个名字导入即可。

#39武汉一零基础回复于2019-03

用蓝牙耳机连接后,录音,demo接收不到,什么原因

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服