个人中心

原帖已删除

Ta的回复：Base64编码后大小限制，参考如下表格： [图片]

0

识别的图片格式有什么要求?

Ta的回复：支持PNG、JPG、JPEG、BMP，不支持GIF图片。

2

什么是base64编码，如何提供？

Ta的回复：图片的base64编码指将一副图片数据编码成一串字符串，使用该字符串代替图像地址。您可以首先得到图片的二进制，然后用Base64格式编码即可。注：图片的base64编码是不包含图片头的，（data:image/jpg;base64,）

2

识别的图片支持怎样输入?

Ta的回复：目前文字识别接口仅支持base64编码输入。

3

谁遇到过这个问题？求助

Ta的回复：百度语音合成SDK 提供了armeabi标准库及armeabi-v7a库。如项目只包含其中一个目录，请只将TTS SDK中的同名目录集成，否则会造成其它库无法正常加载的错误。如项目只有armeabi，请只集成armeabi，反之如果只有armeabi-v7a，则只集成armeabi-v7a。

0

谁能帮忙看看这个错误，谢谢。

Ta的回复：应用同时集成了百度其它 SDK，造成公共库冲突，请删除语音SDK中的galaxy_lite.jar。

1

语音合成的语音，我想获取音频数据该怎么办？

Ta的回复：可以通过 SpeechSynthesizerListener 的 onNewDataArrive 方法获取音频数据。

0

有离线语音合成可以提供吗？

Ta的回复：目前没有开放纯离线模式下的语音合成SDK，但是我们开放了离在线融合语音合成SDK，会自动判断当前网络环境，自动匹配使用离线还是在线合成引擎。

2

语音合成SDK正式授权如何实现

Ta的回复：授权--请您先设置APPID，绑定包名，设置AK SK。第一次保证在线调用成功即可。具体步骤： 1、语音官网中应用请确定绑定包名，demo的包名是com.baidu.tts.sample 2、删除代码中临时授权文件LICENSE_FILE_NAME的设置 3、启动后检查离线资源文件是否存在并且可读。然后联网调用成功，后续持续使用。

0

语音合成支持那些语言和音色的播报？

Ta的回复：语音合成目前支持中文普通话播报、中英文混读播报，音色支持男声、女声、度丫丫、度逍遥。

1

语音合成如果想指定某个字的发音，怎么实现？

Ta的回复：语音合成接口，支持用户自主标音，通过在所需合成的文字后，增加音标的方式，比如，想把“重音”中的重字，指定合成"chong"的读音时，需将合成文字改为“重（chong3）音”，其中3表示3声，可以根据数字变化调节音调，1对应1声，2对应2声，3对应3声，4对应4声。

2

【Android纯在线】如何从识别SDK中获取音频？

Ta的回复：通过监听onClientStatusChange函数的CLIENT_STATUS_AUDIO_DATA消息（在一次会话中会回调多次）拼接音频，如： [图片]

0

为什么API_Key和Secret_Key是空的还能进行识别,API_Key和Secret_Key必须得填写？

Ta的回复：SDK自带demo用的特殊的方式验证的，故可以不使用AK和SK。开发者自行开发的应用AK和SK是必须填写的，否则无法调用语音识别。

1

语音识别垂类是什么意思？

Ta的回复：语音识别垂类就是特指某个领域的意思，开发者可以根据用户使用场景设定特定领域使得识别结果更准确。比如垂直领域设定为”音乐“，则在语音识别时会优先识别为音乐相关的歌曲名歌手名或者歌词。注：只在SDK中搜索模型下生效。

1

如何在语音识别时获取音频文件？

Ta的回复：Api：cp服务器自己备存用户录音信息；Sdk：可以通过CLIENT_STATUS_AUDIO_DATA回调，将回调对象强转成byte[]顺序写入到文件中即可得到原始的音频文件。

1

首次开启语音识别功能的延迟时间较长，需要如何调控？

Ta的回复：首次延迟时间较长一般是由于权限验证造成，可以通过预先调用接口： (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求，从而降低语音识别启动的延迟。

1

原帖已删除

Ta的回复：与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar，请检查是否重复导入了该jar包；与其他第三方SDK冲突一般是由于so库的架构不统一，请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致，如果不能保证一致，则一般只能所有SDK仅使用armeabi架构的so库

0

如何才能提高语音识别的准确率？

Ta的回复：自定义语音识别设置：打开百度开放云平台，在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本，保存并生效。注：只在语音识别SDK中，搜索模型下生效设置对应的语音识别垂类：在代码中填写识别的垂类领域，识别结果将优先指向已设置的垂类，可以使得识别结果更准确，注：只在语音识别SDK中，搜索模型下生效

4

语音识别通过哪个接口获取音频信息？

Ta的回复：Android SDK：当VoiceClientStatusChangeListener.onClientStatusChange(int status, Object obj) 的status是VoiceRecognitionClient.CLIENT_STATUS_AUDIO_DATA时，obj为byte[]音频数据； iOS SDK：MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时，aObj为NSData音频数据。数据格式均为pcm，采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取，获取的音频格式是位深16bit，单声道。

1

语音识别REST API和SDK的区别是什么？

Ta的回复：REST API：开发者上传录音——百度语音进行识别——识别结果返回开发者；SDK：百度语音提供从录音到识别结果返回的整体解决方案

0