首页
版块
访问AI主站
登录
百度账号登录
Github账号登录
注册
发帖
用户已被禁言
844帖子
·
1027回复
4280
积分
积分商城
739
获赞
Ta的动态
Ta的帖子
Ta的回复
原帖已删除
Ta的回复 :Base64编码后大小限制,参考如下表格: [图片]
0
识别的图片格式有什么要求?
Ta的回复 :支持PNG、JPG、JPEG、BMP,不支持GIF图片。
2
什么是base64编码,如何提供?
Ta的回复 :图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制,然后用Base64格式编码即可。注:图片的base64编码是不包含图片头的,(data:image/jpg;base64,)
2
识别的图片支持怎样输入?
Ta的回复 :目前文字识别接口仅支持base64编码输入。
3
谁遇到过这个问题?求助
Ta的回复 :百度语音合成SDK 提供了armeabi标准库及armeabi-v7a库。如项目只包含其中一个目录,请只将TTS SDK中的同名目录集成,否则会造成其它库无法正常加载的错误。如项目只有armeabi,请只集成armeabi,反之如果只有armeabi-v7a,则只集成armeabi-v7a。
0
谁能帮忙看看这个错误,谢谢。
Ta的回复 :应用同时集成了百度其它 SDK,造成公共库冲突,请删除语音SDK中的galaxy_lite.jar。
1
语音合成的语音,我想获取音频数据该怎么办?
Ta的回复 :可以通过 SpeechSynthesizerListener 的 onNewDataArrive 方法获取音频数据。
0
有离线语音合成可以提供吗?
Ta的回复 :目前没有开放纯离线模式下的语音合成SDK,但是我们开放了离在线融合语音合成SDK,会自动判断当前网络环境,自动匹配使用离线还是在线合成引擎。
2
语音合成SDK正式授权如何实现
Ta的回复 :授权--请您先设置APPID,绑定包名,设置AK SK。第一次保证在线调用成功即可。具体步骤: 1、语音官网中应用请确定绑定包名,demo的包名是com.baidu.tts.sample 2、删除代码中临时授权文件LICENSE_FILE_NAME的设置 3、启动后检查离线资源文件是否存在并且可读。然后联网调用成功,后续持续使用。
0
语音合成支持那些语言和音色的播报?
Ta的回复 :语音合成目前支持中文普通话播报、中英文混读播报,音色支持男声、女声、度丫丫、度逍遥。
1
语音合成如果想指定某个字的发音,怎么实现?
Ta的回复 :语音合成接口,支持用户自主标音,通过在所需合成的文字后,增加音标的方式,比如,想把“重音”中的重字,指定合成"chong"的读音时,需将合成文字改为“重(chong3)音”,其中3表示3声,可以根据数字变化调节音调,1对应1声,2对应2声,3对应3声,4对应4声。
2
【Android纯在线】如何从识别SDK中获取音频?
Ta的回复 :通过监听onClientStatusChange函数的CLIENT_STATUS_AUDIO_DATA消息(在一次会话中会回调多次)拼接音频,如: [图片]
0
为什么API_Key和Secret_Key是空的还能进行识别,API_Key和Secret_Key必须得填写?
Ta的回复 :SDK自带demo用的特殊的方式验证的,故可以不使用AK和SK。开发者自行开发的应用AK和SK是必须填写的,否则无法调用语音识别。
1
语音识别垂类是什么意思?
Ta的回复 :语音识别垂类就是特指某个领域的意思,开发者可以根据用户使用场景设定特定领域使得识别结果更准确。比如垂直领域设定为”音乐“,则在语音识别时会优先识别为音乐相关的歌曲名歌手名或者歌词。注:只在SDK中搜索模型下生效。
1
如何在语音识别时获取音频文件?
Ta的回复 :Api:cp服务器自己备存用户录音信息;Sdk:可以通过CLIENT_STATUS_AUDIO_DATA回调,将回调对象强转成byte[]顺序写入到文件中即可得到原始的音频文件。
1
首次开启语音识别功能的延迟时间较长,需要如何调控?
Ta的回复 :首次延迟时间较长一般是由于权限验证造成,可以通过预先调用接口: (int)verifyApiKey:(NSString )apiKey withSecretKey:(NSString )secretKey; 来进行验证。首次开启语音时就不需要再发送验证请求,从而降低语音识别启动的延迟。
1
原帖已删除
Ta的回复 :与其他百度SDK冲突一般是由于使用了相同的基础库galaxy.jar,请检查是否重复导入了该jar包;与其他第三方SDK冲突一般是由于so库的架构不统一,请保证工程libs目录下armeabi/armeabi-v7a/x86/mips目录的so库均一致,如果不能保证一致,则一般只能所有SDK仅使用armeabi架构的so库
0
如何才能提高语音识别的准确率?
Ta的回复 :自定义语音识别设置:打开百度开放云平台,在目前创建的应用下进行自定义语音识别设置。上传识别关键词文本,保存并生效。注:只在语音识别SDK中,搜索模型下生效 设置对应的语音识别垂类:在代码中填写识别的垂类领域,识别结果将优先指向已设置的垂类,可以使得识别结果更准确,注:只在语音识别SDK中,搜索模型下生效
4
语音识别通过哪个接口获取音频信息?
Ta的回复 :Android SDK:当VoiceClientStatusChangeListener.onClientStatusChange(int status, Object obj) 的status是VoiceRecognitionClient.CLIENT_STATUS_AUDIO_DATA时,obj为byte[]音频数据; iOS SDK:MVoiceRecognitionClientDelegate的(void)VoiceRecognitionClientWorkStatus:(int) aStatus obj:(id)aObj;的aStatus是EVoiceRecognitionClientWorkStatusNewRecordData时,aObj为NSData音频数据。 数据格式均为pcm,采样率可通过VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]获取,获取的音频格式是位深16bit,单声道。
1
语音识别REST API和SDK的区别是什么?
Ta的回复 :REST API:开发者上传录音——百度语音进行识别——识别结果返回开发者;SDK:百度语音提供从录音到识别结果返回的整体解决方案
0
1
2
3
4
5
6
...
51
切换版块
操作指南
常见问答
平台公告
经验交流
技术专区
文字识别
人脸识别
语音技术
PaddlePaddle
EasyDL
BML
EasyData
AI Studio
UNIT
人体分析
图像搜索
图像识别
内容审核
自然语言处理
机器人视觉
视频技术
增强现实
知识图谱
智能创作
智能呼叫中心
文心
EdgeBoard
DuerOS
EasyEdge
度目硬件
百度AI市场
Doris
AI赛事
百度之星大赛
AI Studio人工智能竞赛
语言与智能技术竞赛
千言数据集
集思广益
共享工具
头脑风暴
成果展示
智能客服