请问识别到语音后是否可以尽快返回识别结果,假设上传的15s数据中只有2~4s有语音,其他都是静音(或低的噪音),能否不用等15s数据传完就返回识别结果?
szk18603059681 发布于2016-11 浏览:1186 回复:4
0
收藏

我使用的服务是:REST

调用的接口是:REST_API

参数设置情况:8k,16bit

开发平台和机型:arm

SDK版本号:

代码或日志截图(上传截图能帮助您更快解决问题):

复现步骤、现象及其他描述:

收藏
点赞
0
个赞
共4条回复 最后由用户已被禁言回复于2022-04
#5xieymxj回复于2016-12

W_维生素Q_W:

自行实现VAD的话,有一个切割点的问题,比如连续语音超过1分钟了,不得不截断,这样就会导致部分语素识别出问题啊

回复W_维生素Q_W:恩,这个确实存在问题,因为切分算法一般都是由用户停顿导致的。

0
#4W_维生素Q_W回复于2016-12

自行实现VAD的话,有一个切割点的问题,比如连续语音超过1分钟了,不得不截断,这样就会导致部分语素识别出问题啊

0
#3xieymxj回复于2016-11

如果您使用我们的SDK,里面会包含一个端点检测的模块,用于静音判断,理论上只会传输有音频的部分数据。这个算法模块在API接口里面也有,但是无论如何你都要上传全部语音了。

您可以自己实现端点检测的算法,效果只能由您来保证了。否则可以考虑使用我们的SDK。

0
#2szk18603059681回复于2016-11

有人知道么?


0
TOP
切换版块