百度语音识别（音频加减速影响测试）

首页版块访问AI主站注册发帖

百度语音识别（音频加减速影响测试）

灬相随灬发布于2020-02 浏览:3900 回复:3

百度语音识别（音频加减速影响测试）

快速回复

大家好，最近我一直在研究“语音识别”影响正确率的几个因素，并且做了一些测试，写一篇文章给大家，做一个了解把！常规来说，我们觉得因素最大的是普通话不标准，背景音乐影响，噪音。其实还有一个很重要的因素【语速】

实验一：常规音频在普通速度下识别的结果：

【先来关注头条消息，十多天前，武汉54岁张先生和几个同事一起前往贵州出差，因为在路上花费的。时间比较久，于是车上的同事们开始吸烟提神，车厢里烟雾缭绕，而张先生喉咙越来越不舒服，到了目的地后。嗓子还有些肿胀疼痛，没过两天，张先生的病情突然加重，整个脸肿得就像猪头一样，东西也吃不下。还出现呼吸道阻塞症状，医生表示，张先生的发病如此迅速，且范围如此巨大，极为罕见，由于他的咽部颈部。已经严重感染，形成大范围脓腔压迫气道再不处理，可能造成窒息等，将危及生命。】

实验二：通过FFmpeg对音频进行加速处理

ffmpeg -i input.wav -filter:a "atempo=2.0" -vn output.wav

注意：倍率调整范围为[0.5, 2.0]

【来关注头条消息，十多天前，武汉54岁张先生和几个同事一起前往贵州出差，因为在路上花费的时间比较久，于是车上同事们开始吸烟提神，这将近一将近一。喉咙越来越不舒服，到了墓地后嗓子还有些肿胀，疼痛，过两天，张先生的病情突然加重，重肿的脸肿得像猪头一样，东西也是不下，还出现呼吸道阻塞症状，医生的医。并如此迅速且范围如此巨大，极为罕见，由于他的咽部，颈部已经严重感染，形成大范围脓腔，压迫气道再不处理，可能造成窒息等将威。】

实验三：通过FFmpeg对音频进行减速处理

【先来关注头条消息，十多天前，武汉54岁张先生和几个同事一起。前往贵州出差，因为在路上花费的时间比较久，于是车上的同事们开始吸烟提神。车厢里烟雾缭绕，而张先生喉咙越来越不舒服，到了目的地后，嗓子还有。有些肿胀疼痛，没过两天，张先生的病情突然加重，整个脸肿得就像猪头。同一样东西也吃不下，还出现呼吸道阻塞症状，医生表示，张先生的发病如此。迅速且范围如此巨大，极为罕见，由于他的咽部，颈部已经严重感染形成。大范围脓腔压迫气道再不处理，可能造成窒息等，将危及生命。】

实验结论：

1.通过这次测试发现，先把音频通过FFmpeg降速处理，能够获得更为精准的识别效果，同时也会对VAD切分的时间有一定影响。本次发现，其实背景音乐和噪音，未必是常见的影响因素，反而是语速会导致识别结果的不准确

【测试音频文件】以及【识别结果】打包下载地址：

链接：https://pan.baidu.com/s/1rIUAa35EHoqjinilvdDzVQ
提取码：h9me

文档

个赞

共3条回复最后由用户已被禁言回复于2022-04

#4进985回复于2020-05

是你自己搭建的模型来语音识别吗？还是使用的百度的API

#3189******30回复于2020-02

我在智能音箱上做了个给孩子练习口算的技能。有时候发现系统对单个数字的识别是错误或无效的。14，5这两个数字是最容易识别不了的。这种情况不是出现在识别在一句话中的数字时，而是在识别单独的一个数字时发生。了解是怎么回事么？

#2灬相随灬回复于2020-02

减速后发现，标点符号位置会有错乱，本次测试是给大家分享我学习的心得哈！欢迎大家批评指导！

快速回复

小编推荐

【征稿计划第二期】评测报告、使用攻略、行业案例

用户已被禁言 14回复

Baidu Create 2019 | 百度大脑

用户已被禁言 6回复

【颁奖】第三期百度大脑新品体验师

用户已被禁言 19回复

【四月评测】远场语音识别套件

goJhou 17回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服