大家好,最近我一直在研究“语音识别”影响正确率的几个因素,并且做了一些测试,写一篇文章给大家,做一个了解把!常规来说,我们觉得因素最大的是普通话不标准,背景音乐影响,噪音。其实还有一个很重要的因素【语速】
实验一:常规音频在普通速度下识别的结果:
【先来关注头条消息,十多天前,武汉54岁张先生和几个同事一起前往贵州出差,因为在路上花费的。时间比较久,于是车上的同事们开始吸烟提神,车厢里烟雾缭绕,而张先生喉咙越来越不舒服,到了目的地后。嗓子还有些肿胀疼痛,没过两天,张先生的病情突然加重,整个脸肿得就像猪头一样,东西也吃不下。还出现呼吸道阻塞症状,医生表示,张先生的发病如此迅速,且范围如此巨大,极为罕见,由于他的咽部颈部。已经严重感染,形成大范围脓腔压迫气道再不处理,可能造成窒息等,将危及生命。】
实验二:通过FFmpeg对音频进行加速处理
ffmpeg -i input.wav -filter:a "atempo=2.0" -vn output.wav
注意:倍率调整范围为[0.5, 2.0]
【来关注头条消息,十多天前,武汉54岁张先生和几个同事一起前往贵州出差,因为在路上花费的时间比较久,于是车上同事们开始吸烟提神,这将近一将近一。喉咙越来越不舒服,到了墓地后嗓子还有些肿胀,疼痛,过两天,张先生的病情突然加重,重肿的脸肿得像猪头一样,东西也是不下,还出现呼吸道阻塞症状,医生的医。并如此迅速且范围如此巨大,极为罕见,由于他的咽部,颈部已经严重感染,形成大范围脓腔,压迫气道再不处理,可能造成窒息等将威。】
实验三:通过FFmpeg对音频进行减速处理
【先来关注头条消息,十多天前,武汉54岁张先生和几个同事一起。前往贵州出差,因为在路上花费的时间比较久,于是车上的同事们开始吸烟提神。车厢里烟雾缭绕,而张先生喉咙越来越不舒服,到了目的地后,嗓子还有。有些肿胀疼痛,没过两天,张先生的病情突然加重,整个脸肿得就像猪头。同一样东西也吃不下,还出现呼吸道阻塞症状,医生表示,张先生的发病如此。迅速且范围如此巨大,极为罕见,由于他的咽部,颈部已经严重感染形成。大范围脓腔压迫气道再不处理,可能造成窒息等,将危及生命。】
实验结论:
1.通过这次测试发现,先把音频通过FFmpeg降速处理,能够获得更为精准的识别效果,同时也会对VAD切分的时间有一定影响。本次发现,其实背景音乐和噪音,未必是常见的影响因素,反而是语速会导致识别结果的不准确
【测试音频文件】以及【识别结果】打包下载地址:
链接:https://pan.baidu.com/s/1rIUAa35EHoqjinilvdDzVQ
提取码:h9me
是你自己搭建的模型来语音识别吗?还是使用的百度的API
我在智能音箱上做了个给孩子练习口算的技能。有时候发现系统对单个数字的识别是错误或无效的。14,5这两个数字是最容易识别不了的。这种情况不是出现在识别在一句话中的数字时,而是在识别单独的一个数字时发生。了解是怎么回事么?
减速后发现,标点符号位置会有错乱,本次测试是给大家分享我学习的心得哈!欢迎大家批评指导!