
# 1. 模型介绍 ## 1.1 简介 PP-ASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练,并且支持使用命令行的方式进行模型的推理。 PP-ASR 也支持流式模型的部署,以及个性化场景的部署。 PP-ASR支持多种预训练模型:[released_model](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/released_model.md)。 其中效果较好的模型为支持流式 ASR 的 Conformer 模型。 ## 1.2 特点 语音识别的基本流程如下图所示: <div align=center> <img src="https://user-images.githubusercontent.com/87408988/168259962-cbe2008b-47b6-443d-9566-d77a5ca2eb25.png"/> <br> </div> <br></br> PP-ASR 的主要特点如下: 1. 提供在中/英文开源数据集 aishell (中文),wenetspeech(中文),librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。 2. 支持中/英文的模型训练功能。 3. 支持命令行方式的模型推理,可使用 paddlespeech asr --model xxx --input xxx.wav 方式调用各个预训练模型进行推理。 4. 支持流式 ASR 的服务部署,也支持输出时间戳。 5. 支持个性化场景的部署。 更多内容欢迎来 [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/paddlespeech) 进行体验! # 2. 模型效果及应用场景 ## 2.1 流式语音识别任务 语音识别(Automatic Speech Recognition, ASR) 是一项从一段音频中提取出语言文字内容的任务。而流式语音识别则是用户将一整段语音分段,以流式输入,最后得到识别结果。 实时语音识别引擎在获得分段的输入语音的同时,就可以同步地对这段数据进行特征提取和解码工作,而不用等到所有数据都获得后再开始工作。因此这样就可以在最后一段语音结束后,仅延迟很短的时间(也即等待处理最后一段语音数据以及获取最终结果的时间)即可返回最终识别结果。这种流式输入方式能缩短整体上获得最终结果的时间,极大地提升用户体验。 ## 2.2 应用场景 1. 人机交互/语音输入法 流式语音识别可以在用户说话的时候实时生成文字,加快了机器对人的反馈速度,使得用户的使用体验得到提升。 <div align=center> <img src="https://ai-studio-static-online.cdn.bcebos.com/6a68196417234818b3241616a1649741eef4f919c67141d9b9ad371780d110a8" height=50%, width=50%/> <br> (百度智能音箱:https://dumall.baidu.com/) </div> 2. 实时字幕/会议纪要 在会议场景,边说话,边转写文本。 将会议、庭审、采访等场景的音频信息转换为文字,由实时语音识别服务实现,降低人工记录成本、提升效率。 <div align=center> <img src="https://ai-studio-static-online.cdn.bcebos.com/546271f5bad341acb208d3d497874028da5a664e9e1e460eb61af6a742e89aeb" height=70%, width=70%/> <br> (百度智能会议系统:一指禅) </div> 3. 同声翻译 在机器进行同声翻译的时候,机器需要能实时识别出用户的说话内容,才能将说话的内容通过翻译模块实时翻译成别的语言。 <div align=center> <img href="https://infoflow.baidu.com/audio-video/#/" src="https://ai-studio-static-online.cdn.bcebos.com/7472f6f976e94e3288dacb0a8bffd9a824f31e392e48496d830f5f11626c0851" height=50%, width=50%/> <br> (如流:智能会议 https://infoflow.baidu.com/audio-video/#/) </div> 4. 电话质检 将坐席通话转成文字,由实时语音识别服务或录音文件识别服务实现,全面覆盖质检内容、提升质检效率。 <div align=center> <img src="https://ai-studio-static-online.cdn.bcebos.com/cbd0af3553ff4b8891bb6239069ad76d95bbc36fb98444378a3b3d716eb1fbcb" height=40%, width=40%/> </div> 5. 语音消息转写 将用户的语音信息转成文字信息,由一句话识别服务实现,提升用户阅读效率。 ## 2.3 数据集 模型使用10000小时多领域中文语音识别数据集WenetSpeech。 ## 2.4 效果展示 网页上使用 asr server 的效果展示:[streaming_asr_demo_video](https://paddlespeech.readthedocs.io/en/latest/streaming_asr_demo_video.html)