
# 1. PP-TTS 模型介绍 ## 1.1 简介 PP-TTS 是 PaddleSpeech 自研的流式语音合成系统。在实现[前沿算法](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/released_model.md#text-to-speech-models)的基础上,使用了更快的推理引擎,实现了流式语音合成技术,使其满足商业语音交互场景的需求。 #### PP-TTS 语音合成基本流程如下图所示: <center><img src=https://ai-studio-static-online.cdn.bcebos.com/ea69ae1faff84940a59c7079d16b3a8db2741d2c423846f68822f4a7f28726e9 width="600" ></center> PP-TTS 默认提供基于 FastSpeech2 声学模型和 HiFiGAN 声码器的中文流式语音合成系统: - 文本前端:采用基于规则的中文文本前端系统,对文本正则、多音字、变调等中文文本场景进行了优化。 - 声学模型:对 FastSpeech2 模型的 Decoder 进行改进,使其可以流式合成 - 声码器:支持对 GAN Vocoder 的流式合成 - 推理引擎:使用 ONNXRuntime 推理引擎优化模型推理性能,使得语音合成系统在低压 CPU 上也能达到 RTF<1,满足流式合成的要求 ## 1.2 特性 - 开源领先的中文语音合成系统 - 使用 ONNXRuntime 推理引擎优化模型推理性能 - 唯一开源的流式语音合成系统 - 易拆卸性:可以很方便地更换不同语种上的不同声学模型和声码器、使用不同的推理引擎(Paddle 动态图、PaddleInference 和 ONNXRuntime 等)、使用不同的网络服务(HTTP、Websocket) # 2. 模型效果及应用场景 ## 2.1 语音合成任务 ## 2.1.1 数据集: 常见语音合成数据集如下表所示: | 语言 | 数据集 |音频信息 | 描述 | | -------- | -------- | -------- | -------- | | 中文 | [CSMSC](https://www.data-baker.com/open_source.html) | 48KHz, 16bit | 单说话人,女声,约12小时,具有高音频质量 | | 中文 | [AISHELL-3](http://www.aishelltech.com/aishell_3) | 44.1kHz,16bit | 多说话人(218人),约85小时,音频质量不一致(有的说话人音频质量较高)| | 英文 | [LJSpeech-1.1](https://keithito.com/LJ-Speech-Dataset/) | 22050Hz, 16bit | 单说话人,女声,约24小时,具有高音频质量| | 英文 | [VCTK](https://datashare.ed.ac.uk/handle/10283/3443) | 48kHz, 16bit | 多说话人(110人), 约44小时,音频质量不一致(有的说话人音频质量较高)| ## 2.1.2 模型效果速览 点击 [链接](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html) 听合成的音频。 # 3. 模型如何使用 ## 3.1 模型推理 ### 安装 paddlespeech