如何在生成语音时得知各字的时间标签

首页版块访问AI主站注册发帖

如何在生成语音时得知各字的时间标签

957763719 发布于2020-05 浏览:2160 回复:4

如何在生成语音时得知各字的时间标签

快速回复

我希望生成一段任意文字的音频，并得到这段音频内每一个字的开始结束时间。

例如：一[0:00.00-0:00.40]二[0:00.40-0:00.72]三[0:00.72-0:01.05]

想问接口是否支持直接在返回音频时返回各字的起止时间戳；若不支持，有没有可能运用语音识别等能力间接识别出这些时间点、或者运用其他非AI技术实现这个需求。

语音合成

语音识别

个赞

共4条回复最后由用户已被禁言回复于2022-04

#5957763719回复于2020-05

对#4 用户已被禁言回复

了解，是想实现做虚拟主播场景。目前接口还不支持合成的音频加时间戳的功能。但感觉你可以尝试计算一下文字的长度和合成的时间，应该是可以得出一个大概的平均值的。

展开

呃嗯……短句子可能还ok 但如果是简单按时长/字数取平均的话 tts合成比较长的句子的时候貌似会在特定的地方加入时长不等的断音时间感觉可能会达不到预定效果……

总之我这边再想一下有没有类似解决方案吧感谢提供解决思路orz

#4用户已被禁言回复于2020-05

对#3 957763719回复

类似于我有一个可变动aoeiun各口型的图像在通过tts返回语音后让图像配合语音实时做出口型变化这么一个需求如果可以的话不希望单纯通过音频响度作出单纯的张闭嘴效果

展开

#3957763719回复于2020-05

对#2 用户已被禁言回复

语音合成接口不支持这样的功能。语音识别不支持识别机器合成的音频。您是做什么场景呢？为什么有这样的需求呢？

展开

类似于我有一个可变动aoeiun各口型的图像在通过tts返回语音后让图像配合语音实时做出口型变化这么一个需求

如果可以的话不希望单纯通过音频响度作出单纯的张闭嘴效果

#2用户已被禁言回复于2020-05

语音合成接口不支持这样的功能。语音识别不支持识别机器合成的音频。

您是做什么场景呢？为什么有这样的需求呢？

快速回复

小编推荐

百度大脑语音方向服务全面升级！

用户已被禁言 235.9K回复

语音识别「极速版」升级，支持小程序接入

用户已被禁言 1.6K回复

第三期【百度大脑新品体验】语音问答机器人小程序

wangwei8638 259.3K回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服