如何在生成语音时得知各字的时间标签
957763719 发布于2020-05 浏览:1658 回复:4
0
收藏

我希望生成一段任意文字的音频,并得到这段音频内每一个字的开始结束时间

例如:一[0:00.00-0:00.40]二[0:00.40-0:00.72]三[0:00.72-0:01.05]

想问接口是否支持直接在返回音频时返回各字的起止时间戳;若不支持,有没有可能运用语音识别等能力间接识别出这些时间点、或者运用其他非AI技术实现这个需求。

收藏
点赞
0
个赞
共4条回复 最后由用户已被禁言回复于2022-04
#5957763719回复于2020-05
#4 用户已被禁言回复
了解,是想实现做虚拟主播场景。目前接口还不支持合成的音频加时间戳的功能。但感觉你可以尝试计算一下文字的长度和合成的时间,应该是可以得出一个大概的平均值的。
展开

呃嗯……短句子可能还ok 但如果是简单按时长/字数取平均的话 tts合成比较长的句子的时候貌似会在特定的地方加入时长不等的断音时间 感觉可能会达不到预定效果……

总之我这边再想一下有没有类似解决方案吧 感谢提供解决思路orz

1
#4用户已被禁言回复于2020-05
#3 957763719回复
类似于 我有一个可变动aoeiun各口型的图像 在通过tts返回语音后让图像配合语音实时做出口型变化 这么一个需求 如果可以的话不希望单纯通过音频响度作出单纯的张闭嘴效果
展开

了解,是想实现做虚拟主播场景。目前接口还不支持合成的音频加时间戳的功能。但感觉你可以尝试计算一下文字的长度和合成的时间,应该是可以得出一个大概的平均值的。

0
#3957763719回复于2020-05
#2 用户已被禁言回复
语音合成接口不支持这样的功能。语音识别不支持识别机器合成的音频。 您是做什么场景呢?为什么有这样的需求呢?
展开

类似于 我有一个可变动aoeiun各口型的图像 在通过tts返回语音后让图像配合语音实时做出口型变化 这么一个需求

如果可以的话不希望单纯通过音频响度作出单纯的张闭嘴效果

0
#2用户已被禁言回复于2020-05

语音合成接口不支持这样的功能。语音识别不支持识别机器合成的音频。

您是做什么场景呢?为什么有这样的需求呢?

0
TOP
切换版块