这个语音用的什么模型？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

AIStudio810258 发布于2020-11

https://www.bilibili.com/video/BV14A411x7MG/?spm_id_from=333.788.videocard.0

这个马师傅英文版的是用什么技术做的？太服了～～

还有日语的，听不懂。但是，能看出来这个就是用原音频做的，不是像有些音频是重新配的音

全部评论(7)

AIStudio810258

#2 回复于2020-11

原版音频中的语气、停顿、“嗯啊”之类的都在。那个try try太搞笑了。

AIStudio810258

#3 回复于2020-11

但从这个“try，try”上看，又不像用的原音频了。

翻译模型怎么会把试试翻译成try try 呢？这个像故意搞笑了。难道为了搞笑，故意设参数降低了模型的能力？～～

AIStudio810258

#4 回复于2020-11

效果最惊艳的还是，这段音频不止迁移的声调，还迁移了语气，这是怎么做到的？

AIStudio810258

#5 回复于2020-11

又看一遍，明白点了。这个语料输入的文本，和原音频一起生成的英文版语音。不然“耗子尾汁”是不可能出那个翻译的～～

AIStudio810258

#6 回复于2020-11

网上还有“windows开关机”、“诺基亚铃声”、“新闻联播”等版本的。迁移效果不如这个语音的，是不是因为迁移风格的两段音频的差距太大了？差距越大效果越打折，就像cyclegan那样？

AIStudio810258

#7 回复于2020-11

AIStudio810258 #6

又或者，这些迁移是认为设置了部分迁移特征，而不是用的gan

AIStudio810258

#8 回复于2020-11

比如提取开关机音乐的高频特征与语音的中频特征融合在一起，是不是生成的音频就具有音乐的旋律和语音效果了？～～