这个语音用的什么模型?
收藏
https://www.bilibili.com/video/BV14A411x7MG/?spm_id_from=333.788.videocard.0
这个马师傅英文版的是用什么技术做的?太服了~~
还有日语的,听不懂。但是,能看出来这个就是用原音频做的,不是像有些音频是重新配的音
0
收藏
请登录后评论
原版音频中的语气、停顿、“嗯啊”之类的都在。那个try try太搞笑了。
但从这个“try,try”上看,又不像用的原音频了。
翻译模型怎么会把试试翻译成try try 呢?这个像故意搞笑了。难道为了搞笑,故意设参数降低了模型的能力?~~
效果最惊艳的还是,这段音频不止迁移的声调,还迁移了语气,这是怎么做到的?
又看一遍,明白点了。这个语料输入的文本,和原音频一起生成的英文版语音。不然“耗子尾汁”是不可能出那个翻译的~~
网上还有“windows开关机”、“诺基亚铃声”、“新闻联播”等版本的。迁移效果不如这个语音的,是不是因为迁移风格的两段音频的差距太大了?差距越大效果越打折,就像cyclegan那样?
又或者,这些迁移是认为设置了部分迁移特征,而不是用的gan
比如提取开关机音乐的高频特征与语音的中频特征融合在一起,是不是生成的音频就具有音乐的旋律和语音效果了?~~