首页 炼丹房 帖子详情
这个语音用的什么模型?
收藏
快速回复
炼丹房 问答新手上路头脑风暴 585 7
这个语音用的什么模型?
收藏
快速回复
炼丹房 问答新手上路头脑风暴 585 7

https://www.bilibili.com/video/BV14A411x7MG/?spm_id_from=333.788.videocard.0

这个马师傅英文版的是用什么技术做的?太服了~~

还有日语的,听不懂。但是,能看出来这个就是用原音频做的,不是像有些音频是重新配的音

0
收藏
回复
全部评论(7)
时间顺序
AIStudio810258
#2 回复于2020-11

原版音频中的语气、停顿、“嗯啊”之类的都在。那个try try太搞笑了。

0
回复
AIStudio810258
#3 回复于2020-11

但从这个“try,try”上看,又不像用的原音频了。

翻译模型怎么会把试试翻译成try try 呢?这个像故意搞笑了。难道为了搞笑,故意设参数降低了模型的能力?~~

0
回复
AIStudio810258
#4 回复于2020-11

效果最惊艳的还是,这段音频不止迁移的声调,还迁移了语气,这是怎么做到的?

0
回复
AIStudio810258
#5 回复于2020-11

又看一遍,明白点了。这个语料输入的文本,和原音频一起生成的英文版语音。不然“耗子尾汁”是不可能出那个翻译的~~

0
回复
AIStudio810258
#6 回复于2020-11

网上还有“windows开关机”、“诺基亚铃声”、“新闻联播”等版本的。迁移效果不如这个语音的,是不是因为迁移风格的两段音频的差距太大了?差距越大效果越打折,就像cyclegan那样?

0
回复
AIStudio810258
#7 回复于2020-11
网上还有“windows开关机”、“诺基亚铃声”、“新闻联播”等版本的。迁移效果不如这个语音的,是不是因为迁移风格的两段音频的差距太大了?差距越大效果越打折,就像cyclegan那样?

又或者,这些迁移是认为设置了部分迁移特征,而不是用的gan

0
回复
AIStudio810258
#8 回复于2020-11

比如提取开关机音乐的高频特征与语音的中频特征融合在一起,是不是生成的音频就具有音乐的旋律和语音效果了?~~

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户