0
0

魔音分享 | 「声音转换」引擎更新,效果更牛X!

魔音工坊
2023-01-18
152
shoptop 【建站扶持计划】

免订阅费,免费SEO与代建站,16大主流媒体免费开户

   立即查看>>

大数跨境
导读:声音转换引擎迎来重磅更新:情感表达更自然、音质和稳定性双提升!
之前魔音工坊推出了声音转换功能,进入了声音转换领域。经过一年的沉淀,在春节前夕,声音转换引擎迎来重磅更新,使情感表达更自然音质和稳定性双提升,并完成了以下十位发音人的功能上线:

采采魔天轮小依魔阿彬魔小杰魔殊琪魔丽娘魔小琪魔芸萱魔芳官,同时魔云熙小柔也支持了声音转换。

现在,我们来聊一聊声音转换背后的技术架构更新。

01声音转换技术架构

MeetVC技术架构

我们使用多说话人VC模型进行声音转换,具体过程如下。

① 训练过程中,我们对目标说话人的语音,进行内容提取,得到内容特征(Content feature),该特征与语音的发音人无相关性。

同时,我们通过声码器提取语音的声学特征。最后我们通过训练变声模型得到内容特征和声学特征之间的关系。在声学模型中我们也支持发音人设置,因此可以同时训练多个目标发音人。

② 在生成过程中,我们提取源说话人语音中的内容特征,并把它输入到变声模型中。变声模型我们可以指定目标发音人,变声模型就会将内容特征转换为目标发音人对应的声学特征,最后通过声码器即可得到目标发音人的语音。

本次引擎更新在声音转换的总体架构保持不变上,针对细节进行了优化调整,已达到比上一代更好的效果。以下我们将对具体的数据增强和变声模型方面优化进行叙述:

数据增强

在数据优化层面,我们进行了一定的积累。之前引擎使用的数据是传统TTS数据,针对高质量声音的转换效果尚可,但对于低质量、有噪声数据的声音转换,鲁棒性会大大减弱。因此,团队针对以上问题,对数据进行了噪声和音调等数据增强方式,经实验验证,模型鲁棒性会大大提高。

变声模型

在变声模型设计方面,我们依旧使用了Encoder-Decoder结构,而本次声音转换的引擎更新,主要体现在变声模型的更新上,具体而言,是对编码器(Encoder)的改造上。我们以前的模型结构与tacotron类似,如图所示:

但针对越来越多的训练数据和越来越复杂的场景,现有Encoder已不能较好得到相应结果,因此我们引入了最近在各个领域大热的transformer模型作为编码器,它针对更大的训练数据能够得到更为优秀的特征表征,供解码器解码

02声音转换总结展望

声音转换任务是集音频解析和音频合成为一体的任务,因此有很高的理论探索性。魔音技术团队一直为了探索这些可能性而努力,我们本次进行了基础引擎的优化,后续会根据更细节的任务进行进一步探索:

① 解析源说话人中的各种情绪(高兴、悲伤等)和风格(解说、RAP等)并迁移到目标说话人上。

② 对一些哭声、笑声等更加富有人性和情感表达进行声音转换探索。

我们也会针对声音转换支持更多发音人,敬请期待~

我们声音转换的技术目标一直是达到柯南蝴蝶结那样的效果,百变音色,还原说话人的情感/韵律等表现,为各位提供更好更快更便捷的音频产出工具。

悄悄爆料一个好消息:近期我们也会将实时变声应用到直播场景,敬请期待!

也欢迎大家使用魔音工坊火爆发音人魔云熙和小柔进行声音转换,让自己的配音更有多样性

文章来源:【魔音工坊】公众号
【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:contact@10100.com
0
0
魔音工坊
魔音工坊配音神器,让配音更简单。
内容 432
粉丝 1
咨询
关注
魔音工坊 魔音工坊配音神器,让配音更简单。
总阅读39.9k
粉丝1
内容432
咨询
关注