采采、魔天轮、小依、魔阿彬、魔小杰、魔殊琪、魔丽娘、魔小琪、魔芸萱、魔芳官,同时魔云熙、小柔也支持了声音转换。
现在,我们来聊一聊声音转换背后的技术架构更新。
01声音转换技术架构
MeetVC技术架构
我们使用多说话人VC模型进行声音转换,具体过程如下。
① 训练过程中,我们对目标说话人的语音,进行内容提取,得到内容特征(Content feature),该特征与语音的发音人无相关性。
同时,我们通过声码器提取语音的声学特征。最后我们通过训练变声模型得到内容特征和声学特征之间的关系。在声学模型中我们也支持发音人设置,因此可以同时训练多个目标发音人。
② 在生成过程中,我们提取源说话人语音中的内容特征,并把它输入到变声模型中。变声模型我们可以指定目标发音人,变声模型就会将内容特征转换为目标发音人对应的声学特征,最后通过声码器即可得到目标发音人的语音。
本次引擎更新在声音转换的总体架构保持不变上,针对细节进行了优化调整,已达到比上一代更好的效果。以下我们将对具体的数据增强和变声模型方面优化进行叙述:
数据增强
在数据优化层面,我们进行了一定的积累。之前引擎使用的数据是传统TTS数据,针对高质量声音的转换效果尚可,但对于低质量、有噪声数据的声音转换,鲁棒性会大大减弱。因此,团队针对以上问题,对数据进行了噪声和音调等数据增强方式,经实验验证,模型鲁棒性会大大提高。
变声模型
在变声模型设计方面,我们依旧使用了Encoder-Decoder结构,而本次声音转换的引擎更新,主要体现在变声模型的更新上,具体而言,是对编码器(Encoder)的改造上。我们以前的模型结构与tacotron类似,如图所示:
但针对越来越多的训练数据和越来越复杂的场景,现有Encoder已不能较好得到相应结果,因此我们引入了最近在各个领域大热的transformer模型作为编码器,它针对更大的训练数据能够得到更为优秀的特征表征,供解码器解码
02声音转换总结展望
声音转换任务是集音频解析和音频合成为一体的任务,因此有很高的理论探索性。魔音技术团队一直为了探索这些可能性而努力,我们本次进行了基础引擎的优化,后续会根据更细节的任务进行进一步探索:
① 解析源说话人中的各种情绪(高兴、悲伤等)和风格(解说、RAP等)并迁移到目标说话人上。
② 对一些哭声、笑声等更加富有人性和情感表达进行声音转换探索。
我们也会针对声音转换支持更多发音人,敬请期待~
我们声音转换的技术目标一直是达到柯南蝴蝶结那样的效果,百变音色,还原说话人的情感/韵律等表现,为各位提供更好更快更便捷的音频产出工具。
悄悄爆料一个好消息:近期我们也会将实时变声应用到直播场景,敬请期待!