汽车人机对话、地图语音导航... 语音合成技术已融入生活的方方面面。能“读”出来不难,如何 有感情 的“读”,如 真人对话般 的“读”,一直是出门问问「魔音工坊」团队深耕的课题。
今天,我们隆重为大家介绍两项研究成果:重读、拖音,它们是 MeetVoice家族 中的新成员 MeetEmphaticVoice 技术。
01
重读、拖音的技术介绍
重音(含重读、拖音等)是语言最重要的韵律特征之一,是语义上着重、强调和聚焦的一种手段。在语音中,重音的特征表现在音域加宽、音程加大,其次是气流加强。音调(pitch)和时长(duration)为重音的两个关键因素,即表现为音调加强和时长拉伸。
语音中,适时的、不同程度的添加重音,可以丰富情感、突出重点,大大提高合成语音的自然度和表现力。不同的重音位置,会表达出不同的信息内容。
如下表,在相同文本中添加不同位置的重音,所传达的信息会有所不同。
重音词 | 文本 | 强调信息 |
我 | 今天 我 不去苏州。 | 强调我不去,可能别人去。 |
今天 | 今天 我不去苏州。 | 强调今天不去,可能其他时间去。 |
不去 | 今天我 不去 苏州。 | 强调“不去”,加强语气。 |
苏州 | 今天我不去 苏州 。 | 强调不去“苏州”,可能去别的地方。 |
基于重音的发音特征,我们对其进行了细粒度分类,将音调加强和时长拉伸分开后,得到3种强调组合:重读、拖音、重读+拖音。
重音分类 | 特征表现 |
重读 | 音调加强 |
拖音 | 时长拉升 |
重读+拖音 | 音调加强,且时长拉升 |
02
重读、拖音的技术实现
我们对MeetVoice框架进行了升级,支持了重读/拖音/重读+拖音功能,用户通过显式控制,能够实现不同程度的重音效果,详细技术框架如下:
从上图可以看出,参数控制可以明显修改时长、音调等影响重音的关键数据。
03
重读、拖音的产品使用
最终得到4种不同语气的配音:
默认效果:
重读效果:
拖音效果:
重读+拖音效果:
目前重读、拖音功能已适配部分发音人,更多发音人陆续适配中...
04
总结与展望
从声音转换、48K...再到重读、拖音,MeetVoice家族诞生出众多首发的AI语音技术。重音的加入,让魔音工坊的用户体验到更富有情感的AI配音。
当然,魔音团队不会止步于此,我们仍继续探索更高清、更好听的模型,能更好的还原发音人的音色、韵律等。魔音工坊很快就要上线全新模型了,敬请期待!
我们的目标:
用MeetVoice家族助力广大配音用户,让创作者能自主可控(韵律、情感、语调、方言、语种等)地在魔音工坊合成高清优质的音频内容!