随着越来越多的发音人上线,大家在选择配音员时会不会有选择困难症?或者听到一个自己很喜欢的声音,却不知道是声音商店中的哪一位发音人?想必魔友们都遇到过类似的问题:
为方便魔友快速准确地定位到相似声音的发音人,魔音工坊已行业首发上线了声音搜索功能,并且给它取了一个贴切的名字——听声识人。
听声识人功能介绍
听声识人,顾名思义只需要将你喜欢的声音传入魔音后台,便可找到想要的发音人。我们从声音商店的众多发音人中,找到三个与之声音最接近的发音人作为结果展现。先通过短片,快速了解听声识人功能:
在魔音工坊官网,支持复制短视频链接和上传音频文件两种方式来搜索声音。如图所示,先点击官网上方搜索框中的按钮。
再粘贴短视频链接或上传音视频文件(这里仅展示链接操作),最后点击开始搜索。
相似发音人的搜索结果如下:
前往微信搜索「魔音工坊配音助手」小程序,打开并登录后点击页面下方的“声音”,再点击页面左上角的音符图标,在弹窗中粘贴好短视频链接,最后点击「开始搜索」按钮进行搜索。
相似发音人的搜索结果如下:
安卓手机请在应用市场下载安装「魔音工坊」APP,打开并登录后点击页面下方的“声音”,再点击页面左上角的音符图标,在弹窗中粘贴好短视频链接,最后点击「开始搜索」按钮进行搜索。
听声识人风格检索
随着魔音工坊发音人的优化升级,多种情感和风格的加入增加了声音辨识的难度,普通人很难听出这些风格的细分差异。例如魔音工坊明星声音「满超ZN」拥有20多种风格,并在不断增加中。
魔音工坊的听声识人功能是基于自研声纹系统MoSE(Mobvoi Speaker Engine),采用端到端声纹模型对音频编码,再将编码后的结果与魔音工坊的发音人编码进行比较,选出得分最高的前三名作为最相似的发音人结果。该方法和传统的声纹识别相比,不仅减少了步骤,还提升了准确率和响应速度。模型是以卷积网络为基础,引入在视觉领域已经成功运用的残差网络和self-attention-pooling机制。下图为声音搜索的工作流程:
1. 将原始音频输入到系统中后,先对音频信号进行分帧操作,将原始音频以25ms为一帧,10ms帧偏移分割开来,然后将其送入特征提取模块当中。
2. 对每一帧音频数据做特征提取,提取的特征采用Fbank。
3. 将每一帧的特征提取数据送入声纹模型当中,模型会对其进行编码。之前较为流行的神经网络声纹模型结构有d-vector、x-vector,我们的模型基于ECAPA-TDNN,它在x-vector的基础上,使用Attentive Stat Pooling结构来代替传统的统计池化操作。将SE-Block和Res2Block结合起来作为SE-Res2Block结构引入模型当中,该结构已经在图像分割领域有着成功的运用,最后用残差连接将上述三种结构接连,并将结果拼接,送入池化层中。下图为网络结构的示意图:
4. 将embedding模型输出的编码结果和库中注册发音人编码进行相似度打分并排序召回,同时结合性别、年龄及分类检测结果,通过综合排序和过滤等后处理后,得到最相近的三个结果作为搜索结果。
目前,即使待搜索的音视频中含有较大音量的音乐伴奏,MoSE系统也能发挥良好的性能。在内部短视频测试集中,听声识人的TOP1和TOP3结果的准确率分别达到了92.7%和98.9%,每天为1000多的魔友解决了找声音的困扰。
在听声识人研发的过程中,我们也发现了不少有意思的事情(下图中距离越近的发音人,则声音越相似):让程序员小哥傻傻分不清的魔千雪和魔玲珑,MoSE系统检测出她俩原来是同一人;由同一个主播录制的魔佐伊和魔小禅,在图中位置很靠近,但听感上却差异明显。
如果你从上图中还发现了什么有趣的现象,欢迎私信告诉我们。
看完了整篇文章,相信大家已经迫不及待地想尝试「听声识人」功能了,快来魔音工坊体验吧!