0
0

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

魔音工坊
2022-09-19
136
shoptop 【建站扶持计划】

免订阅费,免费SEO与代建站,16大主流媒体免费开户

   立即查看>>

大数跨境
导读:全新升级「风格检索」,准确率可以达到95%以上!
魔音工坊是一款短视频达人联袂推荐的AI配音神器,可一键将文本转换为音频。它能帮助用户快速、高效地制作高质量的音频,从而给短视频、有声书等高效配音。在魔音工坊的声音商店中,已有近五百个发音人可供魔友选择。

随着越来越多的发音人上线,大家在选择配音员时会不会有选择困难症?或者听到一个自己很喜欢的声音,却不知道是声音商店中的哪一位发音人?想必魔友们都遇到过类似的问题:

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

为方便魔友快速准确地定位到相似声音的发音人,魔音工坊已行业首发上线了声音搜索功能,并且给它取了一个贴切的名字——听声识人。

它可以根据音视频片段或者短视频链接,实现相似声音的发音人检索。近期我们对发音人搜索功能进行了迭代升级,即将上线「风格检索」能力,本篇文章将为魔友们介绍听声识人的使用效果及工作原理。

听声识人功能介绍

听声识人,顾名思义只需要将你喜欢的声音传入魔音后台,便可找到想要的发音人。我们从声音商店的众多发音人中,找到三个与之声音最接近的发音人作为结果展现。先通过短片,快速了解听声识人功能:

不管是在魔音工坊电脑端还是手机端,都可使用听声识人功能。只需要先复制短视频链接即可搜索声音,一起来学习一下:
1
电脑端

在魔音工坊官网,支持复制短视频链接和上传音频文件两种方式来搜索声音。如图所示,先点击官网上方搜索框中的按钮。

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

再粘贴短视频链接或上传音视频文件(这里仅展示链接操作),最后点击开始搜索。

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

相似发音人的搜索结果如下:

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!
2
小程序

前往微信搜索「魔音工坊配音助手」小程序,打开并登录后点击页面下方的“声音”,再点击页面左上角的音符图标,在弹窗中粘贴好短视频链接,最后点击「开始搜索」按钮进行搜索。

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

相似发音人的搜索结果如下:

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!
3
APP

安卓手机请在应用市场下载安装「魔音工坊」APP,打开并登录后点击页面下方的“声音”,再点击页面左上角的音符图标,在弹窗中粘贴好短视频链接,最后点击「开始搜索」按钮进行搜索。

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

听声识人风格检索

随着魔音工坊发音人的优化升级,多种情感和风格的加入增加了声音辨识的难度,普通人很难听出这些风格的细分差异。例如魔音工坊明星声音「满超ZN」拥有20多种风格,并在不断增加中。

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

为了让广大魔友能更方便快捷地找到某位发音人的具体风格,魔音工坊近期将上线风格检索能力,能一步定位到具体发音人的特定风格,准确率达95%以上。
听声识人
技术原理

魔音工坊的听声识人功能是基于自研声纹系统MoSE(Mobvoi Speaker Engine),采用端到端声纹模型对音频编码,再将编码后的结果与魔音工坊的发音人编码进行比较,选出得分最高的前三名作为最相似的发音人结果。该方法和传统的声纹识别相比,不仅减少了步骤,还提升了准确率和响应速度。模型是以卷积网络为基础,引入在视觉领域已经成功运用的残差网络和self-attention-pooling机制。下图为声音搜索的工作流程:

1. 将原始音频输入到系统中后,先对音频信号进行分帧操作,将原始音频以25ms为一帧,10ms帧偏移分割开来,然后将其送入特征提取模块当中。

2. 对每一帧音频数据做特征提取,提取的特征采用Fbank。

3. 将每一帧的特征提取数据送入声纹模型当中,模型会对其进行编码。之前较为流行的神经网络声纹模型结构有d-vector、x-vector,我们的模型基于ECAPA-TDNN,它在x-vector的基础上,使用Attentive Stat Pooling结构来代替传统的统计池化操作。将SE-Block和Res2Block结合起来作为SE-Res2Block结构引入模型当中,该结构已经在图像分割领域有着成功的运用,最后用残差连接将上述三种结构接连,并将结果拼接,送入池化层中。下图为网络结构的示意图:

4. 将embedding模型输出的编码结果和库中注册发音人编码进行相似度打分并排序召回,同时结合性别、年龄及分类检测结果,通过综合排序和过滤等后处理后,得到最相近的三个结果作为搜索结果。

目前,即使待搜索的音视频中含有较大音量的音乐伴奏,MoSE系统也能发挥良好的性能。在内部短视频测试集中,听声识人的TOP1和TOP3结果的准确率分别达到了92.7%和98.9%,每天为1000多的魔友解决了找声音的困扰。

在听声识人研发的过程中,我们也发现了不少有意思的事情(下图中距离越近的发音人,则声音越相似):让程序员小哥傻傻分不清的魔千雪和魔玲珑,MoSE系统检测出她俩原来是同一人;由同一个主播录制的魔佐伊和魔小禅,在图中位置很靠近,但听感上却差异明显。

魔音分享 | 「听声识人」一秒钟找到你想要的好声音!

如果你从上图中还发现了什么有趣的现象,欢迎私信告诉我们。

看完了整篇文章,相信大家已经迫不及待地想尝试「听声识人」功能了,快来魔音工坊体验吧!

文章来源:【魔音工坊】公众号
【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:contact@10100.com
0
0
魔音工坊
魔音工坊配音神器,让配音更简单。
内容 432
粉丝 1
咨询
关注
魔音工坊 魔音工坊配音神器,让配音更简单。
总阅读39.9k
粉丝1
内容432
咨询
关注