字节博士搞的AI火了,一键完美分离人声和伴奏 | 在线可玩
博雯发自凹非寺量子位报道公众号QbitAI写歌填词、改换风格、续写音乐的AI,今天又来做编曲人了!上传一段《Stay》,一键按下:伴奏和人声就轻松分离:(点击文末链接听分离得到的人声、伴奏音频)人声颇有种在空旷地带清唱的清晰感,背景乐都能直接拿去做混剪了!这样惊人的效果也引发了R
博雯发自凹非寺
量子位报道公众号 QbitAI
写歌填词、改换风格、续写音乐的 AI,今天又来做编曲人了!
上传一段《Stay》,一键按下:
伴奏和人声就轻松分离:
(点击文末链接听分离得到的人声、伴奏音频)
人声颇有种在空旷地带清唱的清晰感,背景乐都能直接拿去做混剪了!
这样惊人的效果也引发了 Reddit 热议:
这项研究的主要负责人孔秋强来自字节跳动,全球最大的古典钢琴数据集 GiantMIDI-Piano,也是由他在去年牵头发布的。
那么今天,他又带来了怎样的一个 AI 音乐家呢?
一起来看看。
基于深度残差网络的音源分离
这是一个包含了相位估计的音乐源分离(MSS)系统。
首先,将幅值(Magnitude)与相位(Phase)解耦,用以估计复数理想比例掩码(cIRM)。
其次,为了实现更灵活的幅值估计,将有界掩码估计和直接幅值预测结合起来。
最后,为 MSS 系统引入一个143层的深度残差网络(Deep Residual UNets),利用残差编码块(REB)和残差解码块(RDB)来增加其深度:
残差编码块和残差卷积块中间还引入了中间卷积块(ICB),以提高残差网络的表达能力。
其中每个残差编码块由 4 个残差卷积块(RCB)组成,残差卷积块又由两个核大小为3×3 的卷积层组成。
每个残差解码块由 8 个卷积层和 1 个反卷积层组成。
实验结果
接下来,将这一系统在 MUSDB18 数据集上进行实验。
MUSDB18 中的训练/验证集分别包含 100/50 个完整的立体声音轨,包括独立的人声、伴奏、低音、鼓和其他乐器。
在训练时,利用上述系统进行并行的混合音频数据增强,随机混合来自同一来源的两个 3 秒片段,然后作为一个新的 3 秒片段进行训练。
以信号失真率(SDR)作为评判标准,可以看到 ResUNetDecouple 系统在分离人声、低音、其他和伴奏方面明显优于以前的方法:
在消融实验中,143 层残差网络的表现也证实了,结合有界掩码估计和直接幅值预测确实能够改善声音源分离系统的性能。
作者介绍
这项研究的论文一作为孔秋强,本硕都毕业于华南理工大学,博士则毕业于英国萨里大学的电子信息工程专业。
他在 2019 年加入字节跳动的 Speech, Audio and Music Intelligence 研究小组,主要负责音频信号处理和声音事件检测等领域的研究。
论文:
https://arxiv.org/abs/2109.05418
试玩:
https://huggingface.co/spaces/akhaliq/Music_Source_Separation
开源地址:
https://github.com/bytedance/music_source_separation
试听链接:
相关文章:
- 信用卡 PIN 码很容易猜测
- 神经元簇发能模拟 AI 学习策略
- 蜘蛛丝可能根本不具有抗菌性质
- 佳能因禁止无墨水打印机扫描被起诉
- DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
- 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
- 格芯提交上市申请IPO,筹资约26亿美元
- 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
- 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
- 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
- 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
- DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
- 多位游戏巨头联合希望美国政府监管盗版和作弊网站
- Google Play Data Safety开始接受开发者申请:2022年将强制执行
- 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
发表回复