前言

音频分离(Audio Separation)技术是现代音频处理领域的重要分支,它能够将一首完整的音乐作品拆解为人声、伴奏、鼓点、贝斯等独立的音轨,为音乐制作、翻唱创作、卡拉OK制作、音频修复等场景提供了强大的技术支撑。随着深度学习技术的快速发展,音频分离的质量已经达到了专业级水平,越来越多的创作者和开发者开始关注和使用这项技术。

Audio Separator插图

Audio Separator 是一款功能强大的开源音频分离工具,它集成了多种主流的深度学习模型架构,支持从简单的人声/伴奏分离到复杂的多声部提取。无论你是音乐爱好者、专业制作人还是开发者,都能在 Audio Separator 中找到适合自己需求的模型。

本文档将全面介绍 Audio Separator 支持的所有模型,按架构分类详细说明每个系列和型号的特点、性能指标及适用场景。我们还提供了实用的模型选择指南和使用建议,帮助你快速找到最适合的解决方案。

阅读指南:如果你是新手,建议先阅读「模型架构概览」和「模型选择指南」部分,快速了解各架构特点;如果你有明确的使用场景,可以直接跳转到对应的模型系列查看详细参数。


一、模型架构概览

Audio Separator 支持四大主流模型架构,每种架构都有其独特的优势和适用场景。了解这些架构的特点,是选择合适模型的第一步。

架构 文件格式 质量等级 速度 核心特点
VR .pth 中等 经典架构,处理速度快,适合批量处理
MDX .onnx 中等 平衡质量与速度,人声分离效果优秀
Demucs .yaml 中等 Meta开发,支持多声部分离(最多6声部)
MDXC .ckpt 极高 较慢 最新架构,质量最高,专业级分离效果

1.1 SDR 分数说明

SDR(Signal-to-Distortion Ratio,信号失真比)是衡量音频分离质量的核心指标,分数越高表示分离质量越好,残留的干扰越少。

  • SDR 10+:优秀质量,满足大多数日常使用需求
  • SDR 12+:极高质量,专业制作级别
  • SDR 15+:顶级质量(通常用于伴奏提取)
  • SDR 20+:专业级质量(通常用于去噪、去混响等特殊处理)

二、VR 架构模型

VR(Vocal Remover)架构是较早的音频分离模型架构,主要用于人声/伴奏分离。模型文件格式为 .pth,处理速度较快,但质量相对较新架构略低。适合对处理速度要求较高、对质量要求适中的场景。

2.1 VR Arch Single Model v5 系列

v5 系列是 VR 架构的最新版本,包含 HP(高性能)、SP(标准性能)、Karaoke(卡拉OK)等多个子系列。

HP 系列(高性能)

HP(High Performance)系列是 VR 架构中的高性能模型,适合追求高质量分离的用户。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
1_HP-UVR.pth 伴奏 7.9 13.7 HP 系列,专注高质量伴奏提取
2_HP-UVR.pth 伴奏 8.2 13.5 HP 系列变体,伴奏质量略低但人声保留更好
3_HP-Vocal-UVR.pth 人声 8.2 14.0 HP Vocal 系列,专注人声提取
4_HP-Vocal-UVR.pth 人声 8.3 13.6 HP Vocal 系列改进版,人声质量最佳
7_HP2-UVR.pth 伴奏 8.3 13.5 HP2 系列,HP 的升级版本
9_HP2-UVR.pth 伴奏 8.0 13.7 HP2 系列最佳伴奏质量

SP 系列(标准性能)

SP(Standard Performance)系列平衡了质量和速度,适合日常使用。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
10_SP-UVR-2B-32000-1.pth 伴奏 7.5 13.3 2B 参数,32kHz 采样率
11_SP-UVR-2B-32000-2.pth 伴奏 7.3 13.8 SP 系列伴奏质量最佳
12_SP-UVR-3B-44100.pth 伴奏 7.5 13.1 3B 参数,44.1kHz 采样率
14_SP-UVR-4B-44100-2.pth 伴奏 8.0 13.5 4B 参数改进版

Karaoke 系列(卡拉OK专用)

专门为制作卡拉OK伴奏设计,强调人声去除效果。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
5_HP-Karaoke-UVR.pth 伴奏 5.2 12.2 卡拉OK专用,强去除人声
6_HP-Karaoke-UVR.pth 伴奏 4.6 13.0 卡拉OK改进版,伴奏质量更高

2.2 VR 音频处理系列

除了人声/伴奏分离,VR 架构还提供了一系列音频处理专用模型,包括去回声、去混响、去噪等功能。

模型文件名 主要输出 特点说明
UVR-De-Echo-Aggressive.pth 无回声 激进模式去回声,适合严重回声的音频
UVR-De-Echo-Normal.pth 无回声 标准模式去回声,平衡效果和音质
UVR-DeEcho-DeReverb.pth 无混响 同时去除回声和混响
UVR-DeNoise-Lite.pth 噪声 轻量级去噪,保留更多细节
UVR-DeNoise.pth 噪声 标准去噪,平衡效果和音质

2.3 VR Arch Single Model v4 系列

v4 系列是 VR 架构的上一代版本,包含 MGM 系列模型,专注于不同频段的处理。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
MGM_HIGHEND_v4.pth 伴奏 6.9 12.3 专注高频处理
MGM_LOWEND_B_v4.pth 伴奏 7.5 13.1 专注低频处理 B 版
MGM_MAIN_v4.pth 伴奏 6.2 12.4 MGM 主模型,平衡处理

三、MDX 架构模型

MDX-Net 是较新的架构,使用 ONNX 格式(.onnx),质量比 VR 架构更高,SDR 分数通常在 9-15 之间。支持更精细的声部分离,是目前使用最广泛的架构之一。

3.1 MDX-Net Inst HQ 系列(高质量伴奏)

Inst HQ 系列专注于高质量伴奏提取,是制作专业级伴奏的首选。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
UVR-MDX-NET-Inst_HQ_1.onnx 伴奏 8.8 15.4 HQ 系列,高质量伴奏提取
UVR-MDX-NET-Inst_HQ_2.onnx 伴奏 8.8 15.3 HQ 系列变体
UVR-MDX-NET-Inst_HQ_3.onnx 伴奏 8.8 15.4 HQ 系列变体
UVR-MDX-NET-Inst_HQ_4.onnx 伴奏 8.8 15.5 ⭐ HQ 系列最佳伴奏质量
UVR-MDX-NET-Inst_HQ_5.onnx 伴奏 8.7 15.3 HQ 系列变体

推荐:UVR-MDX-NET-Inst_HQ_4.onnx — MDX 架构中伴奏质量最高的模型,SDR 达到 15.5

3.2 MDX-Net Main 系列(人声/伴奏平衡)

Main 系列在人声和伴奏质量之间取得了良好的平衡,适合通用场景。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
UVR_MDXNET_Main.onnx 人声 10.2 15.4 Main 系列,人声质量优秀
UVR-MDX-NET-Inst_Main.onnx 伴奏 8.5 15.1 Main 系列,专注伴奏
UVR-MDX-NET-Voc_FT.onnx 人声 10.2 15.4 Fine-Tuned 版本,人声质量优秀

3.3 MDX-Net Kim 系列

由 Kimberley Jensen 训练的高质量模型系列,在人声和伴奏分离方面都有出色表现。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
Kim_Vocal_1.onnx 人声 10.1 15.5 Kim 系列,人声质量优秀
Kim_Vocal_2.onnx 人声 10.2 15.4 ⭐ Kim 系列改进版
Kim_Inst.onnx 伴奏 9.1 15.5 ⭐ Kim 系列,伴奏质量最高

3.4 MDX-Net Kuielab 系列(多声部分离)

Kuielab 系列支持多声部分离,可以分别提取人声、贝斯、鼓和其他声部。

模型文件名 主要输出 SDR 特点说明
kuielab_a_vocals.onnx 人声 9.6 Kuielab A 系列,人声分离
kuielab_a_bass.onnx 贝斯 10.4 ⭐ Kuielab A 系列,贝斯分离
kuielab_a_drums.onnx 7.0 Kuielab A 系列,鼓分离
kuielab_b_vocals.onnx 人声 9.0 Kuielab B 系列,人声分离
kuielab_b_bass.onnx 贝斯 9.9 Kuielab B 系列,贝斯分离

3.5 MDX-Net VIP 系列(高级模型)

VIP 系列是 MDX 架构中的高级模型,提供了更高质量的分离效果。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
UVR-MDX-NET_Main_340.onnx 人声 10.2 15.4 VIP 系列,Main 340
UVR-MDX-NET_Main_406.onnx 人声 10.4 15.3 ⭐ VIP 系列人声质量最佳
UVR-MDX-NET_Main_427.onnx 人声 10.2 15.5 ⭐ VIP 系列伴奏质量最高
UVR-MDX-NET-Inst_full_292.onnx 伴奏 8.5 15.1 ⭐ VIP 系列,Inst Full 292

3.6 MDX-Net 其他系列

基础系列

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
UVR_MDXNET_1_9703.onnx 人声 9.6 15.0 基础系列 1
UVR_MDXNET_3_9662.onnx 人声 9.7 15.0 基础系列 3,人声质量最佳

Karaoke 系列

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
UVR_MDXNET_KARA_2.onnx 伴奏 5.4 14.8 ⭐ 卡拉OK改进版,伴奏质量更高

特殊用途系列

模型文件名 主要输出 特点说明
Reverb_HQ_By_FoxJoy.onnx 混响 高质量混响分离
UVR-MDX-NET_Crowd_HQ_1.onnx 无人群 去除人群噪音

四、Demucs 架构模型

Demucs v4 是 Meta(Facebook)开发的模型,支持多声部分离(人声、鼓、贝斯、其他等),模型文件格式为 .yaml。质量优秀,特别适合需要分离多个声部的场景。

模型文件名 人声 SDR 鼓 SDR 贝斯 SDR 其他声部 特点说明
htdemucs_ft.yaml 10.8 10.0 12.0 ⭐ Fine-Tuned 版本,贝斯质量最佳
htdemucs.yaml 9.9 9.4 11.6 标准版本,平衡各声部质量
hdemucs_mmi.yaml 10.2 9.6 12.2 ⭐ MMI 版本,贝斯质量最高
htdemucs_6s.yaml 9.6 8.5 10.1 ✅ + 吉他 + 钢琴 ⭐ 6 声部版本,支持吉他和钢琴分离

4.1 系列说明

  • htdemucs:Hybrid Transformer Demucs,使用 Transformer 架构
  • hdemucs:Hybrid Demucs,混合架构
  • 6s:6 stems,支持分离 6 个声部(人声、鼓、贝斯、吉他、钢琴、其他)

4.2 推荐使用场景

  • 需要分离多个声部:使用 htdemucs_6s.yaml(支持6声部)
  • 追求贝斯质量:使用 hdemucs_mmi.yaml(贝斯SDR 12.2)
  • 平衡各声部质量:使用 htdemucs_ft.yaml(综合表现最佳)

五、MDXC 架构模型

MDXC(MDX23C)是目前最新的架构,使用 .ckpt 格式,质量最高。包含 Roformer 系列模型,SDR 分数通常在 10-17 之间,是目前质量最好的模型架构。适合追求极致分离质量的专业用户。

5.1 MDX23C 基础系列

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
MDX23C-8KFFT-InstVoc_HQ.ckpt 人声 10.6 15.8 ⭐ MDX23C HQ 版本,平衡质量
MDX23C-8KFFT-InstVoc_HQ_2.ckpt 人声 10.5 15.9 ⭐ MDX23C HQ 2,伴奏质量最高

5.2 BS-Roformer 系列(最佳人声质量)

BS-Roformer 系列是目前人声分离质量最高的模型,是专业人声提取的首选。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
model_bs_roformer_ep_317_sdr_12.9755.ckpt 人声 12.9755 16.5 ⭐⭐⭐ 目前人声分离质量最高的模型
model_bs_roformer_ep_368_sdr_12.9628.ckpt 人声 12.9628 16.3 ⭐⭐⭐ BS-Roformer 368,人声质量极高

最佳人声模型推荐:model_bs_roformer_ep_317_sdr_12.9755.ckpt — 人声 SDR 高达 12.9755,是目前所有模型中人声分离质量最高的选择。

5.3 Mel-Roformer 系列

模型文件名 主要输出 人声 SDR 特点说明
vocals_mel_band_roformer.ckpt 人声 12.6 ⭐⭐ Kimberley Jensen 训练,人声质量优秀
mel_band_roformer_kim_ft_unwa.ckpt 人声 12.4 ⭐ Kim Fine-Tuned 版本
model_mel_band_roformer_ep_3005_sdr_11.4360.ckpt 人声 11.4360 Mel-Roformer 基础版本

5.4 MelBand Roformer Inst 系列(高质量伴奏)

专注于高质量伴奏提取的系列模型。

模型文件名 主要输出 人声 SDR 伴奏 SDR 特点说明
melband_roformer_inst_v2.ckpt 伴奏 10.3 16.1 ⭐⭐ Inst V2,伴奏质量最高
melband_roformer_inst_v1.ckpt 伴奏 9.8 15.9 ⭐ Inst V1,伴奏质量优秀
melband_roformer_instvoc_duality_v1.ckpt 人声 11.0 16.1 ⭐ Duality V1,平衡人声和伴奏

5.5 MelBand Roformer Big 系列(大模型)

大参数量的高质量模型系列,适合追求极致质量的用户。

模型文件名 主要输出 人声 SDR 特点说明
melband_roformer_big_beta4.ckpt 人声 12.5 ⭐⭐ Big Beta 4,大模型高质量
MelBandRoformerBigSYHFTV1.ckpt 人声 12.3 ⭐⭐ Big SYHFT V1,大模型高质量

5.6 MDXC 特殊用途系列

去混响系列

模型文件名 主要输出 SDR 特点说明
dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckpt 无混响 19.17 ⭐⭐ 高质量去混响
dereverb_mel_band_roformer_less_aggressive_anvuew_sdr_18.8050.ckpt 无混响 18.81 ⭐ 温和去混响
dereverb-echo_mel_band_roformer_sdr_13.4843_v2.ckpt 干声 13.48 ⭐ 去混响+去回声 V2

去噪系列

模型文件名 主要输出 SDR 特点说明
denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt 干声 27.99 ⭐⭐⭐ 高质量去噪,专业级
denoise_mel_band_roformer_aufr33_aggr_sdr_27.9768.ckpt 干声 27.98 ⭐⭐⭐ 激进模式去噪

其他特殊用途

模型文件名 主要输出 特点说明
MDX23C-DrumSep-aufr33-jarredou.ckpt 6 种鼓 ⭐ 分离 6 种鼓:kick, snare, toms, hh, ride, crash
model_chorus_bs_roformer_ep_267_sdr_24.1275.ckpt 男声/女声 ⭐ 分离男声和女声
mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956.ckpt 人声 ⭐ 卡拉OK专用
aspiration_mel_band_roformer_sdr_18.9845.ckpt 呼吸声 分离呼吸声和其他声音
mel_band_roformer_bleed_suppressor_v1.ckpt 伴奏 抑制人声泄漏到伴奏中

5.7 Gabox 系列

Gabox 训练了大量 MelBand Roformer 变体,包括多个版本的 Vocals 和 Instrumental 模型。这些模型的特点和 SDR 分数未完全公开,建议通过实际测试选择最适合的版本。

Vocals 系列:

  • mel_band_roformer_vocals_gabox.ckpt
  • mel_band_roformer_vocals_v2_gabox.ckpt
  • mel_band_roformer_vocals_fv1_gabox.ckpt ~ fv6_gabox.ckpt(多个版本)

Instrumental 系列:

  • mel_band_roformer_instrumental_gabox.ckpt
  • mel_band_roformer_instrumental_2_gabox.ckpt ~ 3_gabox.ckpt
  • mel_band_roformer_instrumental_bleedless_v1/v2/v3_gabox.ckpt(无泄漏版本)
  • mel_band_roformer_instrumental_fullness_v1/v2/v3_gabox.ckpt(饱满度版本)
  • mel_band_roformer_instrumental_instv5/v6/v7/v8_gabox.ckpt(INSTV 系列)

六、模型选择指南

6.1 按用途选择

用途 推荐模型 架构 理由
人声分离(最高质量) model_bs_roformer_ep_317_sdr_12.9755.ckpt MDXC SDR 12.9755,目前最高
伴奏分离(最高质量) melband_roformer_inst_v2.ckpt MDXC SDR 16.1,伴奏质量最高
平衡人声和伴奏 MDX23C-8KFFT-InstVoc_HQ_2.ckpt MDXC 人声 10.5,伴奏 15.9
多声部分离 htdemucs_6s.yaml Demucs 支持 6 个声部(人声、鼓、贝斯、吉他、钢琴、其他)
卡拉OK伴奏制作 UVR_MDXNET_KARA_2.onnx MDX 强去除人声,伴奏 SDR 14.8
去噪 denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt MDXC SDR 27.99,去噪效果极佳
去混响 dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckpt MDXC SDR 19.17,去混响效果优秀
鼓分离 MDX23C-DrumSep-aufr33-jarredou.ckpt MDXC 分离 6 种鼓声部

6.2 按架构选择

架构 特点 适用场景
VR 速度快,质量中等 快速处理,对质量要求不高,批量处理
MDX 质量高,速度中等 平衡质量和速度,日常使用
Demucs 多声部分离,质量优秀 需要分离多个声部,音乐制作
MDXC 质量最高,速度较慢 追求最高质量,专业级应用

七、使用建议与最佳实践

7.1 新手入门建议

  1. 首次使用:建议从 model_bs_roformer_ep_317_sdr_12.9755.ckpt 开始,这是目前人声分离质量最高的模型
  2. 先试听再决定:不同的歌曲可能适合不同的模型,建议先用短片段测试效果
  3. 从高质量音频开始:输入音频质量越高,分离效果越好,建议使用无损格式(WAV、FLAC)

7.2 批量处理建议

  • 如果处理大量文件,可以考虑使用 MDX 架构模型,平衡质量和速度
  • VR 架构速度最快,适合对质量要求不高的大批量处理
  • MDXC 架构质量最高但速度较慢,适合对质量有严格要求的场景

7.3 多声部分离建议

  • 需要分离多个声部时,使用 Demucs 模型(如 htdemucs_6s.yaml
  • 如果只需要人声和伴奏,MDX 或 MDXC 架构通常效果更好
  • 可以组合使用多个模型,例如先用 Demucs 分离鼓和贝斯,再用 MDXC 提取人声

7.4 特殊处理建议

  • 去噪:对于有背景噪声的音频,先使用去噪模型处理,再进行人声/伴奏分离
  • 去混响:对于有混响的现场录音,先去混响再分离,效果会更好
  • 多次分离:对于特别复杂的音频,可以尝试多次分离,每次使用不同的模型

结语

Audio Separator 提供了丰富的模型选择,从快速的 VR 架构到专业级的 MDXC 架构,满足了不同用户的需求。选择合适的模型取决于你的具体使用场景、对质量的要求以及硬件条件。

希望本文档能帮助你更好地了解和使用 Audio Separator 的各种模型。随着技术的不断发展,新的模型和架构还会不断涌现,建议关注官方更新,及时体验最新的音频分离技术。

如果你是开发者,还可以基于 Audio Separator 开发自己的音频处理应用,将这项强大的技术集成到你的产品中。音频分离技术的应用前景非常广阔,期待看到更多创新的使用方式。

提示:本文档基于 Audio Separator 最新模型列表整理,模型数量和参数可能会随版本更新而变化,请以官方文档为准。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。