前言

音频分离（Audio Separation）技术是现代音频处理领域的重要分支，它能够将一首完整的音乐作品拆解为人声、伴奏、鼓点、贝斯等独立的音轨，为音乐制作、翻唱创作、卡拉OK制作、音频修复等场景提供了强大的技术支撑。随着深度学习技术的快速发展，音频分离的质量已经达到了专业级水平，越来越多的创作者和开发者开始关注和使用这项技术。

Audio Separator 是一款功能强大的开源音频分离工具，它集成了多种主流的深度学习模型架构，支持从简单的人声/伴奏分离到复杂的多声部提取。无论你是音乐爱好者、专业制作人还是开发者，都能在 Audio Separator 中找到适合自己需求的模型。

本文档将全面介绍 Audio Separator 支持的所有模型，按架构分类详细说明每个系列和型号的特点、性能指标及适用场景。我们还提供了实用的模型选择指南和使用建议，帮助你快速找到最适合的解决方案。

阅读指南：如果你是新手，建议先阅读「模型架构概览」和「模型选择指南」部分，快速了解各架构特点；如果你有明确的使用场景，可以直接跳转到对应的模型系列查看详细参数。

一、模型架构概览

Audio Separator 支持四大主流模型架构，每种架构都有其独特的优势和适用场景。了解这些架构的特点，是选择合适模型的第一步。

架构	文件格式	质量等级	速度	核心特点
VR	.pth	中等	快	经典架构，处理速度快，适合批量处理
MDX	.onnx	高	中等	平衡质量与速度，人声分离效果优秀
Demucs	.yaml	高	中等	Meta开发，支持多声部分离（最多6声部）
MDXC	.ckpt	极高	较慢	最新架构，质量最高，专业级分离效果

1.1 SDR 分数说明

SDR（Signal-to-Distortion Ratio，信号失真比）是衡量音频分离质量的核心指标，分数越高表示分离质量越好，残留的干扰越少。

SDR 10+：优秀质量，满足大多数日常使用需求
SDR 12+：极高质量，专业制作级别
SDR 15+：顶级质量（通常用于伴奏提取）
SDR 20+：专业级质量（通常用于去噪、去混响等特殊处理）

二、VR 架构模型

VR（Vocal Remover）架构是较早的音频分离模型架构，主要用于人声/伴奏分离。模型文件格式为 .pth，处理速度较快，但质量相对较新架构略低。适合对处理速度要求较高、对质量要求适中的场景。

2.1 VR Arch Single Model v5 系列

v5 系列是 VR 架构的最新版本，包含 HP（高性能）、SP（标准性能）、Karaoke（卡拉OK）等多个子系列。

HP 系列（高性能）

HP（High Performance）系列是 VR 架构中的高性能模型，适合追求高质量分离的用户。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
1_HP-UVR.pth	伴奏	7.9	13.7	HP 系列，专注高质量伴奏提取
2_HP-UVR.pth	伴奏	8.2	13.5	HP 系列变体，伴奏质量略低但人声保留更好
3_HP-Vocal-UVR.pth	人声	8.2	14.0	HP Vocal 系列，专注人声提取
4_HP-Vocal-UVR.pth	人声	8.3	13.6	HP Vocal 系列改进版，人声质量最佳
7_HP2-UVR.pth	伴奏	8.3	13.5	HP2 系列，HP 的升级版本
9_HP2-UVR.pth	伴奏	8.0	13.7	HP2 系列最佳伴奏质量

SP 系列（标准性能）

SP（Standard Performance）系列平衡了质量和速度，适合日常使用。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
10_SP-UVR-2B-32000-1.pth	伴奏	7.5	13.3	2B 参数，32kHz 采样率
11_SP-UVR-2B-32000-2.pth	伴奏	7.3	13.8	SP 系列伴奏质量最佳
12_SP-UVR-3B-44100.pth	伴奏	7.5	13.1	3B 参数，44.1kHz 采样率
14_SP-UVR-4B-44100-2.pth	伴奏	8.0	13.5	4B 参数改进版

Karaoke 系列（卡拉OK专用）

专门为制作卡拉OK伴奏设计，强调人声去除效果。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
5_HP-Karaoke-UVR.pth	伴奏	5.2	12.2	卡拉OK专用，强去除人声
6_HP-Karaoke-UVR.pth	伴奏	4.6	13.0	卡拉OK改进版，伴奏质量更高

2.2 VR 音频处理系列

除了人声/伴奏分离，VR 架构还提供了一系列音频处理专用模型，包括去回声、去混响、去噪等功能。

模型文件名	主要输出	特点说明
UVR-De-Echo-Aggressive.pth	无回声	激进模式去回声，适合严重回声的音频
UVR-De-Echo-Normal.pth	无回声	标准模式去回声，平衡效果和音质
UVR-DeEcho-DeReverb.pth	无混响	同时去除回声和混响
UVR-DeNoise-Lite.pth	噪声	轻量级去噪，保留更多细节
UVR-DeNoise.pth	噪声	标准去噪，平衡效果和音质

2.3 VR Arch Single Model v4 系列

v4 系列是 VR 架构的上一代版本，包含 MGM 系列模型，专注于不同频段的处理。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
MGM_HIGHEND_v4.pth	伴奏	6.9	12.3	专注高频处理
MGM_LOWEND_B_v4.pth	伴奏	7.5	13.1	专注低频处理 B 版
MGM_MAIN_v4.pth	伴奏	6.2	12.4	MGM 主模型，平衡处理

三、MDX 架构模型

MDX-Net 是较新的架构，使用 ONNX 格式（.onnx），质量比 VR 架构更高，SDR 分数通常在 9-15 之间。支持更精细的声部分离，是目前使用最广泛的架构之一。

3.1 MDX-Net Inst HQ 系列（高质量伴奏）

Inst HQ 系列专注于高质量伴奏提取，是制作专业级伴奏的首选。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
UVR-MDX-NET-Inst_HQ_1.onnx	伴奏	8.8	15.4	HQ 系列，高质量伴奏提取
UVR-MDX-NET-Inst_HQ_2.onnx	伴奏	8.8	15.3	HQ 系列变体
UVR-MDX-NET-Inst_HQ_3.onnx	伴奏	8.8	15.4	HQ 系列变体
UVR-MDX-NET-Inst_HQ_4.onnx	伴奏	8.8	15.5	⭐ HQ 系列最佳伴奏质量
UVR-MDX-NET-Inst_HQ_5.onnx	伴奏	8.7	15.3	HQ 系列变体

推荐：UVR-MDX-NET-Inst_HQ_4.onnx — MDX 架构中伴奏质量最高的模型，SDR 达到 15.5

3.2 MDX-Net Main 系列（人声/伴奏平衡）

Main 系列在人声和伴奏质量之间取得了良好的平衡，适合通用场景。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
UVR_MDXNET_Main.onnx	人声	10.2	15.4	Main 系列，人声质量优秀
UVR-MDX-NET-Inst_Main.onnx	伴奏	8.5	15.1	Main 系列，专注伴奏
UVR-MDX-NET-Voc_FT.onnx	人声	10.2	15.4	Fine-Tuned 版本，人声质量优秀

3.3 MDX-Net Kim 系列

由 Kimberley Jensen 训练的高质量模型系列，在人声和伴奏分离方面都有出色表现。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
Kim_Vocal_1.onnx	人声	10.1	15.5	Kim 系列，人声质量优秀
Kim_Vocal_2.onnx	人声	10.2	15.4	⭐ Kim 系列改进版
Kim_Inst.onnx	伴奏	9.1	15.5	⭐ Kim 系列，伴奏质量最高

3.4 MDX-Net Kuielab 系列（多声部分离）

Kuielab 系列支持多声部分离，可以分别提取人声、贝斯、鼓和其他声部。

模型文件名	主要输出	SDR	特点说明
kuielab_a_vocals.onnx	人声	9.6	Kuielab A 系列，人声分离
kuielab_a_bass.onnx	贝斯	10.4	⭐ Kuielab A 系列，贝斯分离
kuielab_a_drums.onnx	鼓	7.0	Kuielab A 系列，鼓分离
kuielab_b_vocals.onnx	人声	9.0	Kuielab B 系列，人声分离
kuielab_b_bass.onnx	贝斯	9.9	Kuielab B 系列，贝斯分离

3.5 MDX-Net VIP 系列（高级模型）

VIP 系列是 MDX 架构中的高级模型，提供了更高质量的分离效果。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
UVR-MDX-NET_Main_340.onnx	人声	10.2	15.4	VIP 系列，Main 340
UVR-MDX-NET_Main_406.onnx	人声	10.4	15.3	⭐ VIP 系列人声质量最佳
UVR-MDX-NET_Main_427.onnx	人声	10.2	15.5	⭐ VIP 系列伴奏质量最高
UVR-MDX-NET-Inst_full_292.onnx	伴奏	8.5	15.1	⭐ VIP 系列，Inst Full 292

3.6 MDX-Net 其他系列

基础系列

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
UVR_MDXNET_1_9703.onnx	人声	9.6	15.0	基础系列 1
UVR_MDXNET_3_9662.onnx	人声	9.7	15.0	基础系列 3，人声质量最佳

Karaoke 系列

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
UVR_MDXNET_KARA_2.onnx	伴奏	5.4	14.8	⭐ 卡拉OK改进版，伴奏质量更高

特殊用途系列

模型文件名	主要输出	特点说明
Reverb_HQ_By_FoxJoy.onnx	混响	高质量混响分离
UVR-MDX-NET_Crowd_HQ_1.onnx	无人群	去除人群噪音

四、Demucs 架构模型

Demucs v4 是 Meta（Facebook）开发的模型，支持多声部分离（人声、鼓、贝斯、其他等），模型文件格式为 .yaml。质量优秀，特别适合需要分离多个声部的场景。

模型文件名	人声 SDR	鼓 SDR	贝斯 SDR	其他声部	特点说明
htdemucs_ft.yaml	10.8	10.0	12.0	✅	⭐ Fine-Tuned 版本，贝斯质量最佳
htdemucs.yaml	9.9	9.4	11.6	✅	标准版本，平衡各声部质量
hdemucs_mmi.yaml	10.2	9.6	12.2	✅	⭐ MMI 版本，贝斯质量最高
htdemucs_6s.yaml	9.6	8.5	10.1	✅ + 吉他 + 钢琴	⭐ 6 声部版本，支持吉他和钢琴分离

4.1 系列说明

htdemucs：Hybrid Transformer Demucs，使用 Transformer 架构
hdemucs：Hybrid Demucs，混合架构
6s：6 stems，支持分离 6 个声部（人声、鼓、贝斯、吉他、钢琴、其他）

4.2 推荐使用场景

需要分离多个声部：使用 htdemucs_6s.yaml（支持6声部）
追求贝斯质量：使用 hdemucs_mmi.yaml（贝斯SDR 12.2）
平衡各声部质量：使用 htdemucs_ft.yaml（综合表现最佳）

五、MDXC 架构模型

MDXC（MDX23C）是目前最新的架构，使用 .ckpt 格式，质量最高。包含 Roformer 系列模型，SDR 分数通常在 10-17 之间，是目前质量最好的模型架构。适合追求极致分离质量的专业用户。

5.1 MDX23C 基础系列

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
MDX23C-8KFFT-InstVoc_HQ.ckpt	人声	10.6	15.8	⭐ MDX23C HQ 版本，平衡质量
MDX23C-8KFFT-InstVoc_HQ_2.ckpt	人声	10.5	15.9	⭐ MDX23C HQ 2，伴奏质量最高

5.2 BS-Roformer 系列（最佳人声质量）

BS-Roformer 系列是目前人声分离质量最高的模型，是专业人声提取的首选。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
model_bs_roformer_ep_317_sdr_12.9755.ckpt	人声	12.9755	16.5	⭐⭐⭐ 目前人声分离质量最高的模型
model_bs_roformer_ep_368_sdr_12.9628.ckpt	人声	12.9628	16.3	⭐⭐⭐ BS-Roformer 368，人声质量极高

最佳人声模型推荐：model_bs_roformer_ep_317_sdr_12.9755.ckpt — 人声 SDR 高达 12.9755，是目前所有模型中人声分离质量最高的选择。

5.3 Mel-Roformer 系列

模型文件名	主要输出	人声 SDR	特点说明
vocals_mel_band_roformer.ckpt	人声	12.6	⭐⭐ Kimberley Jensen 训练，人声质量优秀
mel_band_roformer_kim_ft_unwa.ckpt	人声	12.4	⭐ Kim Fine-Tuned 版本
model_mel_band_roformer_ep_3005_sdr_11.4360.ckpt	人声	11.4360	Mel-Roformer 基础版本

5.4 MelBand Roformer Inst 系列（高质量伴奏）

专注于高质量伴奏提取的系列模型。

模型文件名	主要输出	人声 SDR	伴奏 SDR	特点说明
melband_roformer_inst_v2.ckpt	伴奏	10.3	16.1	⭐⭐ Inst V2，伴奏质量最高
melband_roformer_inst_v1.ckpt	伴奏	9.8	15.9	⭐ Inst V1，伴奏质量优秀
melband_roformer_instvoc_duality_v1.ckpt	人声	11.0	16.1	⭐ Duality V1，平衡人声和伴奏

5.5 MelBand Roformer Big 系列（大模型）

大参数量的高质量模型系列，适合追求极致质量的用户。

模型文件名	主要输出	人声 SDR	特点说明
melband_roformer_big_beta4.ckpt	人声	12.5	⭐⭐ Big Beta 4，大模型高质量
MelBandRoformerBigSYHFTV1.ckpt	人声	12.3	⭐⭐ Big SYHFT V1，大模型高质量

5.6 MDXC 特殊用途系列

去混响系列

模型文件名	主要输出	SDR	特点说明
dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckpt	无混响	19.17	⭐⭐ 高质量去混响
dereverb_mel_band_roformer_less_aggressive_anvuew_sdr_18.8050.ckpt	无混响	18.81	⭐ 温和去混响
dereverb-echo_mel_band_roformer_sdr_13.4843_v2.ckpt	干声	13.48	⭐ 去混响+去回声 V2

去噪系列

模型文件名	主要输出	SDR	特点说明
denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt	干声	27.99	⭐⭐⭐ 高质量去噪，专业级
denoise_mel_band_roformer_aufr33_aggr_sdr_27.9768.ckpt	干声	27.98	⭐⭐⭐ 激进模式去噪

其他特殊用途

模型文件名	主要输出	特点说明
MDX23C-DrumSep-aufr33-jarredou.ckpt	6 种鼓	⭐ 分离 6 种鼓：kick, snare, toms, hh, ride, crash
model_chorus_bs_roformer_ep_267_sdr_24.1275.ckpt	男声/女声	⭐ 分离男声和女声
mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956.ckpt	人声	⭐ 卡拉OK专用
aspiration_mel_band_roformer_sdr_18.9845.ckpt	呼吸声	分离呼吸声和其他声音
mel_band_roformer_bleed_suppressor_v1.ckpt	伴奏	抑制人声泄漏到伴奏中

5.7 Gabox 系列

Gabox 训练了大量 MelBand Roformer 变体，包括多个版本的 Vocals 和 Instrumental 模型。这些模型的特点和 SDR 分数未完全公开，建议通过实际测试选择最适合的版本。

Vocals 系列：

mel_band_roformer_vocals_gabox.ckpt
mel_band_roformer_vocals_v2_gabox.ckpt
mel_band_roformer_vocals_fv1_gabox.ckpt ~ fv6_gabox.ckpt（多个版本）

Instrumental 系列：

mel_band_roformer_instrumental_gabox.ckpt
mel_band_roformer_instrumental_2_gabox.ckpt ~ 3_gabox.ckpt
mel_band_roformer_instrumental_bleedless_v1/v2/v3_gabox.ckpt（无泄漏版本）
mel_band_roformer_instrumental_fullness_v1/v2/v3_gabox.ckpt（饱满度版本）
mel_band_roformer_instrumental_instv5/v6/v7/v8_gabox.ckpt（INSTV 系列）

六、模型选择指南

6.1 按用途选择

用途	推荐模型	架构	理由
人声分离（最高质量）	model_bs_roformer_ep_317_sdr_12.9755.ckpt	MDXC	SDR 12.9755，目前最高
伴奏分离（最高质量）	melband_roformer_inst_v2.ckpt	MDXC	SDR 16.1，伴奏质量最高
平衡人声和伴奏	MDX23C-8KFFT-InstVoc_HQ_2.ckpt	MDXC	人声 10.5，伴奏 15.9
多声部分离	htdemucs_6s.yaml	Demucs	支持 6 个声部（人声、鼓、贝斯、吉他、钢琴、其他）
卡拉OK伴奏制作	UVR_MDXNET_KARA_2.onnx	MDX	强去除人声，伴奏 SDR 14.8
去噪	denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt	MDXC	SDR 27.99，去噪效果极佳
去混响	dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckpt	MDXC	SDR 19.17，去混响效果优秀
鼓分离	MDX23C-DrumSep-aufr33-jarredou.ckpt	MDXC	分离 6 种鼓声部

6.2 按架构选择

架构	特点	适用场景
VR	速度快，质量中等	快速处理，对质量要求不高，批量处理
MDX	质量高，速度中等	平衡质量和速度，日常使用
Demucs	多声部分离，质量优秀	需要分离多个声部，音乐制作
MDXC	质量最高，速度较慢	追求最高质量，专业级应用

七、使用建议与最佳实践

7.1 新手入门建议

首次使用：建议从 model_bs_roformer_ep_317_sdr_12.9755.ckpt 开始，这是目前人声分离质量最高的模型
先试听再决定：不同的歌曲可能适合不同的模型，建议先用短片段测试效果
从高质量音频开始：输入音频质量越高，分离效果越好，建议使用无损格式（WAV、FLAC）

7.2 批量处理建议

如果处理大量文件，可以考虑使用 MDX 架构模型，平衡质量和速度
VR 架构速度最快，适合对质量要求不高的大批量处理
MDXC 架构质量最高但速度较慢，适合对质量有严格要求的场景

7.3 多声部分离建议

需要分离多个声部时，使用 Demucs 模型（如 htdemucs_6s.yaml）
如果只需要人声和伴奏，MDX 或 MDXC 架构通常效果更好
可以组合使用多个模型，例如先用 Demucs 分离鼓和贝斯，再用 MDXC 提取人声

7.4 特殊处理建议

去噪：对于有背景噪声的音频，先使用去噪模型处理，再进行人声/伴奏分离
去混响：对于有混响的现场录音，先去混响再分离，效果会更好
多次分离：对于特别复杂的音频，可以尝试多次分离，每次使用不同的模型

结语

Audio Separator 提供了丰富的模型选择，从快速的 VR 架构到专业级的 MDXC 架构，满足了不同用户的需求。选择合适的模型取决于你的具体使用场景、对质量的要求以及硬件条件。

希望本文档能帮助你更好地了解和使用 Audio Separator 的各种模型。随着技术的不断发展，新的模型和架构还会不断涌现，建议关注官方更新，及时体验最新的音频分离技术。

如果你是开发者，还可以基于 Audio Separator 开发自己的音频处理应用，将这项强大的技术集成到你的产品中。音频分离技术的应用前景非常广阔，期待看到更多创新的使用方式。

提示：本文档基于 Audio Separator 最新模型列表整理，模型数量和参数可能会随版本更新而变化，请以官方文档为准。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

音频伴奏人声分离模型选择指南：从入门到精通

前言