前言
音频分离(Audio Separation)技术是现代音频处理领域的重要分支,它能够将一首完整的音乐作品拆解为人声、伴奏、鼓点、贝斯等独立的音轨,为音乐制作、翻唱创作、卡拉OK制作、音频修复等场景提供了强大的技术支撑。随着深度学习技术的快速发展,音频分离的质量已经达到了专业级水平,越来越多的创作者和开发者开始关注和使用这项技术。
Audio Separator 是一款功能强大的开源音频分离工具,它集成了多种主流的深度学习模型架构,支持从简单的人声/伴奏分离到复杂的多声部提取。无论你是音乐爱好者、专业制作人还是开发者,都能在 Audio Separator 中找到适合自己需求的模型。
本文档将全面介绍 Audio Separator 支持的所有模型,按架构分类详细说明每个系列和型号的特点、性能指标及适用场景。我们还提供了实用的模型选择指南和使用建议,帮助你快速找到最适合的解决方案。
阅读指南:如果你是新手,建议先阅读「模型架构概览」和「模型选择指南」部分,快速了解各架构特点;如果你有明确的使用场景,可以直接跳转到对应的模型系列查看详细参数。
一、模型架构概览
Audio Separator 支持四大主流模型架构,每种架构都有其独特的优势和适用场景。了解这些架构的特点,是选择合适模型的第一步。
| 架构 | 文件格式 | 质量等级 | 速度 | 核心特点 |
|---|---|---|---|---|
| VR | .pth | 中等 | 快 | 经典架构,处理速度快,适合批量处理 |
| MDX | .onnx | 高 | 中等 | 平衡质量与速度,人声分离效果优秀 |
| Demucs | .yaml | 高 | 中等 | Meta开发,支持多声部分离(最多6声部) |
| MDXC | .ckpt | 极高 | 较慢 | 最新架构,质量最高,专业级分离效果 |
1.1 SDR 分数说明
SDR(Signal-to-Distortion Ratio,信号失真比)是衡量音频分离质量的核心指标,分数越高表示分离质量越好,残留的干扰越少。
- SDR 10+:优秀质量,满足大多数日常使用需求
- SDR 12+:极高质量,专业制作级别
- SDR 15+:顶级质量(通常用于伴奏提取)
- SDR 20+:专业级质量(通常用于去噪、去混响等特殊处理)
二、VR 架构模型
VR(Vocal Remover)架构是较早的音频分离模型架构,主要用于人声/伴奏分离。模型文件格式为 .pth,处理速度较快,但质量相对较新架构略低。适合对处理速度要求较高、对质量要求适中的场景。
2.1 VR Arch Single Model v5 系列
v5 系列是 VR 架构的最新版本,包含 HP(高性能)、SP(标准性能)、Karaoke(卡拉OK)等多个子系列。
HP 系列(高性能)
HP(High Performance)系列是 VR 架构中的高性能模型,适合追求高质量分离的用户。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| 1_HP-UVR.pth | 伴奏 | 7.9 | 13.7 | HP 系列,专注高质量伴奏提取 |
| 2_HP-UVR.pth | 伴奏 | 8.2 | 13.5 | HP 系列变体,伴奏质量略低但人声保留更好 |
| 3_HP-Vocal-UVR.pth | 人声 | 8.2 | 14.0 | HP Vocal 系列,专注人声提取 |
| 4_HP-Vocal-UVR.pth | 人声 | 8.3 | 13.6 | HP Vocal 系列改进版,人声质量最佳 |
| 7_HP2-UVR.pth | 伴奏 | 8.3 | 13.5 | HP2 系列,HP 的升级版本 |
| 9_HP2-UVR.pth | 伴奏 | 8.0 | 13.7 | HP2 系列最佳伴奏质量 |
SP 系列(标准性能)
SP(Standard Performance)系列平衡了质量和速度,适合日常使用。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| 10_SP-UVR-2B-32000-1.pth | 伴奏 | 7.5 | 13.3 | 2B 参数,32kHz 采样率 |
| 11_SP-UVR-2B-32000-2.pth | 伴奏 | 7.3 | 13.8 | SP 系列伴奏质量最佳 |
| 12_SP-UVR-3B-44100.pth | 伴奏 | 7.5 | 13.1 | 3B 参数,44.1kHz 采样率 |
| 14_SP-UVR-4B-44100-2.pth | 伴奏 | 8.0 | 13.5 | 4B 参数改进版 |
Karaoke 系列(卡拉OK专用)
专门为制作卡拉OK伴奏设计,强调人声去除效果。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| 5_HP-Karaoke-UVR.pth | 伴奏 | 5.2 | 12.2 | 卡拉OK专用,强去除人声 |
| 6_HP-Karaoke-UVR.pth | 伴奏 | 4.6 | 13.0 | 卡拉OK改进版,伴奏质量更高 |
2.2 VR 音频处理系列
除了人声/伴奏分离,VR 架构还提供了一系列音频处理专用模型,包括去回声、去混响、去噪等功能。
| 模型文件名 | 主要输出 | 特点说明 |
|---|---|---|
| UVR-De-Echo-Aggressive.pth | 无回声 | 激进模式去回声,适合严重回声的音频 |
| UVR-De-Echo-Normal.pth | 无回声 | 标准模式去回声,平衡效果和音质 |
| UVR-DeEcho-DeReverb.pth | 无混响 | 同时去除回声和混响 |
| UVR-DeNoise-Lite.pth | 噪声 | 轻量级去噪,保留更多细节 |
| UVR-DeNoise.pth | 噪声 | 标准去噪,平衡效果和音质 |
2.3 VR Arch Single Model v4 系列
v4 系列是 VR 架构的上一代版本,包含 MGM 系列模型,专注于不同频段的处理。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| MGM_HIGHEND_v4.pth | 伴奏 | 6.9 | 12.3 | 专注高频处理 |
| MGM_LOWEND_B_v4.pth | 伴奏 | 7.5 | 13.1 | 专注低频处理 B 版 |
| MGM_MAIN_v4.pth | 伴奏 | 6.2 | 12.4 | MGM 主模型,平衡处理 |
三、MDX 架构模型
MDX-Net 是较新的架构,使用 ONNX 格式(.onnx),质量比 VR 架构更高,SDR 分数通常在 9-15 之间。支持更精细的声部分离,是目前使用最广泛的架构之一。
3.1 MDX-Net Inst HQ 系列(高质量伴奏)
Inst HQ 系列专注于高质量伴奏提取,是制作专业级伴奏的首选。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| UVR-MDX-NET-Inst_HQ_1.onnx | 伴奏 | 8.8 | 15.4 | HQ 系列,高质量伴奏提取 |
| UVR-MDX-NET-Inst_HQ_2.onnx | 伴奏 | 8.8 | 15.3 | HQ 系列变体 |
| UVR-MDX-NET-Inst_HQ_3.onnx | 伴奏 | 8.8 | 15.4 | HQ 系列变体 |
| UVR-MDX-NET-Inst_HQ_4.onnx | 伴奏 | 8.8 | 15.5 | ⭐ HQ 系列最佳伴奏质量 |
| UVR-MDX-NET-Inst_HQ_5.onnx | 伴奏 | 8.7 | 15.3 | HQ 系列变体 |
推荐:UVR-MDX-NET-Inst_HQ_4.onnx — MDX 架构中伴奏质量最高的模型,SDR 达到 15.5
3.2 MDX-Net Main 系列(人声/伴奏平衡)
Main 系列在人声和伴奏质量之间取得了良好的平衡,适合通用场景。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| UVR_MDXNET_Main.onnx | 人声 | 10.2 | 15.4 | Main 系列,人声质量优秀 |
| UVR-MDX-NET-Inst_Main.onnx | 伴奏 | 8.5 | 15.1 | Main 系列,专注伴奏 |
| UVR-MDX-NET-Voc_FT.onnx | 人声 | 10.2 | 15.4 | Fine-Tuned 版本,人声质量优秀 |
3.3 MDX-Net Kim 系列
由 Kimberley Jensen 训练的高质量模型系列,在人声和伴奏分离方面都有出色表现。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| Kim_Vocal_1.onnx | 人声 | 10.1 | 15.5 | Kim 系列,人声质量优秀 |
| Kim_Vocal_2.onnx | 人声 | 10.2 | 15.4 | ⭐ Kim 系列改进版 |
| Kim_Inst.onnx | 伴奏 | 9.1 | 15.5 | ⭐ Kim 系列,伴奏质量最高 |
3.4 MDX-Net Kuielab 系列(多声部分离)
Kuielab 系列支持多声部分离,可以分别提取人声、贝斯、鼓和其他声部。
| 模型文件名 | 主要输出 | SDR | 特点说明 |
|---|---|---|---|
| kuielab_a_vocals.onnx | 人声 | 9.6 | Kuielab A 系列,人声分离 |
| kuielab_a_bass.onnx | 贝斯 | 10.4 | ⭐ Kuielab A 系列,贝斯分离 |
| kuielab_a_drums.onnx | 鼓 | 7.0 | Kuielab A 系列,鼓分离 |
| kuielab_b_vocals.onnx | 人声 | 9.0 | Kuielab B 系列,人声分离 |
| kuielab_b_bass.onnx | 贝斯 | 9.9 | Kuielab B 系列,贝斯分离 |
3.5 MDX-Net VIP 系列(高级模型)
VIP 系列是 MDX 架构中的高级模型,提供了更高质量的分离效果。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| UVR-MDX-NET_Main_340.onnx | 人声 | 10.2 | 15.4 | VIP 系列,Main 340 |
| UVR-MDX-NET_Main_406.onnx | 人声 | 10.4 | 15.3 | ⭐ VIP 系列人声质量最佳 |
| UVR-MDX-NET_Main_427.onnx | 人声 | 10.2 | 15.5 | ⭐ VIP 系列伴奏质量最高 |
| UVR-MDX-NET-Inst_full_292.onnx | 伴奏 | 8.5 | 15.1 | ⭐ VIP 系列,Inst Full 292 |
3.6 MDX-Net 其他系列
基础系列
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| UVR_MDXNET_1_9703.onnx | 人声 | 9.6 | 15.0 | 基础系列 1 |
| UVR_MDXNET_3_9662.onnx | 人声 | 9.7 | 15.0 | 基础系列 3,人声质量最佳 |
Karaoke 系列
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| UVR_MDXNET_KARA_2.onnx | 伴奏 | 5.4 | 14.8 | ⭐ 卡拉OK改进版,伴奏质量更高 |
特殊用途系列
| 模型文件名 | 主要输出 | 特点说明 |
|---|---|---|
| Reverb_HQ_By_FoxJoy.onnx | 混响 | 高质量混响分离 |
| UVR-MDX-NET_Crowd_HQ_1.onnx | 无人群 | 去除人群噪音 |
四、Demucs 架构模型
Demucs v4 是 Meta(Facebook)开发的模型,支持多声部分离(人声、鼓、贝斯、其他等),模型文件格式为 .yaml。质量优秀,特别适合需要分离多个声部的场景。
| 模型文件名 | 人声 SDR | 鼓 SDR | 贝斯 SDR | 其他声部 | 特点说明 |
|---|---|---|---|---|---|
| htdemucs_ft.yaml | 10.8 | 10.0 | 12.0 | ✅ | ⭐ Fine-Tuned 版本,贝斯质量最佳 |
| htdemucs.yaml | 9.9 | 9.4 | 11.6 | ✅ | 标准版本,平衡各声部质量 |
| hdemucs_mmi.yaml | 10.2 | 9.6 | 12.2 | ✅ | ⭐ MMI 版本,贝斯质量最高 |
| htdemucs_6s.yaml | 9.6 | 8.5 | 10.1 | ✅ + 吉他 + 钢琴 | ⭐ 6 声部版本,支持吉他和钢琴分离 |
4.1 系列说明
- htdemucs:Hybrid Transformer Demucs,使用 Transformer 架构
- hdemucs:Hybrid Demucs,混合架构
- 6s:6 stems,支持分离 6 个声部(人声、鼓、贝斯、吉他、钢琴、其他)
4.2 推荐使用场景
- 需要分离多个声部:使用 htdemucs_6s.yaml(支持6声部)
- 追求贝斯质量:使用 hdemucs_mmi.yaml(贝斯SDR 12.2)
- 平衡各声部质量:使用 htdemucs_ft.yaml(综合表现最佳)
五、MDXC 架构模型
MDXC(MDX23C)是目前最新的架构,使用 .ckpt 格式,质量最高。包含 Roformer 系列模型,SDR 分数通常在 10-17 之间,是目前质量最好的模型架构。适合追求极致分离质量的专业用户。
5.1 MDX23C 基础系列
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| MDX23C-8KFFT-InstVoc_HQ.ckpt | 人声 | 10.6 | 15.8 | ⭐ MDX23C HQ 版本,平衡质量 |
| MDX23C-8KFFT-InstVoc_HQ_2.ckpt | 人声 | 10.5 | 15.9 | ⭐ MDX23C HQ 2,伴奏质量最高 |
5.2 BS-Roformer 系列(最佳人声质量)
BS-Roformer 系列是目前人声分离质量最高的模型,是专业人声提取的首选。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| model_bs_roformer_ep_317_sdr_12.9755.ckpt | 人声 | 12.9755 | 16.5 | ⭐⭐⭐ 目前人声分离质量最高的模型 |
| model_bs_roformer_ep_368_sdr_12.9628.ckpt | 人声 | 12.9628 | 16.3 | ⭐⭐⭐ BS-Roformer 368,人声质量极高 |
最佳人声模型推荐:model_bs_roformer_ep_317_sdr_12.9755.ckpt — 人声 SDR 高达 12.9755,是目前所有模型中人声分离质量最高的选择。
5.3 Mel-Roformer 系列
| 模型文件名 | 主要输出 | 人声 SDR | 特点说明 |
|---|---|---|---|
| vocals_mel_band_roformer.ckpt | 人声 | 12.6 | ⭐⭐ Kimberley Jensen 训练,人声质量优秀 |
| mel_band_roformer_kim_ft_unwa.ckpt | 人声 | 12.4 | ⭐ Kim Fine-Tuned 版本 |
| model_mel_band_roformer_ep_3005_sdr_11.4360.ckpt | 人声 | 11.4360 | Mel-Roformer 基础版本 |
5.4 MelBand Roformer Inst 系列(高质量伴奏)
专注于高质量伴奏提取的系列模型。
| 模型文件名 | 主要输出 | 人声 SDR | 伴奏 SDR | 特点说明 |
|---|---|---|---|---|
| melband_roformer_inst_v2.ckpt | 伴奏 | 10.3 | 16.1 | ⭐⭐ Inst V2,伴奏质量最高 |
| melband_roformer_inst_v1.ckpt | 伴奏 | 9.8 | 15.9 | ⭐ Inst V1,伴奏质量优秀 |
| melband_roformer_instvoc_duality_v1.ckpt | 人声 | 11.0 | 16.1 | ⭐ Duality V1,平衡人声和伴奏 |
5.5 MelBand Roformer Big 系列(大模型)
大参数量的高质量模型系列,适合追求极致质量的用户。
| 模型文件名 | 主要输出 | 人声 SDR | 特点说明 |
|---|---|---|---|
| melband_roformer_big_beta4.ckpt | 人声 | 12.5 | ⭐⭐ Big Beta 4,大模型高质量 |
| MelBandRoformerBigSYHFTV1.ckpt | 人声 | 12.3 | ⭐⭐ Big SYHFT V1,大模型高质量 |
5.6 MDXC 特殊用途系列
去混响系列
| 模型文件名 | 主要输出 | SDR | 特点说明 |
|---|---|---|---|
| dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckpt | 无混响 | 19.17 | ⭐⭐ 高质量去混响 |
| dereverb_mel_band_roformer_less_aggressive_anvuew_sdr_18.8050.ckpt | 无混响 | 18.81 | ⭐ 温和去混响 |
| dereverb-echo_mel_band_roformer_sdr_13.4843_v2.ckpt | 干声 | 13.48 | ⭐ 去混响+去回声 V2 |
去噪系列
| 模型文件名 | 主要输出 | SDR | 特点说明 |
|---|---|---|---|
| denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt | 干声 | 27.99 | ⭐⭐⭐ 高质量去噪,专业级 |
| denoise_mel_band_roformer_aufr33_aggr_sdr_27.9768.ckpt | 干声 | 27.98 | ⭐⭐⭐ 激进模式去噪 |
其他特殊用途
| 模型文件名 | 主要输出 | 特点说明 |
|---|---|---|
| MDX23C-DrumSep-aufr33-jarredou.ckpt | 6 种鼓 | ⭐ 分离 6 种鼓:kick, snare, toms, hh, ride, crash |
| model_chorus_bs_roformer_ep_267_sdr_24.1275.ckpt | 男声/女声 | ⭐ 分离男声和女声 |
| mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956.ckpt | 人声 | ⭐ 卡拉OK专用 |
| aspiration_mel_band_roformer_sdr_18.9845.ckpt | 呼吸声 | 分离呼吸声和其他声音 |
| mel_band_roformer_bleed_suppressor_v1.ckpt | 伴奏 | 抑制人声泄漏到伴奏中 |
5.7 Gabox 系列
Gabox 训练了大量 MelBand Roformer 变体,包括多个版本的 Vocals 和 Instrumental 模型。这些模型的特点和 SDR 分数未完全公开,建议通过实际测试选择最适合的版本。
Vocals 系列:
- mel_band_roformer_vocals_gabox.ckpt
- mel_band_roformer_vocals_v2_gabox.ckpt
- mel_band_roformer_vocals_fv1_gabox.ckpt ~ fv6_gabox.ckpt(多个版本)
Instrumental 系列:
- mel_band_roformer_instrumental_gabox.ckpt
- mel_band_roformer_instrumental_2_gabox.ckpt ~ 3_gabox.ckpt
- mel_band_roformer_instrumental_bleedless_v1/v2/v3_gabox.ckpt(无泄漏版本)
- mel_band_roformer_instrumental_fullness_v1/v2/v3_gabox.ckpt(饱满度版本)
- mel_band_roformer_instrumental_instv5/v6/v7/v8_gabox.ckpt(INSTV 系列)
六、模型选择指南
6.1 按用途选择
| 用途 | 推荐模型 | 架构 | 理由 |
|---|---|---|---|
| 人声分离(最高质量) | model_bs_roformer_ep_317_sdr_12.9755.ckpt | MDXC | SDR 12.9755,目前最高 |
| 伴奏分离(最高质量) | melband_roformer_inst_v2.ckpt | MDXC | SDR 16.1,伴奏质量最高 |
| 平衡人声和伴奏 | MDX23C-8KFFT-InstVoc_HQ_2.ckpt | MDXC | 人声 10.5,伴奏 15.9 |
| 多声部分离 | htdemucs_6s.yaml | Demucs | 支持 6 个声部(人声、鼓、贝斯、吉他、钢琴、其他) |
| 卡拉OK伴奏制作 | UVR_MDXNET_KARA_2.onnx | MDX | 强去除人声,伴奏 SDR 14.8 |
| 去噪 | denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt | MDXC | SDR 27.99,去噪效果极佳 |
| 去混响 | dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckpt | MDXC | SDR 19.17,去混响效果优秀 |
| 鼓分离 | MDX23C-DrumSep-aufr33-jarredou.ckpt | MDXC | 分离 6 种鼓声部 |
6.2 按架构选择
| 架构 | 特点 | 适用场景 |
|---|---|---|
| VR | 速度快,质量中等 | 快速处理,对质量要求不高,批量处理 |
| MDX | 质量高,速度中等 | 平衡质量和速度,日常使用 |
| Demucs | 多声部分离,质量优秀 | 需要分离多个声部,音乐制作 |
| MDXC | 质量最高,速度较慢 | 追求最高质量,专业级应用 |
七、使用建议与最佳实践
7.1 新手入门建议
- 首次使用:建议从
model_bs_roformer_ep_317_sdr_12.9755.ckpt开始,这是目前人声分离质量最高的模型 - 先试听再决定:不同的歌曲可能适合不同的模型,建议先用短片段测试效果
- 从高质量音频开始:输入音频质量越高,分离效果越好,建议使用无损格式(WAV、FLAC)
7.2 批量处理建议
- 如果处理大量文件,可以考虑使用 MDX 架构模型,平衡质量和速度
- VR 架构速度最快,适合对质量要求不高的大批量处理
- MDXC 架构质量最高但速度较慢,适合对质量有严格要求的场景
7.3 多声部分离建议
- 需要分离多个声部时,使用 Demucs 模型(如
htdemucs_6s.yaml) - 如果只需要人声和伴奏,MDX 或 MDXC 架构通常效果更好
- 可以组合使用多个模型,例如先用 Demucs 分离鼓和贝斯,再用 MDXC 提取人声
7.4 特殊处理建议
- 去噪:对于有背景噪声的音频,先使用去噪模型处理,再进行人声/伴奏分离
- 去混响:对于有混响的现场录音,先去混响再分离,效果会更好
- 多次分离:对于特别复杂的音频,可以尝试多次分离,每次使用不同的模型
结语
Audio Separator 提供了丰富的模型选择,从快速的 VR 架构到专业级的 MDXC 架构,满足了不同用户的需求。选择合适的模型取决于你的具体使用场景、对质量的要求以及硬件条件。
希望本文档能帮助你更好地了解和使用 Audio Separator 的各种模型。随着技术的不断发展,新的模型和架构还会不断涌现,建议关注官方更新,及时体验最新的音频分离技术。
如果你是开发者,还可以基于 Audio Separator 开发自己的音频处理应用,将这项强大的技术集成到你的产品中。音频分离技术的应用前景非常广阔,期待看到更多创新的使用方式。
提示:本文档基于 Audio Separator 最新模型列表整理,模型数量和参数可能会随版本更新而变化,请以官方文档为准。


评论(0)