项目介绍

Retrieval-based Voice Conversion WebUI(简称 RVC-WebUI)是一款基于检索的语音转换网络界面工具,RVC-WebUI 是基于检索的语音转换技术开发的 Web 界面工具,基于 VITS 语音合成系统,采用先进 AI 算法和 top1 检索技术,能杜绝音色泄漏,保留原始语音情感韵律。它可实现实时声音变换,支持声音克隆、AI 翻唱、实时变声等功能,还能调用 uvr5 模型分离人声和伴奏。具有低数据需求、高质量转换效果、简单易用、跨平台支持、高效能低延迟等特点,适用于直播、视频录制、语音助手个性化、语音翻译、教育培训、娱乐、音频制作、隐私保护等多种场景:

核心技术

基于检索的语音转换算法,通过对比和查找数据库中的声音特征,找到最接近的目标声音,进而对输入声音进行转换,在保持语音内容的同时改变声音的音色和特性。

特点

  • 音色保真度高:采用 top1 检索技术,将输入源特征替换为训练集特征,有效杜绝音色泄漏,能很好地保留原始语音的情感和韵律特征,实现自然流畅的语音转换。
  • 训练效率高:即使在配置较低的显卡上也能快速训练,大大提高了模型的普及性和实用性。而且只需 10 分钟左右的低底噪语音数据即可训练出高质量的语音转换模型,降低了语音克隆的门槛。
  • 操作便捷:有直观的 web 界面,用户无需复杂的命令行操作,即可轻松完成数据处理、模型训练和语音转换等操作。还提供模型融合功能,借助 ckpt 处理选项卡中的 ckpt-merge 可改变音色。
  • 功能丰富:可调用 uvr5 模型快速分离人声和伴奏,使用最先进的人声音高提取算法 interspeech2023-rmvpe,解决了哑音问题,使效果更好、运行更快、资源占用更少。
  • 跨平台支持与低延迟:支持多种平台,在实时语音转换中表现出低延迟的特点,如使用 asio 输入输出设备,可实现端到端 90ms 延迟。

RVC-WebUI支持的显卡类型包括:

  • NVIDIA 显卡:是较为常见且广泛支持的类型,如 NVIDIA RTX 系列等,能很好地与相关深度学习框架和 CUDA 配合,发挥强大的计算能力,提升语音转换的效率和效果。
  • AMD 显卡:也能得到该工具的支持,通过安装相应的驱动和特定的依赖库,AMD 显卡可以为 Retrieval-based Voice Conversion WebUI 提供计算支持。
  • Intel 显卡:包括 Intel 的核显以及独立显卡,同样可以支持 Retrieval-based Voice Conversion WebUI 运行。

RVC-WebUI

应用场景

  • 声音克隆:用户通过准备一定量的目标声音数据,一般推荐至少 10 分钟的低底噪语音数据,利用 RVC-WebUI 进行模型训练。基于先进的深度学习技术,模型能够学习目标声音的特征,包括音色、语调、韵律等,进而将输入的其他声音转换为具有目标声音特征的语音,实现声音克隆1。
    AI 翻唱:结合其声音克隆能力和对歌曲音频的处理功能来实现 AI 翻唱。可以先利用 UVR5 模型快速分离歌曲中的人声和伴奏,再通过训练好的声音模型对原歌曲中的人声进行音色替换,同时采用先进的 InterSpeech2023-RMVPE 人声音高提取算法,有效避免哑音问题,使翻唱效果更好,最终生成以新音色演唱的 AI 翻唱作品
  • 直播与视频录制:主播可以实时改变声音,为直播和视频增添趣味和多样性。
  • 语音助手个性化:开发者能为语音助手创建独特的声音,提升用户体验。
  • 语音翻译:结合语音识别和合成技术,帮助实现更自然的跨语言语音翻译。
  • 教育培训:在语言学习和发音训练中,帮助学习者模仿标准发音。
  • 娱乐领域:用户可以将自己的声音转换成电影明星或动漫角色的声音,增加趣味性。
  • 音频制作:音频创作者可快速试听不同风格的声音,以适应不同情境或角色。
  • 隐私保护:对音频内容进行匿名处理,如播客或电话录音,保留内容而隐藏真实身份。

环境搭建

  • 安装依赖:不同系统和显卡类型有不同的安装指令,一般需先安装 pytorch 及相关核心依赖,可使用 pip 或 poetry 安装其他依赖。
  • 准备预模型:从 hugging face 空间下载所需的预模型,如 hubert_base.pt、pretrained、uvr5_weights 等。
  • 安装 ffmpeg:根据不同操作系统,使用相应命令或下载安装 ffmpeg 和 ffprobe。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。