在 AI 配音、有声书、短视频、智能交互等场景需求爆发的当下,传统 TTS 普遍存在音色僵硬、情感匮乏、克隆门槛高、语种单一等痛点。由 Fish Audio 团队开源的fish-speech项目,推出旗舰模型S2 Pro,凭借独创 Dual-AR 双自回归架构、万级细粒度情感控制、零样本声音克隆、80 + 语种原生支持,成为当前开源领域 SOTA 级文本转语音方案,兼顾本地私有化部署与在线轻量化体验,兼顾开发者与普通创作者需求。

Fish Audio插图

一、项目基础概况

1. 开源项目地址

完整开源仓库:https://github.com/fishaudio/fish-speech

项目采用FISH AUDIO RESEARCH LICENSE开源协议,代码、模型权重全部开放,支持个人学习、商用私有化部署,同时提供完善 Docker 镜像、WebUI 可视化界面、API 服务、命令行推理多套使用方案,兼容 NVIDIA CUDA、AMD ROCm 双显卡生态,Windows、Linux、macOS 全平台适配。

2. 在线便捷体验平台

无需配置环境、不用 GPU 硬件,普通用户可直接在线试用全功能:https://www.yuntts.com/fish-audio

在线平台集成语音合成、声音克隆、多人对话配音、情感参数调节,支持 MP3/WAV/OPUS 多格式音频下载,注册即可免费体验基础功能,满足短视频配音、文案朗读、短视频旁白等轻量化需求。

3. 核心模型:Fish Audio S2 Pro

S2 Pro 为 4B 参数旗舰模型,基于超 1000 万小时全球多语种音频训练,打破传统 TTS 单一自回归瓶颈,在语音自然度、克隆相似度、多语言准确率、流式推理速度四大维度超越 Qwen3-TTS、MiniMax Speech、Seed-TTS 等闭源 / 开源竞品,多项评测指标登顶行业第一。

二、底层核心技术:Dual-AR 架构 + GRPO 强化对齐

1. 快慢双自回归(Dual-AR)创新架构

S2 Pro 采用Slow AR(4B 主模型)+ Fast AR(400M 辅助模型) 分层解码结构,搭配 10 码本 RVQ 音频编解码器:

  • Slow AR:沿时间轴预测语义主码本,把控整段语音语义、语速、情绪基调;
  • Fast AR:并行生成 9 层残差码本,填充人声呼吸、颤音、语调起伏等细腻声学细节data.hanab...。该架构解决传统 TTS 长音频生成抖动、音质粗糙问题,同时大幅降低推理算力开销,实现高速流式生成。

2. GRPO 强化学习对齐,语音更贴合人类审美

模型采用组相对策略优化(GRPO) 完成后训练对齐,复用训练数据清洗模型作为奖励模型,规避常规 TTS 奖励模型与训练数据分布不匹配的缺陷。从语义准确性、情感标签遵循度、音色相似度、人耳听觉偏好多维度打分优化,生成语音自然度大幅提升,Audio Turing 测试得分 0.515,远超同类主流模型。

3. 工业级流式推理加速

依托 SGLang 推理框架深度优化,原生支持连续批处理、分页 KV 缓存、CUDA Graph、RadixAttention 前缀缓存,单张 NVIDIA H200 显卡性能表现:

  • 实时因子 RTF=0.195,生成速度远超实时播放;
  • 首音频延迟 TTFA 低至 100ms,适配直播、实时对话等低延迟场景;
  • 高并发下稳定输出 3000 + 声学 token/s,批量配音效率拉满arXiv。

三、六大核心王牌功能

1. 零样本高精度声音克隆(项目核心亮点)

无需模型微调、无需大量训练素材,仅上传10-30 秒清晰人声参考音频,即可完整复刻音色、说话习惯、情绪特质,跨 80 种语言音色不崩坏。

  • 单人克隆:生成专属 AI 音色,用于自媒体配音、有声书、智能语音助手;

多人联合克隆:一段参考音频提取多个人说话特征,通过<speaker:0><speaker:1>标签一键生成多人对话剧本,无需分别上传多个音色样本。

客观评测中,Fish S2 克隆任务字错误率 WER 仅 6.89%,优于多款主流开源 TTS 方案,音色还原度行业领先arXiv。

2. 万级细粒度自然语言情感控制

区别于其他 TTS 仅提供固定情绪按钮,S2 Pro 支持15000 + 自由文本标签,直接嵌入文本任意位置精准控制语气、停顿、音效:

  1. 基础情绪:[excited]兴奋、[sad]悲伤、[angry]愤怒、[surprised]惊讶;
  2. 特殊人声效果:[laughing]轻笑、[sigh]叹气、[whisper]低语、[clearing throat]清嗓、[inhale]吸气;
  3. 自定义风格描述:[professional broadcast tone]专业播音腔、[slow soft voice]轻柔慢语速、[echo]带回声;
  4. 节奏控制:[short pause]短停顿、[emphasis]加重朗读重点词句。一段文本可叠加多层标签,实现影视剧级富有感染力的配音,彻底摆脱机器朗读的生硬感matteogiar...。

3. 80 + 语种原生支持,无音素预处理

覆盖全球主流语言,无需额外 G2P 音素转换工具,中英文混读、多语种交替朗读发音自然:

  • Tier1 顶级优化:中文、英文、日语;
  • Tier2 完善适配:韩语、西语、葡语、阿拉伯语、俄、法、德等;
  • 全球小众语种:泰、越、瑞典、芬兰、印度语系等数十种语言全覆盖。外贸短视频、多语言有声读物、海外 AI 交互产品均可直接落地使用GitHub。

4. 长文本上下文连贯生成

超长文稿、多轮对话剧本统一生成,模型具备长上下文记忆能力,全程保持音色统一、情绪连贯,支持整本小说、系列剧本一次性合成,解决普通 TTS 分段生成音色断裂、语气脱节问题。

5. 多端部署方案,适配全场景需求

  1. 在线即用(yuntts 平台):零配置,浏览器直接生成,适合个人短视频创作者;
  2. 本地 WebUI 可视化:开源仓库自带前端界面,可视化上传音频、调节参数、一键导出;
  3. API 服务部署:启动后端接口,对接小程序、APP、直播系统、智能硬件;
  4. Docker 容器化:官方提供 NVIDIA CUDA、AMD ROCm 两套镜像,一键部署,支持服务器批量部署;
  5. 命令行 / Notebook 推理:适合开发者批量自动化配音、二次开发二次封装radiant.co。

6. 全自定义音频参数调节

支持温度、Top-P 采样值、语速、音量、输出采样率自定义,导出格式包含 WAV 无损、MP3、PCM、Opus,适配剪辑软件、音频平台、语音设备各类格式标准。

四、权威评测:全方位超越主流竞品

在 Seed-TTS、Audio Turing、EmergentTTS 三大行业标准评测集,Fish Audio S2 全面领先闭源商业模型:

  1. 中文 WER 0.54%、英文 WER 0.99%,语义识别准确率行业第一;
  2. 音频图灵测试均值 0.515,真人 / AI 分辨难度远超同类;
  3. 对话、情绪类场景对比胜率 81.88%;
  4. 多语种评测中,24 门语言里 11 门发音最优、17 门音色相似度第一。

无论是客观语音指标,还是人耳主观自然度打分,S2 Pro 都达到商用级成熟水准,可直接替代付费闭源配音工具。

五、适用落地场景

  1. 自媒体内容创作:短视频旁白、有声小说、播客、短剧配音,自定义专属音色规避版权风险;
  2. 企业商用服务:智能客服语音播报、车载语音助手、多语言教学音频、产品介绍宣传片;
  3. 影视 / 剧本制作:多人对话广播剧、影视剧预配音,自由控制角色情绪;
  4. AI 开发者二次开发:私有化本地语音服务、多模态大模型配套语音输出、本地离线语音工具;
  5. 个人趣味使用:复刻亲友音色录制故事、定制专属语音备忘录、多语言外语跟读素材。

六、快速上手两种途径

途径 1:在线平台(零基础,推荐普通用户)

打开 https://www.yuntts.com/fish-audio

  1. 输入需要转换的文本,插入[情绪标签]调整语气;
  2. 上传 10-30 秒音频完成声音克隆,或选用平台内置音色;
  3. 调节语速、采样参数,点击生成,在线试听后下载音频文件。

途径 2:本地开源部署(开发者 / 私有化需求)

  1. 克隆开源仓库:git clone https://github.com/fishaudio/fish-speech
  2. 安装 Python 依赖,下载 S2 Pro 模型权重;
  3. 启动 WebUI 可视化界面或 API 服务;
  4. 本地离线推理,支持批量生成、自定义二次开发,支持 NVIDIA、AMD 显卡双生态运行radiant.co。

七、总结

Fish Audio S2(fish-speech)凭借开源免费、技术领先、功能全面三大核心优势,重新定义开源 AI 语音合成标准。独创 Dual-AR 架构解决音质与速度矛盾,万级情感标签实现精细化配音,零样本声音克隆大幅降低音色定制门槛,80 + 语种覆盖全球化需求,同时提供在线轻量化体验与本地私有化部署双路线。

对于普通创作者,无需专业设备即可产出媲美商业付费工具的配音;对于开发者,完整开源代码、完善 Docker 与 API 方案,可快速搭建自主可控语音服务,是目前综合能力最强的开源 TTS 项目之一。

开源仓库:https://github.com/fishaudio/fish-speech

在线体验平台:https://www.yuntts.com/fish-audio

 

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。