IndexTTS 2.5 是在 IndexTTS 2 基础上升级的零样本多语言情感 TTS 基础模型,目标是:扩语种、提速度、保质量、强情感迁移,面向工业落地。

一、基础信息

  • 论文:IndexTTS 2.5 Technical Report(arXiv:2601.03888)
  • 机构:Bilibili 团队
  • 发布:2026-01-07(v1),2026-01-09 更新至 v3
  • 定位:零样本多语言情感语音合成基础模型,在 IndexTTS 2 基础上大幅升级

二、核心定位与前代基础

IndexTTS 2 是零样本神经 TTS 基础模型,由文本转语义(T2S)非自回归语义转梅尔频谱(S2M) 两大模块构成,支持情感复刻与自回归时长可控生成。

IndexTTS 2.5 聚焦多语言覆盖、推理速度、合成质量三大方向全面升级。

IndexTTS-2.5插图

三、四大核心改进

语义编解码器压缩

  • 语义 Codec 帧率从 50 Hz → 25 Hz
  • 序列长度直接减半,大幅降低训练 / 推理成本与显存占用。

S2M 架构升级

  • 把 S2M 模块的 U‑DiT 主干换成更高效的 Zipformer
  • 参数量更少、生成梅尔谱更快,主观听感更优(56% 偏好 vs U‑DiT 40%)。

多语言扩展(中 / 英 / 日 / 西)

提出三种跨语言建模策略,解决同形异音、语种混淆问题:

  • 边界感知对齐:加语言边界 Token(如<ZH>),简单但长句易误读。
  • Token 级拼接:每个文本 Token 融合语言嵌入,发音最准、说话人相似度最高。
  • 指令引导生成:用自然语言指令指定语种,推理灵活、无需外部标注模块。

强化学习优化(GRPO)

  • 在 T2S 模块后训练用 GRPO(分组相对策略优化)
  • 以 ASR 的 WER 为奖励信号,提升发音准确率与韵律自然度。

四、关键效果

  • 推理速度:RTF 提升 2.28 倍
  • 质量:词错误率(WER)、说话人相似度与 IndexTTS 2 持平
  • 能力:零样本跨语言情感韵律复刻,多语言合成稳定可靠

五、重要开源提醒(截至 2026-05-02)

  1. IndexTTS 2.5 模型、权重、推理代码均未开源,官方仅发布技术论文与演示页面,无公开可运行代码包。
  2. 网上大量 “IndexTTS 2.5 开源”“一键包” 均为假冒,非官方发布,存在安全与侵权风险。
  3. 官方唯一渠道:GitHub 仓库 index-tts/index-tts,仅更新至 IndexTTS 2,未发布 2.5 版本代码与权重。
  4. 切勿轻信第三方 “整合包”“破解版”,避免设备安全与隐私泄露。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。