Index-TTS2 在线语音合成

基于Index-TTS2模型的AI语音合成服务,支持音色克隆,一键生成媲美真人的高质量语音

AI语音合成与音色克隆平台

在线 AI 语音合成服务,支持语音克隆!

语音合成

支持中文、英文等多种语言
0/600 字符
点击"加载自定义音色"可查看您上传的音色
当前值: 1.0
当前值: 1.0
在情绪控制中引入一定随机性,增加多样性
开启后将实时返回音频流,关闭后将等待合成完成后返回完整音频文件
选择模型采用的情感控制策略,选择基于情绪音频时,需要在克隆阶段上传了情绪参考音频
总和限制提示:所有情感维度的值相加不能超过1.5。 当前总和:0.0
当前值: 0.0
当前值: 0.0
当前值: 0.0
当前值: 0.0
当前值: 0.0
当前值: 0.0
当前值: 0.0
当前值: 0.0
支持从列表中选择或手动输入自定义情感。
当前值: 0.6
要克隆的音频文件质量要求
  • 仅单个说话者
  • 稳定的音量、语气和情感
  • 品质要求:无背景噪音,无房间回声
  • 音频最短5秒,最长30秒,推荐30秒
  • 支持音频格式 MP3 和 WAV
  • 最大 20MB,采样率16kHz及以上

使用指南

基本步骤
  • 在文本框中输入或粘贴需要合成的文本内容
  • 选择公共音色或克隆自己的音色
  • 克隆音频小等于20MB,时长5–30 秒,仅支持 MP3、WAV
  • 选择情绪控制方式或开启情绪随机性
  • 调整完参数后,点击“开始合成”生成自己的音频文件
参数说明
  • 情绪控制权重:设置为 0.6 左右(或更低),以获得更自然的语音效果。
  • 情绪向量:单个维度的值范围为1-1.2,所有维度的值相加不能大于1.5。
  • 情绪随机性:用于增加多样性或避免每句语音完全一致的情绪表达。
实用技巧
  • 长文本建议分段合成,效果更佳
  • 克隆音色时可上传参考情绪音频
  • MP3格式适合网络使用,WAV格式适合专业制作
  • 支持中英文混合文本的自然合成
  • 生成的音频可直接用于视频配音、语音播报等场景
常见问题
  • 文本内容:单次合成最大支持 600 字符
  • 合成说明:所有用户每月免费100000字符,超过后3元/万字符。
  • 克隆限制:克隆无数量限制,默认保存7天,超期自动清理。

开发者API

集成IndexTTS2语音合成功能到您的应用程序中,支持RESTful API调用

查看完整API文档