Index‑TTS2 在线语音合成

依托 Index-TTS2 官方模型，RTX 5090 32G 大显存高速算力加持，可实现专业音色复刻、细腻情感把控，一键轻松生成自然流畅 AI 人声。

立即体验 IndexTTS-1.5 计费说明

AI语音合成与音色克隆平台

旗舰 RTX5090 32G GPU，极致算力赋能体验

会员用户每月免费字符，超额后按折扣计价

当前用户今日：0字符，本月总合成：0字符

本站普通用户可选余额充值，用多少扣多少，即用即付，会员享折扣优惠

欢迎访问云音工坊(MelodyCloud Studio)，有任何疑问可联系客服说明

今日注册208 VIP会员5116 总用户256237

说话人音色参考音频

点击或拖拽音频文件至此处上传

支持WAV、MP3格式，最大20MB，最长90秒，采样率不低于16kHz

合成文本

合成文本定义了模型要生成的对话内容，查看多音字处理教程

0/10000 字符

情绪控制方式

默认模式

基于情绪音频

基于情绪向量

基于情绪文本

选择模型采用的情感控制策略

情感参考音频（可选）

点击或拖拽音频文件至此处上传

支持WAV、MP3格式，最大10MB

情感向量维度权重

总和限制提示：每个情感维度值范围为0~1。当前总和：0.0

高兴当前值: 0.0

生气当前值: 0.0

悲伤当前值: 0.0

害怕当前值: 0.0

厌恶当前值: 0.0

忧郁当前值: 0.0

惊讶当前值: 0.0

平静当前值: 0.0

情感权重 (0.0-1.0) 当前值: 0.5

参数用于控制情感参考音频或文本对合成语音的影响强度，数值越大，生成语音的情绪特征越明显。

会员用户专属算力接口，顶配 RTX5090 32G 高性能 GPU，超强算力全速加持

合成任务
历史记录

暂无合成结果

请先输入文本并点击"开始合成"按钮

暂无历史任务

您还没有任何历史合成任务

使用指南

基本步骤

在文本框中输入或粘贴需要合成的文本内容
选择公共音色或克隆自己的音色
克隆音频小等于20MB，时长5–30 秒，仅支持 MP3、WAV
选择情绪控制方式或开启情绪随机性
调整完参数后，点击“开始合成”生成自己的音频文件

参数说明

情绪控制权重：设置为 0.6 左右（或更低），以获得更自然的语音效果。
情绪向量：单个维度的值范围为0-1。
情绪随机性：用于增加多样性或避免每句语音完全一致的情绪表达。

实用技巧

长文本建议分段合成，效果更佳
克隆音色时可上传参考情绪音频
MP3格式适合网络使用，WAV格式适合专业制作
支持中英文混合文本的自然合成
生成的音频可直接用于视频配音、语音播报等场景

常见问题

文本内容：最大支持 10000 字符（汉字按2倍计数），超长文本自动分段合成
合成说明：按Token计费，¥150/百万Tokens。
音频下载：音频合成后请在24小时内下载，过期自动清理。