Qwen3-TTS 开发者API接口对接文档

前言说明

Qwen3-TTS 是阿里通义千问团队开源的新一代多语言文本转语音模型，依托 Qwen3 大模型体系打造，提供高拟人度自然音色，覆盖中、英、日、韩等 10 种主流语言与多种方言，音色表现力丰富。模型支持声音复刻与声音设计双定制路径：3 秒短音频即可完成高保真声纹复刻，也可通过自然语言描述直接生成专属虚拟音色。

概述

基础URL: https://www.yuntts.com/api/v1

认证方式: 在请求头中添加 Authorization: Bearer {api_key}

在线调试

本在线调试功能仅供接口调试使用，如需完整请求参数，请参考相关接口文档。

在线调试地址：[接口调试工具]

接口列表

接口	路径	方法	说明
语音合成	https://www.yuntts.com/api/v1/qwen3-synthesize	POST	将文本转换为语音
声音克隆	https://www.yuntts.com/api/v1/qwen3-create-voice	POST	基于音频样本克隆音色
声音设计	https://www.yuntts.com/api/v1/qwen3-create-design-voice	POST	基于文本描述设计音色
删除音色	https://www.yuntts.com/api/v1/qwen3-delete-voice	POST	删除已创建的音色

1. 语音合成

请求URL:

POST https://www.yuntts.com/api/v1/qwen3-synthesize

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content-Type	string	是	application/json

请求参数

参数名	类型	必填	说明
model	string	是	合成模型，如：`qwen3-tts-flash`, `qwen3-tts-instruct-flash`, `qwen3-tts-vc-2026-01-22`, `qwen3-tts-vd-2026-01-26`
voice	string	是	音色ID，系统音色或自定义音色
text	string	是	要合成的文本，最长512 Token
language_type	string	否	语言类型：`Auto`(默认), `Chinese`, `English`, `Japanese`, `Korean` 等
instructions	string	否	指令控制（仅`qwen3-tts-instruct-flash`模型支持），最多1600 Token
optimize_instructions	boolean	否	是否优化指令，默认false（仅`qwen3-tts-instruct-flash`模型支持）
stream	boolean	否	是否流式输出，默认false

注意：语速/音调/音量控制请通过 instructions 参数实现（仅qwen3-tts-instruct-flash支持）。

请求示例

{
  "model": "qwen3-tts-instruct-flash",
  "voice": "Cherry",
  "text": "欢迎使用语音合成服务",
  "language_type": "Chinese",
  "response_format": "mp3",
  "sample_rate": 24000
}

响应示例

{
  "code": 200,
  "message": "语音合成成功",
  "data": {
    "audio": {
      "url": "https://xxx.oss-cn-beijing.aliyuncs.com/xxx.mp3",
      "id": "audio_xxx",
      "expires_at": 1766113409
    },
    "finish_reason": "stop"
  },
  "char_count": 10,
  "cost": 0.01
}

2. 声音克隆

基于音频样本快速复刻音色，打造拟人化品牌声纹。

音频要求

项目	要求
支持格式	WAV (16bit)、MP3、M4A
音频时长	推荐10~20秒，最长60秒
文件大小	< 10 MB
采样率	≥ 24 kHz
声道	单声道

请求URL:

POST https://www.yuntts.com/api/v1/qwen3-create-voice

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content-Type	string	是	multipart/form-data

请求参数

参数名	类型	必填	说明
voice_name	string	是	音色名称，最多20字符
target_model	string	是	目标模型：`qwen3-tts-vc-2026-01-22`
file	file	是	音频文件（或使用application/json 请求头，用audio_url传递音频地址）
language	string	否	语言：`zh`(默认), `en`, `ja`, `ko` 等
description	string	否	音色描述
preferred_name	string	否	音色标识名，仅允许数字、英文字母和下划线，不超过16个字符，默认`yuntts`

请求示例

使用远程音频URL

curl -X POST 'https://www.yuntts.com/api/v1/qwen3-create-voice' \
  -H 'Authorization: Bearer {user_token}' \
  -H 'Content-Type: application/json' \
  -d '{
    "target_model": "qwen3-tts-vc-2026-01-22",
    "language": "zh",
    "voice_name": "远程音频音色",
    "description": "使用远程URL创建的克隆音色",
    "preferred_name": "remote_voice",
    "audio_url": "https://example.com/audio/sample.wav"
  }'

音频上传

curl -X POST https://www.yuntts.com/api/v1/qwen3-create-voice 
  -H "Authorization: Bearer {api_key}" 
  -F "voice_name=我的音色" 
  -F "target_model=qwen3-tts-vc-2026-01-22" 
  -F "language=zh" 
  -F "file=@/path/to/audio.mp3"

响应示例

{
  "code": 200,
  "message": "声音创建成功",
  "data": {
    "target_model": "qwen3-tts-vc-2026-01-22",
    "voice": "qwen-tts-vc-yuntts-voice-xxx"
  }
}

3. 声音设计

通过文本描述生成定制化音色，无需音频样本。

请求URL:

POST https://www.yuntts.com/api/v1/qwen3-create-design-voice

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content-Type	string	是	application/json

请求参数

参数名	类型	必填	说明
voice_name	string	是	音色名称，最多20字符
target_model	string	是	目标模型：`qwen3-tts-vd-2026-01-26`
voice_prompt	string	是	声音描述，最多2048字符，仅支持中文和英文
preview_text	string	是	预览文本，最多1024字符
language	string	否	语言：`zh`(默认), `en` 等
description	string	否	音色描述
preferred_name	string	否	音色标识名，仅允许数字、英文字母和下划线，不超过16个字符，默认`yuntts`
sample_rate	int	否	预览音频采样率：8000, 16000, 24000(默认), 48000
response_format	string	否	预览音频格式：`pcm`, `wav`(默认), `mp3`, `opus`

注意：仅支持非流式模型，不支持实时流式模型

voice_prompt 编写指南

维度	描述示例
性别	男性、女性、中性
年龄	儿童、青少年、青年、中年、老年
音调	高音、中音、低音
语速	快速、中速、缓慢
情感	开朗、沉稳、温柔、严肃、活泼
特点	有磁性、清脆、沙哑、圆润、甜美

推荐示例:

"年轻活泼的女性声音，语速较快，适合介绍时尚产品"
"沉稳的中年男性，语速缓慢，音色低沉有磁性，适合新闻播报"

请求示例

{
  "voice_name": "知性女声",
  "target_model": "qwen3-tts-vd-2026-01-26",
  "voice_prompt": "温柔知性的女性，30岁左右，语调平和，适合有声书朗读",
  "preview_text": "大家好，欢迎收听今天的节目",
  "language": "zh",
  "preferred_name": "zhixing",
  "sample_rate": 24000,
  "response_format": "wav"
}

响应示例

{
  "code": 200,
  "message": "设计声音创建成功",
  "data": {
    "target_model": "qwen3-tts-vd-2026-01-26",
    "voice": "qwen-tts-vd-yuntts-voice-xxx",
    "preview_audio": {
      "data": "base64_encoded_audio_data",
      "sample_rate": 24000,
      "response_format": "wav"
    }
  }
}

4. 删除音色

请求URL:

POST https://www.yuntts.com/api/v1/qwen3-delete-voice

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content-Type	string	是	application/json

请求参数

参数名	类型	必填	说明
modelId	string	是	音色ID（也支持 `voice` 参数名）
voice_type	string	否	音色类型：`voice_cloning`(声音复刻，默认), `voice_design`(声音设计)

注意：根据音色类型选择正确的模型进行删除：

voice_cloning：使用 qwen-voice-enrollment 模型
voice_design：使用 qwen-voice-design 模型

权限说明

只有音色创建者和管理员可以删除
删除前会验证权限

请求示例

{
  "modelId": "qwen-tts-vc-yuntts-voice-xxx",
  "voice_type": "voice_cloning"
}

响应示例

{
  "code": 200,
  "message": "删除成功",
  "data": {
    "voice": "qwen-tts-vc-yuntts-voice-xxx",
    "voice_type": "voice_cloning",
    "request_id": "yourRequestId"
  }
}

系统音色

系统音色请查看《Qwen3-TTS系统音色列表》

模型选型指南

场景	推荐模型	说明
通用语音合成	`qwen3-tts-instruct-flash`	按字符计费，支持指令控制
声音复刻	`qwen3-tts-vc-2026-01-22`	基于音频样本克隆音色
声音设计	`qwen3-tts-vd-2026-01-26`	基于文本描述创建音色

支持的模型列表

语音合成模型

qwen3-tts-instruct-flash - 支持指令控制的语音合成模型

声音克隆（Voice Cloning）

声音克隆模型：qwen-voice-enrollment
驱动音色的语音合成模型：
- qwen3-tts-vc-2026-01-22（非流式，推荐）

声音设计（Voice Design）

声音设计模型：qwen-voice-design
驱动音色的语音合成模型：
- qwen3-tts-vd-2026-01-26（非流式，推荐）

重要提示：创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致

计费说明

字符计费规则

汉字按 2 个字符计算
其他字符（英文、数字、符号等）按 1 个字符计算

模型价格（元/万字符）

模型	价格
`qwen3-tts-vc-2026-01-22`	2.0
`qwen3-tts-vd-2026-01-26`	2.0
`qwen3-tts-instruct-flash`	1.5
其他模型	1.5

会员折扣

永久会员: 8 折
VIP会员: 9 折

免费额度

仅会员用户可享受
每月免费额度可在后台设置
免费额度用完后正常计费

最低扣费

每次合成最低扣费 0.01 元

计费流程

计算字符数
根据模型计算基础费用
应用会员折扣
使用免费额度（如有）
扣除余额（如需要）
调用 API
失败自动退款

错误码

HTTP 状态码	错误码	说明
400	`model_required`	模型参数不能为空
400	`voice_required`	音色参数不能为空
400	`text_required`	文本参数不能为空
400	`insufficient_balance`	余额不足
400	`model_limit_exceeded`	模型数量超过限制
401	-	未授权或 API Key 无效
403	`permission_denied`	没有权限删除该音色
404	`voice_not_found`	音色不存在
500	`api_request_failed`	API 请求失败
500	`balance_deduction_failed`	余额扣除失败
500	`order_creation_failed`	订单创建失败
500	`synthesis_failed`	语音合成失败

注意事项

声音复刻/设计与语音合成的关联：创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致
音频URL有效期：非流式合成返回的音频URL有效期为24小时
模型限制：
- 普通用户最多创建 2 个音色
- VIP 会员用户最多创建 10 个音色
- 永久会员用户无限制

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Qwen3-TTS 开发者API接口对接文档

前言说明

概述

在线调试

接口列表

1. 语音合成

请求URL:

请求头

请求参数

请求示例

响应示例

2. 声音克隆

音频要求

请求URL:

请求头

请求参数

请求示例

使用远程音频URL

音频上传

响应示例

3. 声音设计

请求URL:

请求头

请求参数

voice_prompt 编写指南

请求示例

响应示例

4. 删除音色

请求URL:

请求头

请求参数

权限说明

请求示例

响应示例

系统音色

模型选型指南

支持的模型列表

语音合成模型

声音克隆（Voice Cloning）

声音设计（Voice Design）

计费说明

字符计费规则

模型价格（元/万字符）

会员折扣

免费额度

最低扣费

计费流程

错误码

注意事项

相关文章

Qwen3-TTS模型介绍与功能演示说明

Qwen3-TTS在线文字转语音｜3秒克隆音色，多语言免费TTS工具推荐

2026年4月语音合成模型排行榜：国产模型领跑，中文语音合成进入高质量时代

Index-TTS-2声音克隆神器：支持50系列显卡，一键整合包解压即用！

评论(0)

提示：请文明发言 取消回复

标签

提示：请文明发言取消回复