前言说明
Qwen3-TTS 是阿里通义千问团队开源的新一代多语言文本转语音模型,依托 Qwen3 大模型体系打造,提供高拟人度自然音色,覆盖中、英、日、韩等 10 种主流语言与多种方言,音色表现力丰富。模型支持声音复刻与声音设计双定制路径:3 秒短音频即可完成高保真声纹复刻,也可通过自然语言描述直接生成专属虚拟音色。
概述
基础URL: https://www.yuntts.com/api/v1
认证方式: 在请求头中添加 Authorization: Bearer {api_key}
接口列表
| 接口 | 路径 | 方法 | 说明 |
|---|---|---|---|
| 语音合成 | https://www.yuntts.com/api/v1/qwen3-synthesize | POST | 将文本转换为语音 |
| 声音克隆 | https://www.yuntts.com/api/v1/qwen3-create-voice | POST | 基于音频样本克隆音色 |
| 声音设计 | https://www.yuntts.com/api/v1/qwen3-create-design-voice | POST | 基于文本描述设计音色 |
| 删除音色 | https://www.yuntts.com/api/v1/qwen3-delete-voice | POST | 删除已创建的音色 |
1. 语音合成
请求URL:
POST https://www.yuntts.com/api/v1/qwen3-synthesize
请求头
| 字段名 | 类型 | 必填 | 描述 |
|---|---|---|---|
| Authorization | string | 是 | Bearer Token |
| Content-Type | string | 是 | application/json |
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| model | string | 是 | 合成模型,如:qwen3-tts-flash, qwen3-tts-instruct-flash, qwen3-tts-vc-2026-01-22, qwen3-tts-vd-2026-01-26 |
| voice | string | 是 | 音色ID,系统音色或自定义音色 |
| text | string | 是 | 要合成的文本,最长512 Token |
| language_type | string | 否 | 语言类型:Auto(默认), Chinese, English, Japanese, Korean 等 |
| response_format | string | 否 | 输出格式:mp3(默认), wav, pcm, ogg |
| sample_rate | int | 否 | 采样率:16000, 24000(默认), 44100, 48000 |
| instructions | string | 否 | 指令控制(仅qwen3-tts-instruct-flash模型支持),最多1600 Token |
| optimize_instructions | boolean | 否 | 是否优化指令,默认false(仅qwen3-tts-instruct-flash模型支持) |
| stream | boolean | 否 | 是否流式输出,默认false |
注意:语速/音调/音量控制请通过 instructions 参数实现(仅qwen3-tts-instruct-flash支持)。
请求示例
{
"model": "qwen3-tts-instruct-flash",
"voice": "Cherry",
"text": "欢迎使用语音合成服务",
"language_type": "Chinese",
"response_format": "mp3",
"sample_rate": 24000
}
响应示例
{
"code": 200,
"message": "语音合成成功",
"data": {
"audio": {
"url": "https://xxx.oss-cn-beijing.aliyuncs.com/xxx.mp3",
"id": "audio_xxx",
"expires_at": 1766113409
},
"finish_reason": "stop"
},
"char_count": 10,
"cost": 0.01
}
2. 声音克隆
基于音频样本快速复刻音色,打造拟人化品牌声纹。
音频要求
| 项目 | 要求 |
|---|---|
| 支持格式 | WAV (16bit)、MP3、M4A |
| 音频时长 | 推荐10~20秒,最长60秒 |
| 文件大小 | < 10 MB |
| 采样率 | ≥ 24 kHz |
| 声道 | 单声道 |
请求URL:
POST https://www.yuntts.com/api/v1/qwen3-create-voice
请求头
| 字段名 | 类型 | 必填 | 描述 |
|---|---|---|---|
| Authorization | string | 是 | Bearer Token |
| Content-Type | string | 是 | multipart/form-data |
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| name | string | 是 | 音色名称,最多20字符 |
| target_model | string | 是 | 目标模型:qwen3-tts-vc-2026-01-22 |
| file | file | 是 | 音频文件 |
| language | string | 否 | 语言:zh(默认), en, ja, ko 等 |
| description | string | 否 | 音色描述 |
| preferred_name | string | 否 | 音色标识名,仅允许数字、英文字母和下划线,不超过16个字符,默认yuntts |
请求示例
curl -X POST https://www.yuntts.com/api/v1/qwen3-create-voice
-H "Authorization: Bearer {api_key}"
-F "name=我的音色"
-F "target_model=qwen3-tts-vc-2026-01-22"
-F "language=zh"
-F "file=@/path/to/audio.mp3"
响应示例
{
"code": 200,
"message": "声音创建成功",
"data": {
"target_model": "qwen3-tts-vc-2026-01-22",
"voice": "qwen-tts-vc-yuntts-voice-xxx"
}
}
3. 声音设计
通过文本描述生成定制化音色,无需音频样本。
请求URL:
POST https://www.yuntts.com/api/v1/qwen3-create-design-voice
请求头
| 字段名 | 类型 | 必填 | 描述 |
|---|---|---|---|
| Authorization | string | 是 | Bearer Token |
| Content-Type | string | 是 | application/json |
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| name | string | 是 | 音色名称,最多20字符 |
| target_model | string | 是 | 目标模型:qwen3-tts-vd-2026-01-26 |
| voice_prompt | string | 是 | 声音描述,最多2048字符,仅支持中文和英文 |
| preview_text | string | 是 | 预览文本,最多1024字符 |
| language | string | 否 | 语言:zh(默认), en 等 |
| description | string | 否 | 音色描述 |
| preferred_name | string | 否 | 音色标识名,仅允许数字、英文字母和下划线,不超过16个字符,默认yuntts |
| sample_rate | int | 否 | 预览音频采样率:8000, 16000, 24000(默认), 48000 |
| response_format | string | 否 | 预览音频格式:pcm, wav(默认), mp3, opus |
注意:仅支持非流式模型,不支持实时流式模型
voice_prompt 编写指南
| 维度 | 描述示例 |
|---|---|
| 性别 | 男性、女性、中性 |
| 年龄 | 儿童、青少年、青年、中年、老年 |
| 音调 | 高音、中音、低音 |
| 语速 | 快速、中速、缓慢 |
| 情感 | 开朗、沉稳、温柔、严肃、活泼 |
| 特点 | 有磁性、清脆、沙哑、圆润、甜美 |
推荐示例:
- "年轻活泼的女性声音,语速较快,适合介绍时尚产品"
- "沉稳的中年男性,语速缓慢,音色低沉有磁性,适合新闻播报"
请求示例
{
"name": "知性女声",
"target_model": "qwen3-tts-vd-2026-01-26",
"voice_prompt": "温柔知性的女性,30岁左右,语调平和,适合有声书朗读",
"preview_text": "大家好,欢迎收听今天的节目",
"language": "zh",
"preferred_name": "zhixing",
"sample_rate": 24000,
"response_format": "wav"
}
响应示例
{
"code": 200,
"message": "设计声音创建成功",
"data": {
"target_model": "qwen3-tts-vd-2026-01-26",
"voice": "qwen-tts-vd-yuntts-voice-xxx",
"preview_audio": {
"data": "base64_encoded_audio_data",
"sample_rate": 24000,
"response_format": "wav"
}
}
}
4. 删除音色
请求URL:
POST https://www.yuntts.com/api/v1/qwen3-delete-voice
请求头
| 字段名 | 类型 | 必填 | 描述 |
|---|---|---|---|
| Authorization | string | 是 | Bearer Token |
| Content-Type | string | 是 | application/json |
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| modelId | string | 是 | 音色ID(也支持 voice 参数名) |
|
voice_type |
string |
否 |
音色类型: |
注意:根据音色类型选择正确的模型进行删除:
- voice_cloning:使用 qwen-voice-enrollment 模型
- voice_design:使用 qwen-voice-design 模型
权限说明
- 只有音色创建者和管理员可以删除
- 删除前会验证权限
请求示例
{
"modelId": "qwen-tts-vc-yuntts-voice-xxx",
"voice_type": "voice_cloning"
}
响应示例
{
"code": 200,
"message": "删除成功",
"data": {
"voice": "qwen-tts-vc-yuntts-voice-xxx",
"voice_type": "voice_cloning",
"request_id": "yourRequestId"
}
}
系统音色
系统音色请查看《Qwen3-TTS系统音色列表》
模型选型指南
| 场景 | 推荐模型 | 说明 |
|---|---|---|
| 通用语音合成 | qwen3-tts-instruct-flash |
按字符计费,支持指令控制 |
| 声音复刻 | qwen3-tts-vc-2026-01-22 |
基于音频样本克隆音色 |
| 声音设计 | qwen3-tts-vd-2026-01-26 |
基于文本描述创建音色 |
支持的模型列表
语音合成模型
qwen3-tts-instruct-flash- 支持指令控制的语音合成模型
声音克隆(Voice Cloning)
- 声音克隆模型:
qwen-voice-enrollment - 驱动音色的语音合成模型:
qwen3-tts-vc-2026-01-22(非流式,推荐)
声音设计(Voice Design)
- 声音设计模型:
qwen-voice-design - 驱动音色的语音合成模型:
qwen3-tts-vd-2026-01-26(非流式,推荐)
重要提示:创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致
计费说明
字符计费规则
- 汉字按 2 个字符计算
- 其他字符(英文、数字、符号等)按 1 个字符计算
模型价格(元/万字符)
| 模型 | 价格 |
|---|---|
qwen3-tts-vc-2026-01-22 |
2.0 |
qwen3-tts-vd-2026-01-26 |
2.0 |
qwen3-tts-instruct-flash |
1.5 |
| 其他模型 | 1.5 |
会员折扣
- 永久会员: 8 折
- VIP会员: 9 折
免费额度
- 仅会员用户可享受
- 每月免费额度可在后台设置
- 免费额度用完后正常计费
最低扣费
- 每次合成最低扣费 0.01 元
计费流程
- 计算字符数
- 根据模型计算基础费用
- 应用会员折扣
- 使用免费额度(如有)
- 扣除余额(如需要)
- 调用 API
- 失败自动退款
错误码
| HTTP 状态码 | 错误码 | 说明 |
|---|---|---|
| 400 | model_required |
模型参数不能为空 |
| 400 | voice_required |
音色参数不能为空 |
| 400 | text_required |
文本参数不能为空 |
| 400 | insufficient_balance |
余额不足 |
| 400 | model_limit_exceeded |
模型数量超过限制 |
| 401 | - | 未授权或 API Key 无效 |
| 403 | permission_denied |
没有权限删除该音色 |
| 404 | voice_not_found |
音色不存在 |
| 500 | api_request_failed |
API 请求失败 |
| 500 | balance_deduction_failed |
余额扣除失败 |
| 500 | order_creation_failed |
订单创建失败 |
| 500 | synthesis_failed |
语音合成失败 |
注意事项
- 声音复刻/设计与语音合成的关联:创建音色时指定的
target_model必须与后续语音合成时使用的模型一致 - 音频URL有效期:非流式合成返回的音频URL有效期为24小时
- 模型限制:
- 普通用户最多创建 2 个音色
- VIP 会员用户最多创建 10 个音色
- 永久会员 用户无限制
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)