前言说明
Qwen3-TTS 是阿里巴巴通义千问团队开源的新一代多语言文本转语音模型,依托 Qwen3 大模型体系打造,提供高拟人度自然音色,覆盖中、英、日、韩等 10 种主流语言与多种方言,音色表现力丰富。模型支持声音复刻与声音设计双定制路径:3 秒短音频即可完成高保真声纹复刻,也可通过自然语言描述直接生成专属虚拟音色。
概述
基础URL: https://www.yuntts.com/api/v1
认证方式: 在请求头中添加 Authorization: Bearer {api_key}
接口列表
| 接口 | 路径 | 方法 | 说明 |
|---|---|---|---|
| 语音合成 | https://www.yuntts.com/qwen3-synthesize |
POST | 将文本转换为语音 |
| 声音克隆 | https://www.yuntts.com/qwen3-create-voice |
POST | 基于音频样本克隆音色 |
| 声音设计 | https://www.yuntts.com/qwen3-create-design-voice |
POST | 基于文本描述设计音色 |
| 删除音色 | https://www.yuntts.com/qwen3-delete-voice |
POST | 删除已创建的音色 |
1. 语音合成
请求
URL: POST https://www.yuntts.com/api/v1/qwen3-synthesize
Content-Type: application/json
Headers:
Authorization: Bearer {api_key}
Content-Type: application/json
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| model | string | 是 | 合成模型, |
| voice | string | 是 | 音色ID,系统音色或自定义音色 |
| text | string | 是 | 要合成的文本,最长500Token |
| language_type | string | 否 | 语言类型:Auto(默认), Chinese, English, Japanese, Korean 等 |
| response_format | string | 否 | 输出格式:mp3(默认), wav, pcm, ogg |
| sample_rate | int | 否 | 采样率:16000, 24000(默认), 44100, 48000 |
| instructions | string | 否 | 指令控制(仅Instruct模型支持) |
| optimize_instructions | boolean | 否 | 是否优化指令,默认false |
请求示例
{
"model": "qwen3-tts-instruct-flash",
"voice": "Cherry",
"text": "欢迎使用语音合成服务",
"language_type": "Chinese",
"response_format": "mp3",
"sample_rate": 24000
}
响应示例
{
"code": 200,
"message": "语音合成成功",
"data": {
"audio": {
"url": "https://xxx.oss-cn-beijing.aliyuncs.com/xxx.mp3",
"id": "audio_xxx",
"expires_at": 1766113409
},
"finish_reason": "stop"
},
"char_count": 10,
"cost": 0.01
}
2. 声音克隆
基于音频样本快速复刻音色,打造拟人化品牌声纹。
音频要求
| 项目 | 要求 |
|---|---|
| 支持格式 | WAV (16bit)、MP3、M4A |
| 音频时长 | 推荐10~20秒,最长60秒 |
| 文件大小 | < 10 MB |
| 采样率 | ≥ 24 kHz |
| 声道 | 单声道 |
请求
URL: POST https://www.yuntts.com/api/v1/qwen3-create-voice
Content-Type: multipart/form-data
Headers:
Authorization: Bearer {api_key}
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| name | string | 是 | 音色名称,最多20字符 |
| target_model | string | 是 | 目标模型:仅支持 qwen3-tts-vc-2026-01-22 |
| file | file | 是 | 音频文件 |
| language | string | 否 | 语言:zh(默认), en, ja, ko |
| description | string | 否 | 音色描述 |
| preferred_name | string | 否 | 音色前缀,默认yuntts |
请求示例
curl -X POST https://www.yuntts.com/api/v1/qwen3-create-voice
-H "Authorization: Bearer {api_key}"
-F "name=我的音色"
-F "target_model=qwen3-tts-vc-2026-01-22"
-F "language=zh"
-F "file=@/path/to/audio.mp3"
响应示例
{
"code": 200,
"message": "声音创建成功",
"data": {
"target_model": "qwen3-tts-vc-2026-01-22",
"voice": "qwen-tts-vc-yuntts-voice-xxx"
}
}
3. 声音设计
通过文本描述生成定制化音色,无需音频样本。
请求
URL: POST https://www.yuntts.com/api/v1/qwen3-create-design-voice
Content-Type: application/json
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| name | string | 是 | 音色名称,最多20字符 |
| target_model | string | 是 | 目标模型:仅支持 qwen3-tts-vd-2026-01-26 |
| voice_prompt | string | 是 | 声音描述,最多2048字符 |
| preview_text | string | 是 | 预览文本 |
| language | string | 否 | 语言:zh(默认), en 等 |
| description | string | 否 | 音色描述 |
注意:仅支持非流式模型,不支持实时流式模型
voice_prompt 编写指南
| 维度 | 描述示例 |
|---|---|
| 性别 | 男性、女性、中性 |
| 年龄 | 儿童、青少年、青年、中年、老年 |
| 音调 | 高音、中音、低音 |
| 语速 | 快速、中速、缓慢 |
| 情感 | 开朗、沉稳、温柔、严肃、活泼 |
| 特点 | 有磁性、清脆、沙哑、圆润、甜美 |
推荐示例:
- "年轻活泼的女性声音,语速较快,适合介绍时尚产品"
- "沉稳的中年男性,语速缓慢,音色低沉有磁性,适合新闻播报"
请求示例
{
"name": "知性女声",
"target_model": "qwen3-tts-vd-2026-01-26",
"voice_prompt": "温柔知性的女性,30岁左右,语调平和,适合有声书朗读",
"preview_text": "大家好,欢迎收听今天的节目",
"language": "zh"
}
响应示例
{
"code": 200,
"message": "设计声音创建成功",
"data": {
"target_model": "qwen3-tts-vd-2026-01-26",
"voice": "qwen-tts-vd-yuntts-voice-xxx"
}
}
4. 删除音色
请求
URL: POST https://www.yuntts.com/api/v1/qwen3-delete-voice
Content-Type: application/json
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| modelId | string | 是 | 音色ID(也支持 voice 参数名) |
权限说明
- 只有音色创建者和管理员可以删除
- 删除前会验证权限
请求示例
{
"modelId": "qwen-tts-vc-yuntts-voice-xxx"
}
响应示例
{
"code": 200,
"message": "删除成功"
}
模型选型指南
| 场景 | 推荐模型 | 说明 |
|---|---|---|
| 通用语音合成 | qwen3-tts-instruct-flash |
按字符计费,支持指令控制 |
| 声音复刻 | qwen3-tts-vc-2026-01-22 |
基于音频样本克隆音色 |
| 声音设计 | qwen3-tts-vd-2026-01-26 |
基于文本描述创建音色 |
支持的模型列表
语音合成模型
qwen3-tts-instruct-flash- 支持指令控制的语音合成模型
声音克隆(Voice Cloning)
- 声音克隆模型:
qwen-voice-enrollment - 驱动音色的语音合成模型:
qwen3-tts-vc-2026-01-22(非流式,推荐)
声音设计(Voice Design)
- 声音设计模型:
qwen-voice-design - 驱动音色的语音合成模型:
qwen3-tts-vd-2026-01-26(非流式,推荐)
重要提示:创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致
计费说明
字符计费规则
- 汉字按 2 个字符计算
- 其他字符(英文、数字、符号等)按 1 个字符计算
模型价格(元/万字符)
| 模型 | 价格 |
|---|---|
qwen3-tts-vc-2026-01-22 |
2.0 |
qwen3-tts-vd-2026-01-26 |
2.0 |
qwen3-tts-instruct-flash |
1.5 |
| 其他模型 | 1.5 |
会员折扣
- 永久会员: 8 折
- VIP会员: 9 折
免费额度
- 仅会员用户可享受
- 每月免费额度可在后台设置
- 免费额度用完后正常计费
最低扣费
- 每次合成最低扣费 0.01 元
计费流程
- 计算字符数
- 根据模型计算基础费用
- 应用会员折扣
- 使用免费额度(如有)
- 扣除余额(如需要)
- 调用 API
- 失败自动退款
错误码
| HTTP 状态码 | 错误码 | 说明 |
|---|---|---|
| 400 | model_required |
模型参数不能为空 |
| 400 | voice_required |
音色参数不能为空 |
| 400 | text_required |
文本参数不能为空 |
| 400 | insufficient_balance |
余额不足 |
| 400 | model_limit_exceeded |
模型数量超过限制 |
| 401 | - | 未授权或 API Key 无效 |
| 403 | permission_denied |
没有权限删除该音色 |
| 404 | voice_not_found |
音色不存在 |
| 500 | api_request_failed |
API 请求失败 |
| 500 | balance_deduction_failed |
余额扣除失败 |
| 500 | order_creation_failed |
订单创建失败 |
| 500 | synthesis_failed |
语音合成失败 |
注意事项
- 声音复刻/设计与语音合成的关联:创建音色时指定的
target_model必须与后续语音合成时使用的模型一致 - 音频URL有效期:非流式合成返回的音频URL有效期为24小时
- 模型限制:
- 普通用户最多创建 2 个音色
- VIP 会员用户最多创建 10 个音色
- 永久会员 用户无限制
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)