本文为Fish‑Speech V2版本语音合成精细控制功能说明,用于实现对语音生成过程的精准调控,提升语音自然度与表现力。
一、使用须知
启用精细控制功能后,模型对数字、日期、URL的朗读稳定性可能下降,如需保证这类内容的准确播报,建议手动处理相关文本片段以获得最佳合成效果。
二、音素控制(精准发音)
音素控制可指定字词的精确发音,支持中英双语标注,适配不同发音需求。
- 支持体系
- 英语:CMU Arpabet
- 中文:汉语拼音
- 使用格式
用 <|phoneme_start|> 与 <|phoneme_end|> 标签包裹目标发音,每个标签内仅放单个字词或单字。
- 示例
- 英文
普通:I am an engineer.
控制:I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.
- 中文
普通:我是一个工程师。
控制:我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。
三、副语言控制(自然语气)
副语言控制用于添加停顿、语气词与拟声效果,让合成语音更贴近真人表达习惯。
1. 停顿词
直接插入口语化停顿词调节节奏:
- 中文:嗯、啊
- 英文:um、uh
2. 特殊效果(V2实验性功能)
用英文括号 () 包裹效果标识即可触发,当前均为实验阶段:
| 效果标识 | 作用 | 版本 | 状态 |
|---|---|---|---|
| (break) | 短暂停顿 | V2 | 实验性 |
| (long-break) | 延长停顿 | V2 | 实验性 |
| (breath) | 呼吸声 | V2 | 实验性 |
| (laugh) | 笑声 | V2 | 实验性 |
| (cough) | 咳嗽声 | V2 | 实验性 |
| (lip-smacking) | 咂嘴声 | V2 | 实验性 |
| (sigh) | 叹息声 | V2 | 实验性 |
3. 效果说明
- (laugh)、(cough)、(lip-smacking)、(sigh) 仍在开发优化中,可重复使用以提升效果呈现率。
- 示例
- 英文
普通:I am an engineer.
增强:I am, um, an (break) engineer.
- 中文
普通:我是一名工程师。
增强:我,嗯,是一名(break)工程师。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)