本文为Fish‑Speech V2版本语音合成精细控制功能说明,用于实现对语音生成过程的精准调控,提升语音自然度与表现力。


一、使用须知

启用精细控制功能后,模型对数字、日期、URL的朗读稳定性可能下降,如需保证这类内容的准确播报,建议手动处理相关文本片段以获得最佳合成效果。

Fish-Speech语音合成精细控制V2版本使用说明 1


二、音素控制(精准发音)

音素控制可指定字词的精确发音,支持中英双语标注,适配不同发音需求。

  • 支持体系
    • 英语:CMU Arpabet
    • 中文:汉语拼音
  • 使用格式

<|phoneme_start|><|phoneme_end|> 标签包裹目标发音,每个标签内仅放单个字词或单字。

  • 示例
    • 英文

    普通:I am an engineer.

    控制:I am an <|phoneme_start|>EH N JH AH N IH R<|phoneme_end|>.

    • 中文

    普通:我是一个工程师。

    控制:我是一个<|phoneme_start|>gong1<|phoneme_end|><|phoneme_start|>cheng2<|phoneme_end|><|phoneme_start|>shi1<|phoneme_end|>。


三、副语言控制(自然语气)

副语言控制用于添加停顿、语气词与拟声效果,让合成语音更贴近真人表达习惯。

1. 停顿词

直接插入口语化停顿词调节节奏:

  • 中文:嗯、啊
  • 英文:um、uh

2. 特殊效果(V2实验性功能)

用英文括号 () 包裹效果标识即可触发,当前均为实验阶段:

效果标识 作用 版本 状态
(break) 短暂停顿 V2 实验性
(long-break) 延长停顿 V2 实验性
(breath) 呼吸声 V2 实验性
(laugh) 笑声 V2 实验性
(cough) 咳嗽声 V2 实验性
(lip-smacking) 咂嘴声 V2 实验性
(sigh) 叹息声 V2 实验性

3. 效果说明

  • (laugh)、(cough)、(lip-smacking)、(sigh) 仍在开发优化中,可重复使用以提升效果呈现率。
  • 示例
    • 英文

    普通:I am an engineer.

    增强:I am, um, an (break) engineer.

    • 中文

    普通:我是一名工程师。

    增强:我,嗯,是一名(break)工程师。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。