TTS 模式

PhantomVox 提供三种强大的文本转语音模式，满足不同的使用场景。

模式概览

模式	适用场景	特点
自定义声音	日常使用，快速生成	预定义说话人，使用简单
声音设计	创意制作，个性化需求	通过描述创建声音，灵活性高
声音克隆	还原特定人物声音	需要参考音频，效果逼真

1. 自定义声音模式

这是最常用的模式，提供多种预定义的说话人声音。

说话人列表

发言人	音色描述	母语
Vivian	明亮、略带个性的年轻女声	中文
Serena	温暖、温柔的年轻女声	中文
Uncle_Fu	沉稳醇厚、音色低沉的成熟男声	中文
Dylan	清新自然、京腔青年男声	中文（北京口音）
Eric	活泼爽朗、略带沙哑的成都男声	中文（四川方言）
Ryan	富有活力、节奏感强的男声	英语
Aiden	阳光清晰、中音通透的美式男声	英语
Ono_Anna	轻快灵动、俏皮可爱的女声	日语
Sohee	情感饱满、温暖亲切的女声	韩语

使用方法

在主界面选择"自定义声音"标签
从下拉菜单中选择说话人
在情感指令框中输入情感描述（可选）
调整其他参数
点击生成

情感指令示例

- 开心、愉悦的语调
- 平静、专业的声音
- 激动、充满活力的表达
- 温柔、亲切的语气

参数说明

声音类型: 选择不同的预定义说话人

2. 声音设计模式

通过自然语言描述来设计您想要的声音。

使用方法

在主界面选择"声音设计"标签
在声音描述框中详细描述目标声音
调整生成参数
点击生成

声音描述技巧

好的描述应该包含：

性别和年龄: "年轻女性的声音"、"中年男性的声音"
音色特征: "清澈明亮"、"低沉磁性"、"温柔甜美"
说话风格: "专业播音腔"、"亲切聊天"、"正式演讲"
情感基调: "愉悦欢快"、"沉稳冷静"、"热情洋溢"

描述示例

示例 1:
一个20多岁女性的声音，清澈明亮，说话亲切自然，
带有轻微的南方口音，语调轻快愉悦。

示例 2:
中年男性的声音，低沉磁性，专业沉稳，
适合新闻播报或商务演示，语速适中。

示例 3:
年轻男性的声音，充满活力和激情，
适合游戏解说或运动解说，语速较快。

3. 声音克隆模式

使用参考音频来克隆特定的声音。

使用方法

在主界面选择"声音克隆"标签
上传参考音频文件
输入要转换的文本
调整克隆参数
点击生成

参考音频要求

为获得最佳克隆效果，参考音频应满足：

时长: 建议 3-10 秒
格式: 支持 WAV、MP3、FLAC 等常见格式
内容: 清晰的人声，无背景音乐
质量: 高质量录音，无杂音
说话人: 单一说话人，声音清晰

模式选择建议

场景推荐

使用场景	推荐模式
有声书朗读	自定义声音
游戏角色配音	声音设计
模仿名人声音	声音克隆
客服语音	自定义声音
播客制作	声音设计
还原本人声音	声音克隆

高级技巧

组合使用

先用设计模式创建基础声音
- 描述一个接近目标的声音
- 生成并保存
再用克隆模式
- 使用设计模式生成的音频作为参考
- 通过克隆保证一致性

下一步

设置说明 - 了解更多配置选项

TTS 模式 ​

模式概览 ​

1. 自定义声音模式 ​

说话人列表 ​

使用方法 ​

情感指令示例 ​

参数说明 ​

2. 声音设计模式 ​

使用方法 ​

声音描述技巧 ​

描述示例 ​

3. 声音克隆模式 ​

使用方法 ​

参考音频要求 ​

模式选择建议 ​

场景推荐 ​

高级技巧 ​

组合使用 ​

下一步 ​

TTS 模式

模式概览

1. 自定义声音模式

说话人列表

使用方法

情感指令示例

参数说明

2. 声音设计模式

使用方法

声音描述技巧

描述示例

3. 声音克隆模式

使用方法

参考音频要求

模式选择建议

场景推荐

高级技巧

组合使用

下一步