TTS 模式
PhantomVox 提供三种强大的文本转语音模式,满足不同的使用场景。
模式概览
| 模式 | 适用场景 | 特点 |
|---|---|---|
| 自定义声音 | 日常使用,快速生成 | 预定义说话人,使用简单 |
| 声音设计 | 创意制作,个性化需求 | 通过描述创建声音,灵活性高 |
| 声音克隆 | 还原特定人物声音 | 需要参考音频,效果逼真 |
1. 自定义声音模式
这是最常用的模式,提供多种预定义的说话人声音。
使用方法
- 在主界面选择"自定义声音"标签
- 从下拉菜单中选择说话人
- 在情感指令框中输入情感描述(可选)
- 调整其他参数
- 点击生成
情感指令示例
- 开心、愉悦的语调
- 平静、专业的声音
- 激动、充满活力的表达
- 温柔、亲切的语气参数说明
- 声音类型: 选择不同的预定义说话人
2. 声音设计模式
通过自然语言描述来设计您想要的声音。
使用方法
- 在主界面选择"声音设计"标签
- 在声音描述框中详细描述目标声音
- 调整生成参数
- 点击生成
声音描述技巧
好的描述应该包含:
- 性别和年龄: "年轻女性的声音"、"中年男性的声音"
- 音色特征: "清澈明亮"、"低沉磁性"、"温柔甜美"
- 说话风格: "专业播音腔"、"亲切聊天"、"正式演讲"
- 情感基调: "愉悦欢快"、"沉稳冷静"、"热情洋溢"
描述示例
示例 1:
一个20多岁女性的声音,清澈明亮,说话亲切自然,
带有轻微的南方口音,语调轻快愉悦。
示例 2:
中年男性的声音,低沉磁性,专业沉稳,
适合新闻播报或商务演示,语速适中。
示例 3:
年轻男性的声音,充满活力和激情,
适合游戏解说或运动解说,语速较快。3. 声音克隆模式
使用参考音频来克隆特定的声音。
使用方法
- 在主界面选择"声音克隆"标签
- 上传参考音频文件
- 输入要转换的文本
- 调整克隆参数
- 点击生成
参考音频要求
为获得最佳克隆效果,参考音频应满足:
- 时长: 建议 3-10 秒
- 格式: 支持 WAV、MP3、FLAC 等常见格式
- 内容: 清晰的人声,无背景音乐
- 质量: 高质量录音,无杂音
- 说话人: 单一说话人,声音清晰
模式选择建议
场景推荐
| 使用场景 | 推荐模式 |
|---|---|
| 有声书朗读 | 自定义声音 |
| 游戏角色配音 | 声音设计 |
| 模仿名人声音 | 声音克隆 |
| 客服语音 | 自定义声音 |
| 播客制作 | 声音设计 |
| 还原本人声音 | 声音克隆 |
高级技巧
组合使用
先用设计模式创建基础声音
- 描述一个接近目标的声音
- 生成并保存
再用克隆模式
- 使用设计模式生成的音频作为参考
- 通过克隆保证一致性
下一步
- 设置说明 - 了解更多配置选项