Skip to content

TTS 模式

PhantomVox 提供三种强大的文本转语音模式,满足不同的使用场景。

模式概览

模式适用场景特点
自定义声音日常使用,快速生成预定义说话人,使用简单
声音设计创意制作,个性化需求通过描述创建声音,灵活性高
声音克隆还原特定人物声音需要参考音频,效果逼真

1. 自定义声音模式

这是最常用的模式,提供多种预定义的说话人声音。

使用方法

  1. 在主界面选择"自定义声音"标签
  2. 从下拉菜单中选择说话人
  3. 在情感指令框中输入情感描述(可选)
  4. 调整其他参数
  5. 点击生成

情感指令示例

- 开心、愉悦的语调
- 平静、专业的声音
- 激动、充满活力的表达
- 温柔、亲切的语气

参数说明

  • 声音类型: 选择不同的预定义说话人

2. 声音设计模式

通过自然语言描述来设计您想要的声音。

使用方法

  1. 在主界面选择"声音设计"标签
  2. 在声音描述框中详细描述目标声音
  3. 调整生成参数
  4. 点击生成

声音描述技巧

好的描述应该包含:

  • 性别和年龄: "年轻女性的声音"、"中年男性的声音"
  • 音色特征: "清澈明亮"、"低沉磁性"、"温柔甜美"
  • 说话风格: "专业播音腔"、"亲切聊天"、"正式演讲"
  • 情感基调: "愉悦欢快"、"沉稳冷静"、"热情洋溢"

描述示例

示例 1:
一个20多岁女性的声音,清澈明亮,说话亲切自然,
带有轻微的南方口音,语调轻快愉悦。

示例 2:
中年男性的声音,低沉磁性,专业沉稳,
适合新闻播报或商务演示,语速适中。

示例 3:
年轻男性的声音,充满活力和激情,
适合游戏解说或运动解说,语速较快。

3. 声音克隆模式

使用参考音频来克隆特定的声音。

使用方法

  1. 在主界面选择"声音克隆"标签
  2. 上传参考音频文件
  3. 输入要转换的文本
  4. 调整克隆参数
  5. 点击生成

参考音频要求

为获得最佳克隆效果,参考音频应满足:

  • 时长: 建议 3-10 秒
  • 格式: 支持 WAV、MP3、FLAC 等常见格式
  • 内容: 清晰的人声,无背景音乐
  • 质量: 高质量录音,无杂音
  • 说话人: 单一说话人,声音清晰

模式选择建议

场景推荐

使用场景推荐模式
有声书朗读自定义声音
游戏角色配音声音设计
模仿名人声音声音克隆
客服语音自定义声音
播客制作声音设计
还原本人声音声音克隆

高级技巧

组合使用

  1. 先用设计模式创建基础声音

    • 描述一个接近目标的声音
    • 生成并保存
  2. 再用克隆模式

    • 使用设计模式生成的音频作为参考
    • 通过克隆保证一致性

下一步