Skip to content

快速入门

本指南将带您快速了解如何使用 PhantomVox。

启动应用

运行启动脚本:

batch
start.bat

使用整合包时,请使用 start_embed.bat 启动。

基本使用流程

GUI 模式

  1. 输入文本 - 在文本输入框中输入要转换为语音的文本

  2. 调整参数 - 调整更多参数设置

  3. 生成语音 - 点击"生成语音"按钮生成并播放语音

  4. 保存音频 - 点击"保存音频"按钮将生成的语音保存为 WAV 文件

界面说明

主界面组件

  • 文本输入区: 输入要转换的文字内容
  • 参数控制: 调节情感指令,语音设计,克隆等参数
  • 播放控制: 播放、暂停、停止生成的音频
  • 保存功能: 将生成的音频保存到本地
  • 日志面板: 查看实时操作日志和调试信息

TTS 模式

PhantomVox 提供三种 TTS 模式:

1. 自定义声音模式

使用预定义的说话人,并可以添加情感指令。

2. 声音设计模式

通过自然语言描述来设计和创建自定义声音。

3. 声音克隆模式

使用参考音频文件来克隆特定的声音。

详细说明请参阅 TTS 模式 文档。

API 模式 (开发中)

项目同时提供 HTTP API 服务,支持 OpenAI 兼容的 TTS 接口。

启动 API 服务器

batch
python src\api\main.py

API 端点

  • POST /v1/audio/speech - OpenAI 兼容的 TTS 接口
  • GET /health - 健康检查
  • GET /status - 服务状态

详细 API 文档请访问:http://localhost:8000/docs 或查看 API 文档

常见问题

如何提高生成速度?

  • 确保使用 NVIDIA GPU 并安装正确的驱动
  • 在设置中启用 CUDA 加速

生成的音频质量不佳?

尝试以下方法:

  • 调整输入的参数
  • 尝试不同的声音类型

下一步