快速入门

本指南将带您快速了解如何使用 PhantomVox。

QQ交流群

群号：1083748611 加群链接

启动应用

运行启动脚本：

batch

start.bat

使用整合包时，请使用 start_embed.bat 启动。

基本使用流程

GUI 模式

输入文本 - 在文本输入框中输入要转换为语音的文本
调整参数 - 调整更多参数设置
生成语音 - 点击"生成语音"按钮生成并播放语音
保存音频 - 点击"保存音频"按钮将生成的语音保存为 WAV 文件

界面说明

主界面组件

文本输入区: 输入要转换的文字内容
参数控制: 调节情感指令，语音设计，克隆等参数
播放控制: 播放、暂停、停止生成的音频
保存功能: 将生成的音频保存到本地
日志面板: 查看实时操作日志和调试信息

TTS 模式

PhantomVox 提供三种 TTS 模式：

1. 自定义声音模式

使用预定义的说话人，并可以添加情感指令。

2. 声音设计模式

通过自然语言描述来设计和创建自定义声音。

3. 声音克隆模式

使用参考音频文件来克隆特定的声音。

详细说明请参阅 TTS 模式文档。

API 模式（开发中）

项目同时提供 HTTP API 服务，支持 OpenAI 兼容的 TTS 接口。

启动 API 服务器：

batch

python src\api\main.py

API 端点：

POST /v1/audio/speech - OpenAI 兼容的 TTS 接口
GET /health - 健康检查
GET /status - 服务状态

详细 API 文档请访问：http://localhost:8000/docs 或查看 API 文档

常见问题

如何提高生成速度？

确保使用 NVIDIA GPU 并安装正确的驱动
在设置中启用 CUDA 加速

生成的音频质量不佳？

尝试以下方法：

调整输入的参数
尝试不同的声音类型

下一步

TTS 模式详解 - 深入了解三种 TTS 模式
设置说明 - 了解详细的配置选项
API 文档 - 集成 API 到您的应用

快速入门 ​

QQ交流群 ​

启动应用 ​

基本使用流程 ​

GUI 模式 ​

界面说明 ​

主界面组件 ​

TTS 模式 ​

1. 自定义声音模式 ​

2. 声音设计模式 ​

3. 声音克隆模式 ​

API 模式 （开发中） ​

常见问题 ​

如何提高生成速度？ ​

生成的音频质量不佳？ ​

下一步 ​