快速入门
本指南将带您快速了解如何使用 PhantomVox。
启动应用
运行启动脚本:
batch
start.bat使用整合包时,请使用 start_embed.bat 启动。
基本使用流程
GUI 模式
输入文本 - 在文本输入框中输入要转换为语音的文本
调整参数 - 调整更多参数设置
生成语音 - 点击"生成语音"按钮生成并播放语音
保存音频 - 点击"保存音频"按钮将生成的语音保存为 WAV 文件
界面说明
主界面组件
- 文本输入区: 输入要转换的文字内容
- 参数控制: 调节情感指令,语音设计,克隆等参数
- 播放控制: 播放、暂停、停止生成的音频
- 保存功能: 将生成的音频保存到本地
- 日志面板: 查看实时操作日志和调试信息
TTS 模式
PhantomVox 提供三种 TTS 模式:
1. 自定义声音模式
使用预定义的说话人,并可以添加情感指令。
2. 声音设计模式
通过自然语言描述来设计和创建自定义声音。
3. 声音克隆模式
使用参考音频文件来克隆特定的声音。
详细说明请参阅 TTS 模式 文档。
API 模式 (开发中)
项目同时提供 HTTP API 服务,支持 OpenAI 兼容的 TTS 接口。
启动 API 服务器:
batch
python src\api\main.pyAPI 端点:
POST /v1/audio/speech- OpenAI 兼容的 TTS 接口GET /health- 健康检查GET /status- 服务状态
详细 API 文档请访问:http://localhost:8000/docs 或查看 API 文档
常见问题
如何提高生成速度?
- 确保使用 NVIDIA GPU 并安装正确的驱动
- 在设置中启用 CUDA 加速
生成的音频质量不佳?
尝试以下方法:
- 调整输入的参数
- 尝试不同的声音类型