安装指南

本文档将指导您完成 PhantomVox 的安装过程。

提示

整合包包含 PhantomVox 和CUDA12.8的Pytorch2.9.1,以及兼容的FlashAttention。可以使用整合包快速开始使用 PhantomVox。请查看整合包指南

QQ交流群

群号：1083748611 加群链接

系统要求

硬件要求

GPU: NVIDIA 显卡（推荐，需支持 CUDA 12.8）
- 显存建议 5GB 以上

软件要求

操作系统: Windows 10/11 (64-bit)
显卡驱动: NVIDIA 驱动版本 >= 527.41（支持 CUDA 12.8）

安装步骤

1. 环境配置

运行环境配置脚本之前，请确保已安装 Python 3.12。

注意: 带 _embed 后缀的是给整合包使用的脚本。

安装 SOX 音频处理工具：

访问 https://sourceforge.net/projects/sox/
下载并安装到系统

安装 FFMPEG 音频处理工具：

https://ffmpeg.org/download.html
下载安装，并将其添加到系统环境变量中

运行环境配置脚本：

batch

setup_env.bat

该脚本会自动完成以下操作：

升级 pip - 更新到最新版本
安装 PyTorch - 安装 PyTorch 2.9.1 + CUDA 12.8 版本
安装依赖 - 安装所有必需的 Python 包
安装本地 qwen-tts - 安装项目集成的 qwen_tts-0.0.6
安装 flash-attention - 安装性能优化组件

安装过程可能需要 10-20 分钟，具体时间取决于网络速度。

2. 运行程序

环境配置完成后，直接运行启动脚本：

batch

start.bat

3. 使用命令行环境进行操作

如需使用命令行工具（如 pip、python 等）：

batch

cmd.bat

在命令行环境中，你可以：

batch

# 查看版本
python --version

# 查看 Python 包
pip list

# 安装新包
pip install [package]

# 运行程序
python src\main.py

首次运行

模型下载

首次运行时，需要自行在模型管理页面下载模型：

启动程序后进入"模型管理"页面
选择需要的模型进行下载
模型会缓存到用户目录下的 models 目录
请确保网络连接正常，下载过程可能需要较长时间

下一步

快速入门 - 了解如何使用 PhantomVox
TTS 模式 - 了解三种 TTS 模式的使用方法

安装指南 ​

QQ交流群 ​

系统要求 ​

硬件要求 ​

软件要求 ​

安装步骤 ​

1. 环境配置 ​

2. 运行程序 ​

3. 使用命令行环境进行操作 ​

首次运行 ​

模型下载 ​

下一步 ​

安装指南

QQ交流群

系统要求

硬件要求

软件要求

安装步骤

1. 环境配置

2. 运行程序

3. 使用命令行环境进行操作

首次运行

模型下载

下一步