Skip to content

安装指南

本文档将指导您完成 PhantomVox 的安装过程。

提示

整合包包含 PhantomVox 和CUDA12.8的Pytorch2.9.1,以及兼容的FlashAttention。 可以使用整合包快速开始使用 PhantomVox。请查看整合包指南

系统要求

硬件要求

  • GPU: NVIDIA 显卡(推荐,需支持 CUDA 12.8)
    • 显存建议 5GB 以上

软件要求

  • 操作系统: Windows 10/11 (64-bit)
  • 显卡驱动: NVIDIA 驱动版本 >= 527.41(支持 CUDA 12.8)

安装步骤

1. 环境配置

运行环境配置脚本之前,请确保已安装 Python 3.12。

注意: 带 _embed 后缀的是给整合包使用的脚本。

安装 SOX 音频处理工具:

  1. 访问 https://sourceforge.net/projects/sox/
  2. 下载并安装到系统

运行环境配置脚本:

batch
setup_env.bat

该脚本会自动完成以下操作:

  1. 升级 pip - 更新到最新版本
  2. 安装 PyTorch - 安装 PyTorch 2.9.1 + CUDA 12.8 版本
  3. 安装依赖 - 安装所有必需的 Python 包
  4. 安装本地 qwen-tts - 安装项目集成的 qwen_tts-0.0.6
  5. 安装 flash-attention - 安装性能优化组件

安装过程可能需要 10-20 分钟,具体时间取决于网络速度。

2. 运行程序

环境配置完成后,直接运行启动脚本:

batch
start.bat

3. 使用命令行环境进行操作

如需使用命令行工具(如 pip、python 等):

batch
cmd.bat

在命令行环境中,你可以:

batch
# 查看版本
python --version

# 查看 Python 包
pip list

# 安装新包
pip install [package]

# 运行程序
python src\main.py

首次运行

模型下载

首次运行时,需要自行在模型管理页面下载模型:

  1. 启动程序后进入"模型管理"页面
  2. 选择需要的模型进行下载
  3. 模型会缓存到用户目录下的 models 目录
  4. 请确保网络连接正常,下载过程可能需要较长时间

下一步