无需微调的TTS:MOSS-TTS安装实录(NVIDIA DGX Spark应用实践)

在本篇博文中,我们将分享在NVIDIA最新AI工作站DGX Spark (Grace-Blackwell) 环境中部署高性能TTS模型MOSS-TTS的全过程。其最大特点是,无需额外的微调,即可展现出令人惊叹的语音克隆能力。

moss-tts-on-dgx-spark

系统环境概览

本安装指南基于以下环境配置:

类别 规格 备注
Hardware NVIDIA DGX Spark (Grace-Blackwell) 低功耗/低噪音AI工作站
GPU GB10 (CUDA Capability 12.1) Blackwell架构
OS Ubuntu 22.04 LTS 기반 -
CUDA / Driver CUDA 13.0 Spark默认驱动环境
Python 3.10+ (venv 사용) 选用轻量级venv而非Conda
VRAM 점유 약 23.8 GB 推理待机及运行时的占用情况

1. 克隆代码库

git clone https://github.com/OpenMOSS/MOSS-TTS.github

2. 创建并激活虚拟环境 (venv)

尽管GitHub指南推荐使用Conda,但考虑到未来Docker打包和systemd服务注册的便利性,我们选择了Python虚拟环境。

python3 -m venv myvenv
source myvenv/bin/activate

3. 更新基础构建工具

pip install -U pip setuptools wheel

4. 关键配置:修改 pyproject.toml 文件

为了适应DGX Spark的CUDA 13.0环境,我们需要手动修改依赖项的版本。特别要注意的是,torch和torchaudio的版本必须保持一致,以避免安装过程中出现冲突。

  • 修改内容:
  • "torch==2.10.0+cu130"
  • "torchaudio==2.10.0+cu130"
  • "torchcodec==0.10.0+cu130"

5. 安装依赖包

pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

6. 安装主机FFmpeg

由于缺少FFmpeg会导致推理时出错,因此我们需要提前安装FFmpeg及其相关库。

sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

7. 模型下载与运行注意事项

  • 禁止手动下载HG模型: 若从HuggingFace手动下载模型并通过--model_path参数连接,可能因与执行文件(moss_tts_app.py)的变量名不匹配而导致错误。
  • 推荐自动下载: 以默认设置运行,系统会自动下载约17GB的权重模型和7GB的Tokenizer到缓存路径。
  • 运行脚本:
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860

注意: 运行时可能会出现与GB10 (cuda capability 12.1)相关的警告,但经确认,这并不会影响实际的推理性能。初始加载大约需要30-60秒。

8. 使用体验:“从此告别微调”

  • 克隆性能: 仅凭一个我的声音样本,就能完美复刻韩语、英语、日语的发音音色和习惯。
  • 速度: 短句生成约需7-8秒,长文(3-4句)则在30秒左右完成。
  • 各语言特点: 英语表现几乎完美;日语中的汉字误读可以通过平假名标注轻松修正。
  • 能效: 推理时仍保持在36W左右的低功耗,且完全无风扇噪音,这是DGX Spark的一大显著优势。

9. 故障排除:为何不使用NVIDIA官方镜像?

NVIDIA提供的nvcr.io/nvidia/pytorch:26.01-py3镜像无法构建TTS运行所需的torchaudiotorchcodec。这可能是因为NVIDIA在制作镜像时,其内置的PyTorch版本是为NVIDIA产品特别构建的,导致与torchaudiotorchcodec存在版本不匹配问题。因此,遗憾的是,目前在Spark上使用普通的venv环境是最稳定的方案。


🚀 未来计划

  • 应用FlashAttention 2: 安装后将测试其推理速度能缩短多少。
  • MOSS-VoiceGenerator: 计划探索无需参考即可生成全新虚拟声音的模型。

相关文章

-NVIDIA DGX Spark - 온프레미스 AI 인프라의 새로운 기준