无需微调的TTS:MOSS-TTS安装实录(NVIDIA DGX Spark应用实践)
在本篇博文中,我们将分享在NVIDIA最新AI工作站DGX Spark (Grace-Blackwell) 环境中部署高性能TTS模型MOSS-TTS的全过程。其最大特点是,无需额外的微调,即可展现出令人惊叹的语音克隆能力。

系统环境概览
本安装指南基于以下环境配置:
| 类别 | 规格 | 备注 |
|---|---|---|
| Hardware | NVIDIA DGX Spark (Grace-Blackwell) | 低功耗/低噪音AI工作站 |
| GPU | GB10 (CUDA Capability 12.1) | Blackwell架构 |
| OS | Ubuntu 22.04 LTS 기반 | - |
| CUDA / Driver | CUDA 13.0 | Spark默认驱动环境 |
| Python | 3.10+ (venv 사용) | 选用轻量级venv而非Conda |
| VRAM 점유 | 약 23.8 GB | 推理待机及运行时的占用情况 |
1. 克隆代码库
git clone https://github.com/OpenMOSS/MOSS-TTS.github
2. 创建并激活虚拟环境 (venv)
尽管GitHub指南推荐使用Conda,但考虑到未来Docker打包和systemd服务注册的便利性,我们选择了Python虚拟环境。
python3 -m venv myvenv
source myvenv/bin/activate
3. 更新基础构建工具
pip install -U pip setuptools wheel
4. 关键配置:修改 pyproject.toml 文件
为了适应DGX Spark的CUDA 13.0环境,我们需要手动修改依赖项的版本。特别要注意的是,torch和torchaudio的版本必须保持一致,以避免安装过程中出现冲突。
- 修改内容:
"torch==2.10.0+cu130""torchaudio==2.10.0+cu130""torchcodec==0.10.0+cu130"
5. 安装依赖包
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .
6. 安装主机FFmpeg
由于缺少FFmpeg会导致推理时出错,因此我们需要提前安装FFmpeg及其相关库。
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig
7. 模型下载与运行注意事项
- 禁止手动下载HG模型: 若从HuggingFace手动下载模型并通过
--model_path参数连接,可能因与执行文件(moss_tts_app.py)的变量名不匹配而导致错误。 - 推荐自动下载: 以默认设置运行,系统会自动下载约17GB的权重模型和7GB的Tokenizer到缓存路径。
- 运行脚本:
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
注意: 运行时可能会出现与
GB10 (cuda capability 12.1)相关的警告,但经确认,这并不会影响实际的推理性能。初始加载大约需要30-60秒。
8. 使用体验:“从此告别微调”
- 克隆性能: 仅凭一个我的声音样本,就能完美复刻韩语、英语、日语的发音音色和习惯。
- 速度: 短句生成约需7-8秒,长文(3-4句)则在30秒左右完成。
- 各语言特点: 英语表现几乎完美;日语中的汉字误读可以通过平假名标注轻松修正。
- 能效: 推理时仍保持在36W左右的低功耗,且完全无风扇噪音,这是DGX Spark的一大显著优势。
9. 故障排除:为何不使用NVIDIA官方镜像?
NVIDIA提供的nvcr.io/nvidia/pytorch:26.01-py3镜像无法构建TTS运行所需的torchaudio和torchcodec。这可能是因为NVIDIA在制作镜像时,其内置的PyTorch版本是为NVIDIA产品特别构建的,导致与torchaudio及torchcodec存在版本不匹配问题。因此,遗憾的是,目前在Spark上使用普通的venv环境是最稳定的方案。
🚀 未来计划
- 应用FlashAttention 2: 安装后将测试其推理速度能缩短多少。
- MOSS-VoiceGenerator: 计划探索无需参考即可生成全新虚拟声音的模型。
相关文章