# 无需微调的TTS：MOSS-TTS安装实录（NVIDIA DGX Spark应用实践）


在本篇博文中，我们将分享在NVIDIA最新AI工作站**DGX Spark (Grace-Blackwell)** 环境中部署高性能TTS模型**MOSS-TTS**的全过程。其最大特点是，无需额外的微调，即可展现出令人惊叹的语音克隆能力。


![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp)

## 系统环境概览 {#sec-f34b9d0d948e}

本安装指南基于以下环境配置：

| 类别 | 规格 | 备注 |
| --- | --- | --- |
| **Hardware** | NVIDIA DGX Spark (Grace-Blackwell) | 低功耗/低噪音AI工作站 |
| **GPU** | GB10 (CUDA Capability 12.1) | Blackwell架构 |
| **OS** | Ubuntu 22.04 LTS 기반 | - |
| **CUDA / Driver** | CUDA 13.0 | Spark默认驱动环境 |
| **Python** | 3.10+ (venv 사용) | 选用轻量级venv而非Conda |
| **VRAM 점유** | 약 23.8 GB | 推理待机及运行时的占用情况 |

---

## 1. 克隆代码库 {#sec-ef4f934465f5}

```bash
git clone https://github.com/OpenMOSS/MOSS-TTS.github
```


## 2. 创建并激活虚拟环境 (venv) {#sec-919dd44853da}

尽管GitHub指南推荐使用Conda，但考虑到未来Docker打包和`systemd`服务注册的便利性，我们选择了Python虚拟环境。

```bash
python3 -m venv myvenv
source myvenv/bin/activate
```

## 3. 更新基础构建工具 {#sec-93572d851f38}

```bash
pip install -U pip setuptools wheel

```

## 4. 关键配置：修改 pyproject.toml 文件 {#sec-20dfda9d709e}

为了适应DGX Spark的**CUDA 13.0**环境，我们需要手动修改依赖项的版本。特别要注意的是，**torch和torchaudio的版本必须保持一致**，以避免安装过程中出现冲突。

* **修改内容：**
* `"torch==2.10.0+cu130"`
* `"torchaudio==2.10.0+cu130"`
* `"torchcodec==0.10.0+cu130"`


## 5. 安装依赖包 {#sec-946338ef1888}

```bash
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

```

## 6. 安装主机FFmpeg {#sec-4245e15027ca}

由于缺少FFmpeg会导致推理时出错，因此我们需要提前安装FFmpeg及其相关库。

```bash
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

```

## 7. 模型下载与运行注意事项 {#sec-aa117431d729}

* **禁止手动下载HG模型：** 若从HuggingFace手动下载模型并通过`--model_path`参数连接，可能因与执行文件(`moss_tts_app.py`)的变量名不匹配而导致错误。
* **推荐自动下载：** 以默认设置运行，系统会自动下载约17GB的权重模型和7GB的Tokenizer到缓存路径。
* **运行脚本：**

```bash
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
```

> **注意：** 运行时可能会出现与`GB10 (cuda capability 12.1)`相关的警告，但经确认，这并不会影响实际的推理性能。初始加载大约需要30-60秒。

## 8. 使用体验：“从此告别微调” {#sec-cfb473ec3c5d}

* **克隆性能：** 仅凭一个我的声音样本，就能完美复刻韩语、英语、日语的发音音色和习惯。
* **速度：** 短句生成约需7-8秒，长文（3-4句）则在30秒左右完成。
* **各语言特点：** 英语表现几乎完美；日语中的汉字误读可以通过平假名标注轻松修正。
* **能效：** 推理时仍保持在**36W**左右的低功耗，且完全无风扇噪音，这是DGX Spark的一大显著优势。

---

## 9. 故障排除：为何不使用NVIDIA官方镜像？ {#sec-e2798483c6b5}

NVIDIA提供的`nvcr.io/nvidia/pytorch:26.01-py3`镜像无法构建TTS运行所需的`torchaudio`和`torchcodec`。这可能是因为NVIDIA在制作镜像时，其内置的PyTorch版本是为NVIDIA产品特别构建的，导致与`torchaudio`及`torchcodec`存在版本不匹配问题。因此，遗憾的是，目前在Spark上使用普通的`venv`环境是最稳定的方案。

---

## 🚀 未来计划 {#sec-620285e7d87d}

* **应用FlashAttention 2：** 安装后将测试其推理速度能缩短多少。
* **MOSS-VoiceGenerator：** 计划探索无需参考即可生成全新虚拟声音的模型。

---

**相关文章**

-[NVIDIA DGX Spark - 온프레미스 AI 인프라의 새로운 기준](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)