# 無需微調的 TTS：MOSS-TTS 安裝實錄（NVIDIA DGX Spark 應用）


本篇文章將分享如何在 NVIDIA 最新的 AI 工作站 **DGX Spark (Grace-Blackwell)** 環境中建置高效能 TTS 模型 **MOSS-TTS** 的過程。其特色在於無需額外微調，即可展現令人驚豔的聲音複製能力。


![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp)

## 系統環境概述 {#sec-f34b9d0d948e}

本安裝指南基於以下環境撰寫：

| 類別 | 規格 | 備註 |
| --- | --- | --- |
| **硬體** | NVIDIA DGX Spark (Grace-Blackwell) | 低功耗/低噪音 AI 工作站 |
| **GPU** | GB10 (CUDA Capability 12.1) | Blackwell 架構 |
| **作業系統** | 基於 Ubuntu 22.04 LTS | - |
| **CUDA / 驅動程式** | CUDA 13.0 | Spark 預設驅動程式環境 |
| **Python** | 3.10+ (使用 venv) | 選擇輕量級 venv 取代 Conda |
| **VRAM 佔用** | 約 23.8 GB | 基於推論待機及運行時的標準 |

---

## 1. 複製儲存庫 {#sec-ef4f934465f5}

```bash
git clone https://github.com/OpenMOSS/MOSS-TTS.github
```


## 2. 建立並啟用虛擬環境 (venv) {#sec-919dd44853da}

GitHub 指南建議使用 Conda，但為了未來 Docker 封裝或 `systemd` 服務註冊的便利性，我們選擇了 Python 虛擬環境。

```bash
python3 -m venv myvenv
source myvenv/bin/activate
```

## 3. 更新基本建置工具 {#sec-93572d851f38}

```bash
pip install -U pip setuptools wheel

```

## 4. 關鍵設定：修改 pyproject.toml {#sec-20dfda9d709e}

為了適應 DGX Spark 的 **CUDA 13.0** 環境，您需要手動修改依賴項版本。特別是，**torch 和 torchaudio 的版本必須保持一致**，以避免安裝過程中發生衝突。

*   **修改內容：**
*   `"torch==2.10.0+cu130"`
*   `"torchaudio==2.10.0+cu130"`
*   `"torchcodec==0.10.0+cu130"`


## 5. 安裝依賴套件 {#sec-946338ef1888}

```bash
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

```

## 6. 安裝主機 FFmpeg {#sec-4245e15027ca}

如果沒有 FFmpeg，推論時會發生錯誤，因此請務必預先安裝該程式庫及其相關組件。

```bash
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

```

## 7. 模型下載與執行注意事項 {#sec-aa117431d729}

*   **禁止手動從 HuggingFace 下載：** 若從 HuggingFace 手動下載模型並透過 `--model_path` 進行連接，可能會因與執行檔 (`moss_tts_app.py`) 中的變數名稱不一致而導致錯誤。
*   **建議自動下載：** 以預設設定執行時，系統會自動將約 17GB 的權重模型和 7GB 的 Tokenizer 下載到快取路徑。
*   **執行腳本：**

```bash
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
```

> **注意：** 執行時可能會出現 `GB10 (cuda capability 12.1)` 相關警告，但經確認，這對實際推論效能沒有影響。初始載入大約需要 30 到 60 秒。

## 8. 使用心得：「從此無需微調」 {#sec-cfb473ec3c5d}

*   **聲音複製效能：** 僅需一個我的聲音樣本，即可在韓語、英語和日語中完美重現語調和習慣。
*   **速度：** 短句約 7 至 8 秒，長文（3 至 4 句）約 30 秒內即可生成。
*   **語言特色：** 英語幾乎完美，日語的漢字誤讀可透過平假名標記輕鬆修正。
*   **能源效率：** 即使在推論時，也能維持約 **36W** 的低功耗，且完全沒有風扇噪音，這是 DGX Spark 的一大優勢。

---

## 9. 故障排除：為何不使用 NVIDIA 官方映像檔？ {#sec-e2798483c6b5}

NVIDIA 提供的 `nvcr.io/nvidia/pytorch:26.01-py3` 映像檔無法建置 TTS 運行所需的 `torchaudio` 和 `torchcodec`。NVIDIA 在製作映像檔時，似乎為其產品特別建置了 PyTorch 版本，導致該 PyTorch 與 `torchaudio` 和 `torchcodec` 之間存在版本不相容問題。因此，很可惜，目前在 Spark 上使用一般的 `venv` 環境是最穩定的選擇。

---

## 🚀 未來規劃 {#sec-620285e7d87d}

*   **應用 FlashAttention 2：** 安裝後將測試推論速度能縮短多少。
*   **MOSS-VoiceGenerator：** 計劃探索無需參考即可生成新虛擬聲音的模型。

---

**相關文章**

-[NVIDIA DGX Spark - 本地 AI 基礎設施的新標竿](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)