無需微調的 TTS:MOSS-TTS 安裝實錄(NVIDIA DGX Spark 應用)

本篇文章將分享如何在 NVIDIA 最新的 AI 工作站 DGX Spark (Grace-Blackwell) 環境中建置高效能 TTS 模型 MOSS-TTS 的過程。其特色在於無需額外微調,即可展現令人驚豔的聲音複製能力。

moss-tts-on-dgx-spark

系統環境概述

本安裝指南基於以下環境撰寫:

類別 規格 備註
硬體 NVIDIA DGX Spark (Grace-Blackwell) 低功耗/低噪音 AI 工作站
GPU GB10 (CUDA Capability 12.1) Blackwell 架構
作業系統 基於 Ubuntu 22.04 LTS -
CUDA / 驅動程式 CUDA 13.0 Spark 預設驅動程式環境
Python 3.10+ (使用 venv) 選擇輕量級 venv 取代 Conda
VRAM 佔用 約 23.8 GB 基於推論待機及運行時的標準

1. 複製儲存庫

git clone https://github.com/OpenMOSS/MOSS-TTS.github

2. 建立並啟用虛擬環境 (venv)

GitHub 指南建議使用 Conda,但為了未來 Docker 封裝或 systemd 服務註冊的便利性,我們選擇了 Python 虛擬環境。

python3 -m venv myvenv
source myvenv/bin/activate

3. 更新基本建置工具

pip install -U pip setuptools wheel

4. 關鍵設定:修改 pyproject.toml

為了適應 DGX Spark 的 CUDA 13.0 環境,您需要手動修改依賴項版本。特別是,torch 和 torchaudio 的版本必須保持一致,以避免安裝過程中發生衝突。

  • 修改內容:
  • "torch==2.10.0+cu130"
  • "torchaudio==2.10.0+cu130"
  • "torchcodec==0.10.0+cu130"

5. 安裝依賴套件

pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

6. 安裝主機 FFmpeg

如果沒有 FFmpeg,推論時會發生錯誤,因此請務必預先安裝該程式庫及其相關組件。

sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

7. 模型下載與執行注意事項

  • 禁止手動從 HuggingFace 下載: 若從 HuggingFace 手動下載模型並透過 --model_path 進行連接,可能會因與執行檔 (moss_tts_app.py) 中的變數名稱不一致而導致錯誤。
  • 建議自動下載: 以預設設定執行時,系統會自動將約 17GB 的權重模型和 7GB 的 Tokenizer 下載到快取路徑。
  • 執行腳本:
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860

注意: 執行時可能會出現 GB10 (cuda capability 12.1) 相關警告,但經確認,這對實際推論效能沒有影響。初始載入大約需要 30 到 60 秒。

8. 使用心得:「從此無需微調」

  • 聲音複製效能: 僅需一個我的聲音樣本,即可在韓語、英語和日語中完美重現語調和習慣。
  • 速度: 短句約 7 至 8 秒,長文(3 至 4 句)約 30 秒內即可生成。
  • 語言特色: 英語幾乎完美,日語的漢字誤讀可透過平假名標記輕鬆修正。
  • 能源效率: 即使在推論時,也能維持約 36W 的低功耗,且完全沒有風扇噪音,這是 DGX Spark 的一大優勢。

9. 故障排除:為何不使用 NVIDIA 官方映像檔?

NVIDIA 提供的 nvcr.io/nvidia/pytorch:26.01-py3 映像檔無法建置 TTS 運行所需的 torchaudiotorchcodec。NVIDIA 在製作映像檔時,似乎為其產品特別建置了 PyTorch 版本,導致該 PyTorch 與 torchaudiotorchcodec 之間存在版本不相容問題。因此,很可惜,目前在 Spark 上使用一般的 venv 環境是最穩定的選擇。


🚀 未來規劃

  • 應用 FlashAttention 2: 安裝後將測試推論速度能縮短多少。
  • MOSS-VoiceGenerator: 計劃探索無需參考即可生成新虛擬聲音的模型。

相關文章

-NVIDIA DGX Spark - 本地 AI 基礎設施的新標竿