Revision Ver-1

無需微調的 TTS：MOSS-TTS 安裝實錄（NVIDIA DGX Spark 應用）

本篇文章將分享如何在 NVIDIA 最新的 AI 工作站 DGX Spark (Grace-Blackwell) 環境中建置高效能 TTS 模型 MOSS-TTS 的過程。其特色在於無需額外微調，即可展現令人驚豔的聲音複製能力。

moss-tts-on-dgx-spark

系統環境概述

本安裝指南基於以下環境撰寫：

類別	規格	備註
硬體	NVIDIA DGX Spark (Grace-Blackwell)	低功耗/低噪音 AI 工作站
GPU	GB10 (CUDA Capability 12.1)	Blackwell 架構
作業系統	基於 Ubuntu 22.04 LTS	-
CUDA / 驅動程式	CUDA 13.0	Spark 預設驅動程式環境
Python	3.10+ (使用 venv)	選擇輕量級 venv 取代 Conda
VRAM 佔用	約 23.8 GB	基於推論待機及運行時的標準

1. 複製儲存庫

git clone https://github.com/OpenMOSS/MOSS-TTS.github

2. 建立並啟用虛擬環境 (venv)

GitHub 指南建議使用 Conda，但為了未來 Docker 封裝或 systemd 服務註冊的便利性，我們選擇了 Python 虛擬環境。

python3 -m venv myvenv
source myvenv/bin/activate

3. 更新基本建置工具

pip install -U pip setuptools wheel

4. 關鍵設定：修改 pyproject.toml

為了適應 DGX Spark 的 CUDA 13.0 環境，您需要手動修改依賴項版本。特別是，torch 和 torchaudio 的版本必須保持一致，以避免安裝過程中發生衝突。

修改內容：
"torch==2.10.0+cu130"
"torchaudio==2.10.0+cu130"
"torchcodec==0.10.0+cu130"

5. 安裝依賴套件

pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

6. 安裝主機 FFmpeg

如果沒有 FFmpeg，推論時會發生錯誤，因此請務必預先安裝該程式庫及其相關組件。

sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

7. 模型下載與執行注意事項

禁止手動從 HuggingFace 下載： 若從 HuggingFace 手動下載模型並透過 --model_path 進行連接，可能會因與執行檔 (moss_tts_app.py) 中的變數名稱不一致而導致錯誤。
建議自動下載： 以預設設定執行時，系統會自動將約 17GB 的權重模型和 7GB 的 Tokenizer 下載到快取路徑。
執行腳本：

python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860

注意： 執行時可能會出現 GB10 (cuda capability 12.1) 相關警告，但經確認，這對實際推論效能沒有影響。初始載入大約需要 30 到 60 秒。

8. 使用心得：「從此無需微調」

聲音複製效能： 僅需一個我的聲音樣本，即可在韓語、英語和日語中完美重現語調和習慣。
速度： 短句約 7 至 8 秒，長文（3 至 4 句）約 30 秒內即可生成。
語言特色： 英語幾乎完美，日語的漢字誤讀可透過平假名標記輕鬆修正。
能源效率： 即使在推論時，也能維持約 36W 的低功耗，且完全沒有風扇噪音，這是 DGX Spark 的一大優勢。

9. 故障排除：為何不使用 NVIDIA 官方映像檔？

NVIDIA 提供的 nvcr.io/nvidia/pytorch:26.01-py3 映像檔無法建置 TTS 運行所需的 torchaudio 和 torchcodec。NVIDIA 在製作映像檔時，似乎為其產品特別建置了 PyTorch 版本，導致該 PyTorch 與 torchaudio 和 torchcodec 之間存在版本不相容問題。因此，很可惜，目前在 Spark 上使用一般的 venv 環境是最穩定的選擇。

🚀 未來規劃

應用 FlashAttention 2： 安裝後將測試推論速度能縮短多少。
MOSS-VoiceGenerator： 計劃探索無需參考即可生成新虛擬聲音的模型。

相關文章

-NVIDIA DGX Spark - 本地 AI 基礎設施的新標竿

無需微調的高效能 TTS：MOSS-TTS 在 NVIDIA DGX Spark 上的安裝指南 [ r1 ]