# 無需微調的 TTS:MOSS-TTS 安裝實錄(NVIDIA DGX Spark 應用) 本篇文章將分享如何在 NVIDIA 最新的 AI 工作站 **DGX Spark (Grace-Blackwell)** 環境中建置高效能 TTS 模型 **MOSS-TTS** 的過程。其特色在於無需額外微調,即可展現令人驚豔的聲音複製能力。 ![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp) ## 系統環境概述 {#sec-f34b9d0d948e} 本安裝指南基於以下環境撰寫: | 類別 | 規格 | 備註 | | --- | --- | --- | | **硬體** | NVIDIA DGX Spark (Grace-Blackwell) | 低功耗/低噪音 AI 工作站 | | **GPU** | GB10 (CUDA Capability 12.1) | Blackwell 架構 | | **作業系統** | 基於 Ubuntu 22.04 LTS | - | | **CUDA / 驅動程式** | CUDA 13.0 | Spark 預設驅動程式環境 | | **Python** | 3.10+ (使用 venv) | 選擇輕量級 venv 取代 Conda | | **VRAM 佔用** | 約 23.8 GB | 基於推論待機及運行時的標準 | --- ## 1. 複製儲存庫 {#sec-ef4f934465f5} ```bash git clone https://github.com/OpenMOSS/MOSS-TTS.github ``` ## 2. 建立並啟用虛擬環境 (venv) {#sec-919dd44853da} GitHub 指南建議使用 Conda,但為了未來 Docker 封裝或 `systemd` 服務註冊的便利性,我們選擇了 Python 虛擬環境。 ```bash python3 -m venv myvenv source myvenv/bin/activate ``` ## 3. 更新基本建置工具 {#sec-93572d851f38} ```bash pip install -U pip setuptools wheel ``` ## 4. 關鍵設定:修改 pyproject.toml {#sec-20dfda9d709e} 為了適應 DGX Spark 的 **CUDA 13.0** 環境,您需要手動修改依賴項版本。特別是,**torch 和 torchaudio 的版本必須保持一致**,以避免安裝過程中發生衝突。 * **修改內容:** * `"torch==2.10.0+cu130"` * `"torchaudio==2.10.0+cu130"` * `"torchcodec==0.10.0+cu130"` ## 5. 安裝依賴套件 {#sec-946338ef1888} ```bash pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e . ``` ## 6. 安裝主機 FFmpeg {#sec-4245e15027ca} 如果沒有 FFmpeg,推論時會發生錯誤,因此請務必預先安裝該程式庫及其相關組件。 ```bash sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev sudo ldconfig ``` ## 7. 模型下載與執行注意事項 {#sec-aa117431d729} * **禁止手動從 HuggingFace 下載:** 若從 HuggingFace 手動下載模型並透過 `--model_path` 進行連接,可能會因與執行檔 (`moss_tts_app.py`) 中的變數名稱不一致而導致錯誤。 * **建議自動下載:** 以預設設定執行時,系統會自動將約 17GB 的權重模型和 7GB 的 Tokenizer 下載到快取路徑。 * **執行腳本:** ```bash python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860 ``` > **注意:** 執行時可能會出現 `GB10 (cuda capability 12.1)` 相關警告,但經確認,這對實際推論效能沒有影響。初始載入大約需要 30 到 60 秒。 ## 8. 使用心得:「從此無需微調」 {#sec-cfb473ec3c5d} * **聲音複製效能:** 僅需一個我的聲音樣本,即可在韓語、英語和日語中完美重現語調和習慣。 * **速度:** 短句約 7 至 8 秒,長文(3 至 4 句)約 30 秒內即可生成。 * **語言特色:** 英語幾乎完美,日語的漢字誤讀可透過平假名標記輕鬆修正。 * **能源效率:** 即使在推論時,也能維持約 **36W** 的低功耗,且完全沒有風扇噪音,這是 DGX Spark 的一大優勢。 --- ## 9. 故障排除:為何不使用 NVIDIA 官方映像檔? {#sec-e2798483c6b5} NVIDIA 提供的 `nvcr.io/nvidia/pytorch:26.01-py3` 映像檔無法建置 TTS 運行所需的 `torchaudio` 和 `torchcodec`。NVIDIA 在製作映像檔時,似乎為其產品特別建置了 PyTorch 版本,導致該 PyTorch 與 `torchaudio` 和 `torchcodec` 之間存在版本不相容問題。因此,很可惜,目前在 Spark 上使用一般的 `venv` 環境是最穩定的選擇。 --- ## 🚀 未來規劃 {#sec-620285e7d87d} * **應用 FlashAttention 2:** 安裝後將測試推論速度能縮短多少。 * **MOSS-VoiceGenerator:** 計劃探索無需參考即可生成新虛擬聲音的模型。 --- **相關文章** -[NVIDIA DGX Spark - 本地 AI 基礎設施的新標竿](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)