無需微調的 TTS:MOSS-TTS 安裝實錄(NVIDIA DGX Spark 應用)
本篇文章將分享如何在 NVIDIA 最新的 AI 工作站 DGX Spark (Grace-Blackwell) 環境中建置高效能 TTS 模型 MOSS-TTS 的過程。其特色在於無需額外微調,即可展現令人驚豔的聲音複製能力。

系統環境概述
本安裝指南基於以下環境撰寫:
| 類別 | 規格 | 備註 |
|---|---|---|
| 硬體 | NVIDIA DGX Spark (Grace-Blackwell) | 低功耗/低噪音 AI 工作站 |
| GPU | GB10 (CUDA Capability 12.1) | Blackwell 架構 |
| 作業系統 | 基於 Ubuntu 22.04 LTS | - |
| CUDA / 驅動程式 | CUDA 13.0 | Spark 預設驅動程式環境 |
| Python | 3.10+ (使用 venv) | 選擇輕量級 venv 取代 Conda |
| VRAM 佔用 | 約 23.8 GB | 基於推論待機及運行時的標準 |
1. 複製儲存庫
git clone https://github.com/OpenMOSS/MOSS-TTS.github
2. 建立並啟用虛擬環境 (venv)
GitHub 指南建議使用 Conda,但為了未來 Docker 封裝或 systemd 服務註冊的便利性,我們選擇了 Python 虛擬環境。
python3 -m venv myvenv
source myvenv/bin/activate
3. 更新基本建置工具
pip install -U pip setuptools wheel
4. 關鍵設定:修改 pyproject.toml
為了適應 DGX Spark 的 CUDA 13.0 環境,您需要手動修改依賴項版本。特別是,torch 和 torchaudio 的版本必須保持一致,以避免安裝過程中發生衝突。
- 修改內容:
"torch==2.10.0+cu130""torchaudio==2.10.0+cu130""torchcodec==0.10.0+cu130"
5. 安裝依賴套件
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .
6. 安裝主機 FFmpeg
如果沒有 FFmpeg,推論時會發生錯誤,因此請務必預先安裝該程式庫及其相關組件。
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig
7. 模型下載與執行注意事項
- 禁止手動從 HuggingFace 下載: 若從 HuggingFace 手動下載模型並透過
--model_path進行連接,可能會因與執行檔 (moss_tts_app.py) 中的變數名稱不一致而導致錯誤。 - 建議自動下載: 以預設設定執行時,系統會自動將約 17GB 的權重模型和 7GB 的 Tokenizer 下載到快取路徑。
- 執行腳本:
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
注意: 執行時可能會出現
GB10 (cuda capability 12.1)相關警告,但經確認,這對實際推論效能沒有影響。初始載入大約需要 30 到 60 秒。
8. 使用心得:「從此無需微調」
- 聲音複製效能: 僅需一個我的聲音樣本,即可在韓語、英語和日語中完美重現語調和習慣。
- 速度: 短句約 7 至 8 秒,長文(3 至 4 句)約 30 秒內即可生成。
- 語言特色: 英語幾乎完美,日語的漢字誤讀可透過平假名標記輕鬆修正。
- 能源效率: 即使在推論時,也能維持約 36W 的低功耗,且完全沒有風扇噪音,這是 DGX Spark 的一大優勢。
9. 故障排除:為何不使用 NVIDIA 官方映像檔?
NVIDIA 提供的 nvcr.io/nvidia/pytorch:26.01-py3 映像檔無法建置 TTS 運行所需的 torchaudio 和 torchcodec。NVIDIA 在製作映像檔時,似乎為其產品特別建置了 PyTorch 版本,導致該 PyTorch 與 torchaudio 和 torchcodec 之間存在版本不相容問題。因此,很可惜,目前在 Spark 上使用一般的 venv 環境是最穩定的選擇。
🚀 未來規劃
- 應用 FlashAttention 2: 安裝後將測試推論速度能縮短多少。
- MOSS-VoiceGenerator: 計劃探索無需參考即可生成新虛擬聲音的模型。
相關文章