MOSS-TTS auf NVIDIA DGX Spark installieren: Hochleistungs-TTS ohne Fine-Tuning

MOSS-TTS auf NVIDIA DGX Spark installieren: Hochleistungs-TTS ohne Fine-Tuning

In diesem Beitrag teilen wir unsere Erfahrungen bei der Implementierung des Hochleistungs-TTS-Modells MOSS-TTS auf der neuesten KI-Workstation von NVIDIA, der DGX Spark (Grace-Blackwell). Das Besondere daran ist die beeindruckende Stimmklonierungsleistung, die ohne zusätzliches Fine-Tuning erzielt wird.

moss-tts-on-dgx-spark

Zusammenfassung der Systemumgebung

Diese Installationsanleitung basiert auf der folgenden Umgebung:

Kategorie	Spezifikation	Anmerkung
Hardware	NVIDIA DGX Spark (Grace-Blackwell)	Energieeffiziente/geräuscharme KI-Workstation
GPU	GB10 (CUDA Capability 12.1)	Blackwell-Architektur
OS	Basierend auf Ubuntu 22.04 LTS	-
CUDA / Driver	CUDA 13.0	Standard-Treiberumgebung der Spark
Python	3.10+ (venv verwendet)	Leichtgewichtige venv statt Conda gewählt
VRAM-Belegung	ca. 23.8 GB	Im Leerlauf und bei Inferenz

1. Repository klonen

git clone https://github.com/OpenMOSS/MOSS-TTS.github

2. Virtuelle Umgebung (venv) erstellen und aktivieren

Obwohl der GitHub-Leitfaden Conda empfiehlt, haben wir uns für eine Python-Virtualumgebung (venv) entschieden, um zukünftige Docker-Paketierungen und die Registrierung von systemd-Diensten zu vereinfachen.

python3 -m venv myvenv
source myvenv/bin/activate

3. Grundlegende Build-Tools aktualisieren

pip install -U pip setuptools wheel

4. Wichtige Konfiguration: pyproject.toml anpassen

Um die Umgebung der DGX Spark mit CUDA 13.0 anzupassen, müssen die Abhängigkeitsversionen manuell geändert werden. Es ist unerlässlich, die Versionen von torch und torchaudio abzugleichen, um Konflikte während der Installation zu vermeiden.

Änderungen:
"torch==2.10.0+cu130"
"torchaudio==2.10.0+cu130"
"torchcodec==0.10.0+cu130"

5. Abhängigkeitspakete installieren

pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

6. FFmpeg auf dem Host installieren

Da ohne FFmpeg während der Inferenz Fehler auftreten, installieren wir es zusammen mit den Bibliotheken im Voraus.

sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

7. Modell-Download und wichtige Hinweise zur Ausführung

Kein direkter Download von HG: Wenn Sie das Modell manuell von HuggingFace herunterladen und über --model_path verbinden, kann es aufgrund einer Diskrepanz bei den Variablennamen mit der ausführbaren Datei (moss_tts_app.py) zu Fehlern kommen.
Automatischer Download empfohlen: Beim Start mit Standardeinstellungen werden automatisch etwa 17 GB an Gewichtsmodellen und 7 GB an Tokenizern in den Cache-Pfad heruntergeladen.
Ausführungsskript:

python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860

Hinweis: Beim Start kann eine Warnung bezüglich GB10 (cuda capability 12.1) erscheinen. Wir haben jedoch bestätigt, dass dies keinen Einfluss auf die tatsächliche Inferenzleistung hat. Das anfängliche Laden dauert etwa 30–60 Sekunden.

8. Erfahrungsbericht: „Fine-Tuning ist nicht mehr nötig“

Klonierungsleistung: Mit nur einer einzigen Sprachprobe meiner Stimme werden Tonlage und Sprechgewohnheiten sowohl im Koreanischen, Englischen als auch im Japanischen perfekt reproduziert.
Geschwindigkeit: Kurze Sätze werden in 7–8 Sekunden generiert, längere Texte (3–4 Sätze) in etwa 30 Sekunden.
Sprachspezifische Merkmale: Englisch ist nahezu perfekt. Fehlinterpretationen von Kanji im Japanischen können leicht durch die Angabe in Hiragana korrigiert werden.
Energieeffizienz: Selbst während der Inferenz wird ein geringer Stromverbrauch von etwa 36W beibehalten, und das Fehlen jeglicher Lüftergeräusche ist ein großer Vorteil der DGX Spark.

9. Fehlerbehebung: Warum kein offizielles NVIDIA-Image verwendet wurde

Das von NVIDIA bereitgestellte Image nvcr.io/nvidia/pytorch:26.01-py3 ermöglichte keinen Build von torchaudio und torchcodec, die für den Betrieb von TTS erforderlich sind. Es scheint, dass die PyTorch-Version, die NVIDIA beim Erstellen des Images integriert hat, speziell für NVIDIA-Produkte kompiliert wurde, was zu Versionskonflikten mit torchaudio und torchcodec führte. Daher ist eine normale venv-Umgebung derzeit die stabilste Option, auch auf der Spark.

🚀 Zukünftige Pläne

Implementierung von FlashAttention 2: Wir planen zu testen, wie stark sich die Inferenzgeschwindigkeit nach der Installation verkürzt.
MOSS-VoiceGenerator: Wir beabsichtigen auch, ein Modell zu erforschen, das neue virtuelle Stimmen ohne Referenz generiert.

Verwandte Beiträge

-NVIDIA DGX Spark - Der neue Standard für On-Premises AI-Infrastrukturen