MOSS-TTS auf NVIDIA DGX Spark installieren: Hochleistungs-TTS ohne Fine-Tuning
In diesem Beitrag teilen wir unsere Erfahrungen bei der Implementierung des Hochleistungs-TTS-Modells MOSS-TTS auf der neuesten KI-Workstation von NVIDIA, der DGX Spark (Grace-Blackwell). Das Besondere daran ist die beeindruckende Stimmklonierungsleistung, die ohne zusätzliches Fine-Tuning erzielt wird.

Zusammenfassung der Systemumgebung
Diese Installationsanleitung basiert auf der folgenden Umgebung:
| Kategorie | Spezifikation | Anmerkung |
|---|---|---|
| Hardware | NVIDIA DGX Spark (Grace-Blackwell) | Energieeffiziente/geräuscharme KI-Workstation |
| GPU | GB10 (CUDA Capability 12.1) | Blackwell-Architektur |
| OS | Basierend auf Ubuntu 22.04 LTS | - |
| CUDA / Driver | CUDA 13.0 | Standard-Treiberumgebung der Spark |
| Python | 3.10+ (venv verwendet) | Leichtgewichtige venv statt Conda gewählt |
| VRAM-Belegung | ca. 23.8 GB | Im Leerlauf und bei Inferenz |
1. Repository klonen
git clone https://github.com/OpenMOSS/MOSS-TTS.github
2. Virtuelle Umgebung (venv) erstellen und aktivieren
Obwohl der GitHub-Leitfaden Conda empfiehlt, haben wir uns für eine Python-Virtualumgebung (venv) entschieden, um zukünftige Docker-Paketierungen und die Registrierung von systemd-Diensten zu vereinfachen.
python3 -m venv myvenv
source myvenv/bin/activate
3. Grundlegende Build-Tools aktualisieren
pip install -U pip setuptools wheel
4. Wichtige Konfiguration: pyproject.toml anpassen
Um die Umgebung der DGX Spark mit CUDA 13.0 anzupassen, müssen die Abhängigkeitsversionen manuell geändert werden. Es ist unerlässlich, die Versionen von torch und torchaudio abzugleichen, um Konflikte während der Installation zu vermeiden.
- Änderungen:
"torch==2.10.0+cu130""torchaudio==2.10.0+cu130""torchcodec==0.10.0+cu130"
5. Abhängigkeitspakete installieren
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .
6. FFmpeg auf dem Host installieren
Da ohne FFmpeg während der Inferenz Fehler auftreten, installieren wir es zusammen mit den Bibliotheken im Voraus.
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig
7. Modell-Download und wichtige Hinweise zur Ausführung
- Kein direkter Download von HG: Wenn Sie das Modell manuell von HuggingFace herunterladen und über
--model_pathverbinden, kann es aufgrund einer Diskrepanz bei den Variablennamen mit der ausführbaren Datei (moss_tts_app.py) zu Fehlern kommen. - Automatischer Download empfohlen: Beim Start mit Standardeinstellungen werden automatisch etwa 17 GB an Gewichtsmodellen und 7 GB an Tokenizern in den Cache-Pfad heruntergeladen.
- Ausführungsskript:
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
Hinweis: Beim Start kann eine Warnung bezüglich
GB10 (cuda capability 12.1)erscheinen. Wir haben jedoch bestätigt, dass dies keinen Einfluss auf die tatsächliche Inferenzleistung hat. Das anfängliche Laden dauert etwa 30–60 Sekunden.
8. Erfahrungsbericht: „Fine-Tuning ist nicht mehr nötig“
- Klonierungsleistung: Mit nur einer einzigen Sprachprobe meiner Stimme werden Tonlage und Sprechgewohnheiten sowohl im Koreanischen, Englischen als auch im Japanischen perfekt reproduziert.
- Geschwindigkeit: Kurze Sätze werden in 7–8 Sekunden generiert, längere Texte (3–4 Sätze) in etwa 30 Sekunden.
- Sprachspezifische Merkmale: Englisch ist nahezu perfekt. Fehlinterpretationen von Kanji im Japanischen können leicht durch die Angabe in Hiragana korrigiert werden.
- Energieeffizienz: Selbst während der Inferenz wird ein geringer Stromverbrauch von etwa 36W beibehalten, und das Fehlen jeglicher Lüftergeräusche ist ein großer Vorteil der DGX Spark.
9. Fehlerbehebung: Warum kein offizielles NVIDIA-Image verwendet wurde
Das von NVIDIA bereitgestellte Image nvcr.io/nvidia/pytorch:26.01-py3 ermöglichte keinen Build von torchaudio und torchcodec, die für den Betrieb von TTS erforderlich sind. Es scheint, dass die PyTorch-Version, die NVIDIA beim Erstellen des Images integriert hat, speziell für NVIDIA-Produkte kompiliert wurde, was zu Versionskonflikten mit torchaudio und torchcodec führte. Daher ist eine normale venv-Umgebung derzeit die stabilste Option, auch auf der Spark.
🚀 Zukünftige Pläne
- Implementierung von FlashAttention 2: Wir planen zu testen, wie stark sich die Inferenzgeschwindigkeit nach der Installation verkürzt.
- MOSS-VoiceGenerator: Wir beabsichtigen auch, ein Modell zu erforschen, das neue virtuelle Stimmen ohne Referenz generiert.
Verwandte Beiträge
-NVIDIA DGX Spark - Der neue Standard für On-Premises AI-Infrastrukturen
Es sind keine Kommentare vorhanden.