# MOSS-TTS auf NVIDIA DGX Spark installieren: Hochleistungs-TTS ohne Fine-Tuning In diesem Beitrag teilen wir unsere Erfahrungen bei der Implementierung des Hochleistungs-TTS-Modells **MOSS-TTS** auf der neuesten KI-Workstation von NVIDIA, der **DGX Spark (Grace-Blackwell)**. Das Besondere daran ist die beeindruckende Stimmklonierungsleistung, die ohne zusätzliches Fine-Tuning erzielt wird. ![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp) ## Zusammenfassung der Systemumgebung {#sec-f34b9d0d948e} Diese Installationsanleitung basiert auf der folgenden Umgebung: | Kategorie | Spezifikation | Anmerkung | | --- | --- | --- | | **Hardware** | NVIDIA DGX Spark (Grace-Blackwell) | Energieeffiziente/geräuscharme KI-Workstation | | **GPU** | GB10 (CUDA Capability 12.1) | Blackwell-Architektur | | **OS** | Basierend auf Ubuntu 22.04 LTS | - | | **CUDA / Driver** | CUDA 13.0 | Standard-Treiberumgebung der Spark | | **Python** | 3.10+ (venv verwendet) | Leichtgewichtige venv statt Conda gewählt | | **VRAM-Belegung** | ca. 23.8 GB | Im Leerlauf und bei Inferenz | --- ## 1. Repository klonen {#sec-ef4f934465f5} ```bash git clone https://github.com/OpenMOSS/MOSS-TTS.github ``` ## 2. Virtuelle Umgebung (venv) erstellen und aktivieren {#sec-919dd44853da} Obwohl der GitHub-Leitfaden Conda empfiehlt, haben wir uns für eine Python-Virtualumgebung (venv) entschieden, um zukünftige Docker-Paketierungen und die Registrierung von `systemd`-Diensten zu vereinfachen. ```bash python3 -m venv myvenv source myvenv/bin/activate ``` ## 3. Grundlegende Build-Tools aktualisieren {#sec-93572d851f38} ```bash pip install -U pip setuptools wheel ``` ## 4. Wichtige Konfiguration: pyproject.toml anpassen {#sec-20dfda9d709e} Um die Umgebung der DGX Spark mit **CUDA 13.0** anzupassen, müssen die Abhängigkeitsversionen manuell geändert werden. Es ist **unerlässlich, die Versionen von torch und torchaudio abzugleichen**, um Konflikte während der Installation zu vermeiden. * **Änderungen:** * `"torch==2.10.0+cu130"` * `"torchaudio==2.10.0+cu130"` * `"torchcodec==0.10.0+cu130"` ## 5. Abhängigkeitspakete installieren {#sec-946338ef1888} ```bash pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e . ``` ## 6. FFmpeg auf dem Host installieren {#sec-4245e15027ca} Da ohne FFmpeg während der Inferenz Fehler auftreten, installieren wir es zusammen mit den Bibliotheken im Voraus. ```bash sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev sudo ldconfig ``` ## 7. Modell-Download und wichtige Hinweise zur Ausführung {#sec-aa117431d729} * **Kein direkter Download von HG:** Wenn Sie das Modell manuell von HuggingFace herunterladen und über `--model_path` verbinden, kann es aufgrund einer Diskrepanz bei den Variablennamen mit der ausführbaren Datei (`moss_tts_app.py`) zu Fehlern kommen. * **Automatischer Download empfohlen:** Beim Start mit Standardeinstellungen werden automatisch etwa 17 GB an Gewichtsmodellen und 7 GB an Tokenizern in den Cache-Pfad heruntergeladen. * **Ausführungsskript:** ```bash python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860 ``` > **Hinweis:** Beim Start kann eine Warnung bezüglich `GB10 (cuda capability 12.1)` erscheinen. Wir haben jedoch bestätigt, dass dies keinen Einfluss auf die tatsächliche Inferenzleistung hat. Das anfängliche Laden dauert etwa 30–60 Sekunden. ## 8. Erfahrungsbericht: „Fine-Tuning ist nicht mehr nötig“ {#sec-cfb473ec3c5d} * **Klonierungsleistung:** Mit nur einer einzigen Sprachprobe meiner Stimme werden Tonlage und Sprechgewohnheiten sowohl im Koreanischen, Englischen als auch im Japanischen perfekt reproduziert. * **Geschwindigkeit:** Kurze Sätze werden in 7–8 Sekunden generiert, längere Texte (3–4 Sätze) in etwa 30 Sekunden. * **Sprachspezifische Merkmale:** Englisch ist nahezu perfekt. Fehlinterpretationen von Kanji im Japanischen können leicht durch die Angabe in Hiragana korrigiert werden. * **Energieeffizienz:** Selbst während der Inferenz wird ein geringer Stromverbrauch von etwa **36W** beibehalten, und das Fehlen jeglicher Lüftergeräusche ist ein großer Vorteil der DGX Spark. --- ## 9. Fehlerbehebung: Warum kein offizielles NVIDIA-Image verwendet wurde {#sec-e2798483c6b5} Das von NVIDIA bereitgestellte Image `nvcr.io/nvidia/pytorch:26.01-py3` ermöglichte keinen Build von `torchaudio` und `torchcodec`, die für den Betrieb von TTS erforderlich sind. Es scheint, dass die PyTorch-Version, die NVIDIA beim Erstellen des Images integriert hat, speziell für NVIDIA-Produkte kompiliert wurde, was zu Versionskonflikten mit `torchaudio` und `torchcodec` führte. Daher ist eine normale `venv`-Umgebung derzeit die stabilste Option, auch auf der Spark. --- ## 🚀 Zukünftige Pläne {#sec-620285e7d87d} * **Implementierung von FlashAttention 2:** Wir planen zu testen, wie stark sich die Inferenzgeschwindigkeit nach der Installation verkürzt. * **MOSS-VoiceGenerator:** Wir beabsichtigen auch, ein Modell zu erforschen, das neue virtuelle Stimmen ohne Referenz generiert. --- **Verwandte Beiträge** -[NVIDIA DGX Spark – Der neue Standard für On-Premise KI-Infrastruktur](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)