# MOSS-TTS auf NVIDIA DGX Spark installieren: Hochleistungs-TTS ohne Fine-Tuning

In diesem Beitrag teilen wir unsere Erfahrungen bei der Implementierung des Hochleistungs-TTS-Modells **MOSS-TTS** auf der neuesten KI-Workstation von NVIDIA, der **DGX Spark (Grace-Blackwell)**. Das Besondere daran ist die beeindruckende Stimmklonierungsleistung, die ohne zusätzliches Fine-Tuning erzielt wird.


![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp)

## Zusammenfassung der Systemumgebung {#sec-f34b9d0d948e}

Diese Installationsanleitung basiert auf der folgenden Umgebung:

| Kategorie | Spezifikation | Anmerkung |
| --- | --- | --- |
| **Hardware** | NVIDIA DGX Spark (Grace-Blackwell) | Energieeffiziente/geräuscharme KI-Workstation |
| **GPU** | GB10 (CUDA Capability 12.1) | Blackwell-Architektur |
| **OS** | Basierend auf Ubuntu 22.04 LTS | - |
| **CUDA / Driver** | CUDA 13.0 | Standard-Treiberumgebung der Spark |
| **Python** | 3.10+ (venv verwendet) | Leichtgewichtige venv statt Conda gewählt |
| **VRAM-Belegung** | ca. 23.8 GB | Im Leerlauf und bei Inferenz |

---

## 1. Repository klonen {#sec-ef4f934465f5}

```bash
git clone https://github.com/OpenMOSS/MOSS-TTS.github
```


## 2. Virtuelle Umgebung (venv) erstellen und aktivieren {#sec-919dd44853da}

Obwohl der GitHub-Leitfaden Conda empfiehlt, haben wir uns für eine Python-Virtualumgebung (venv) entschieden, um zukünftige Docker-Paketierungen und die Registrierung von `systemd`-Diensten zu vereinfachen.

```bash
python3 -m venv myvenv
source myvenv/bin/activate
```

## 3. Grundlegende Build-Tools aktualisieren {#sec-93572d851f38}

```bash
pip install -U pip setuptools wheel

```

## 4. Wichtige Konfiguration: pyproject.toml anpassen {#sec-20dfda9d709e}

Um die Umgebung der DGX Spark mit **CUDA 13.0** anzupassen, müssen die Abhängigkeitsversionen manuell geändert werden. Es ist **unerlässlich, die Versionen von torch und torchaudio abzugleichen**, um Konflikte während der Installation zu vermeiden.

*   **Änderungen:**
*   `"torch==2.10.0+cu130"`
*   `"torchaudio==2.10.0+cu130"`
*   `"torchcodec==0.10.0+cu130"`


## 5. Abhängigkeitspakete installieren {#sec-946338ef1888}

```bash
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

```

## 6. FFmpeg auf dem Host installieren {#sec-4245e15027ca}

Da ohne FFmpeg während der Inferenz Fehler auftreten, installieren wir es zusammen mit den Bibliotheken im Voraus.

```bash
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

```

## 7. Modell-Download und wichtige Hinweise zur Ausführung {#sec-aa117431d729}

*   **Kein direkter Download von HG:** Wenn Sie das Modell manuell von HuggingFace herunterladen und über `--model_path` verbinden, kann es aufgrund einer Diskrepanz bei den Variablennamen mit der ausführbaren Datei (`moss_tts_app.py`) zu Fehlern kommen.
*   **Automatischer Download empfohlen:** Beim Start mit Standardeinstellungen werden automatisch etwa 17 GB an Gewichtsmodellen und 7 GB an Tokenizern in den Cache-Pfad heruntergeladen.
*   **Ausführungsskript:**

```bash
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
```

> **Hinweis:** Beim Start kann eine Warnung bezüglich `GB10 (cuda capability 12.1)` erscheinen. Wir haben jedoch bestätigt, dass dies keinen Einfluss auf die tatsächliche Inferenzleistung hat. Das anfängliche Laden dauert etwa 30–60 Sekunden.

## 8. Erfahrungsbericht: „Fine-Tuning ist nicht mehr nötig“ {#sec-cfb473ec3c5d}

*   **Klonierungsleistung:** Mit nur einer einzigen Sprachprobe meiner Stimme werden Tonlage und Sprechgewohnheiten sowohl im Koreanischen, Englischen als auch im Japanischen perfekt reproduziert.
*   **Geschwindigkeit:** Kurze Sätze werden in 7–8 Sekunden generiert, längere Texte (3–4 Sätze) in etwa 30 Sekunden.
*   **Sprachspezifische Merkmale:** Englisch ist nahezu perfekt. Fehlinterpretationen von Kanji im Japanischen können leicht durch die Angabe in Hiragana korrigiert werden.
*   **Energieeffizienz:** Selbst während der Inferenz wird ein geringer Stromverbrauch von etwa **36W** beibehalten, und das Fehlen jeglicher Lüftergeräusche ist ein großer Vorteil der DGX Spark.

---

## 9. Fehlerbehebung: Warum kein offizielles NVIDIA-Image verwendet wurde {#sec-e2798483c6b5}

Das von NVIDIA bereitgestellte Image `nvcr.io/nvidia/pytorch:26.01-py3` ermöglichte keinen Build von `torchaudio` und `torchcodec`, die für den Betrieb von TTS erforderlich sind. Es scheint, dass die PyTorch-Version, die NVIDIA beim Erstellen des Images integriert hat, speziell für NVIDIA-Produkte kompiliert wurde, was zu Versionskonflikten mit `torchaudio` und `torchcodec` führte. Daher ist eine normale `venv`-Umgebung derzeit die stabilste Option, auch auf der Spark.

---

## 🚀 Zukünftige Pläne {#sec-620285e7d87d}

*   **Implementierung von FlashAttention 2:** Wir planen zu testen, wie stark sich die Inferenzgeschwindigkeit nach der Installation verkürzt.
*   **MOSS-VoiceGenerator:** Wir beabsichtigen auch, ein Modell zu erforschen, das neue virtuelle Stimmen ohne Referenz generiert.

---

**Verwandte Beiträge**

-[NVIDIA DGX Spark – Der neue Standard für On-Premise KI-Infrastruktur](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)