# MOSS-TTS installatie (met NVIDIA DGX Spark): Hoogwaardige TTS zonder finetuning

In dit bericht delen we onze ervaring met het opzetten van het krachtige TTS-model **MOSS-TTS** in een **DGX Spark (Grace-Blackwell)** omgeving, NVIDIA's nieuwste AI-werkstation. Het model onderscheidt zich door zijn indrukwekkende spraakkloningprestaties zonder de noodzaak van aparte finetuning.

![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp)

## Systeemomgeving in het kort {#sec-f34b9d0d948e}

Deze installatiegids is opgesteld op basis van de onderstaande omgeving:

| Categorie | Specificatie | Opmerking |
| --- | --- | --- |
| **Hardware** | NVIDIA DGX Spark (Grace-Blackwell) | Energiezuinig/stil AI-werkstation |
| **GPU** | GB10 (CUDA Capability 12.1) | Blackwell-architectuur |
| **OS** | Gebaseerd op Ubuntu 22.04 LTS | - |
| **CUDA / Driver** | CUDA 13.0 | Standaard driveromgeving van Spark |
| **Python** | 3.10+ (gebruik van venv) | Lichtgewicht venv gekozen boven Conda |
| **VRAM-gebruik** | Ongeveer 23.8 GB | Gebaseerd op inferentie standby en uitvoering |

---

## 1. Repository klonen {#sec-ef4f934465f5}

```bash
git clone https://github.com/OpenMOSS/MOSS-TTS.github
```


## 2. Virtuele omgeving (venv) aanmaken en activeren {#sec-919dd44853da}

Hoewel de GitHub-handleiding Conda aanbeveelt, hebben we gekozen voor een Python virtuele omgeving voor het gemak van toekomstige Docker-packaging of `systemd`-service registratie.

```bash
python3 -m venv myvenv
source myvenv/bin/activate
```

## 3. Basis buildtools updaten {#sec-93572d851f38}

```bash
pip install -U pip setuptools wheel

```

## 4. Essentiële configuratie: pyproject.toml aanpassen {#sec-20dfda9d709e}

Om de **CUDA 13.0** omgeving van de DGX Spark te matchen, moeten we de versie van de afhankelijkheden handmatig aanpassen. Het is cruciaal om de versies van **torch en torchaudio op elkaar af te stemmen** om installatieconflicten te voorkomen.

*   **Aanpassingen:**
*   `"torch==2.10.0+cu130"`
*   `"torchaudio==2.10.0+cu130"`
*   `"torchcodec==0.10.0+cu130"`


## 5. Afhankelijkheidspakketten installeren {#sec-946338ef1888}

```bash
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

```

## 6. Host FFmpeg installeren {#sec-4245e15027ca}

Zonder FFmpeg zal er een fout optreden tijdens de inferentie, dus installeer het alvast samen met de bibliotheken.

```bash
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

```

## 7. Model downloaden en aandachtspunten bij uitvoering {#sec-aa117431d729}

*   **Geen directe HG-download:** Als u het model handmatig van HuggingFace downloadt en koppelt via `--model_path`, kan dit leiden tot fouten door inconsistentie in variabelen met het uitvoerbare bestand (`moss_tts_app.py`).
*   **Automatische download aanbevolen:** Bij uitvoering met de standaardinstellingen worden de gewichtsmodellen (ongeveer 17 GB) en de Tokenizer (7 GB) automatisch gedownload naar het cachepad.
*   **Uitvoerscript:**

```bash
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
```

> **Opmerking:** Er kan een waarschuwing verschijnen met betrekking tot `GB10 (cuda capability 12.1)` tijdens de uitvoering, maar we hebben bevestigd dat dit geen invloed heeft op de daadwerkelijke inferentieprestaties. De initiële laadtijd bedraagt ongeveer 30-60 seconden.

## 8. Gebruikerservaring: "Finetuning is niet langer nodig" {#sec-cfb473ec3c5d}

*   **Kloonprestaties:** Met slechts één stemvoorbeeld van mijn eigen stem worden toon en spraakgewoonten perfect gereproduceerd in het Koreaans, Engels en Japans.
*   **Snelheid:** Korte zinnen worden in 7-8 seconden gegenereerd, langere teksten (3-4 zinnen) in ongeveer 30 seconden.
*   **Taalspecifieke kenmerken:** Engels is vrijwel perfect; verkeerde lezingen van Japanse kanji kunnen eenvoudig worden gecorrigeerd door hiragana-notatie.
*   **Energiezuinigheid:** Zelfs tijdens inferentie blijft het stroomverbruik laag, rond de **36W**, en het ontbreken van ventilatorgeluid is een groot voordeel van de DGX Spark.

---

## 9. Probleemoplossing: Waarom geen officiële NVIDIA-images gebruikt? {#sec-e2798483c6b5}

De door NVIDIA geleverde `nvcr.io/nvidia/pytorch:26.01-py3` image ondersteunt de benodigde `torchaudio` en `torchcodec` builds voor TTS niet. Het lijkt erop dat de PyTorch-versie die NVIDIA in hun images heeft opgenomen, speciaal is gebouwd voor NVIDIA-producten, wat resulteerde in versieconflicten met `torchaudio` en `torchcodec`. Daarom is een standaard `venv`-omgeving helaas de meest stabiele optie voor Spark op dit moment. 

---

## 🚀 Toekomstige plannen {#sec-620285e7d87d}

*   **FlashAttention 2 implementatie:** We zullen testen hoeveel de inferentiesnelheid wordt verkort na implementatie.
*   **MOSS-VoiceGenerator:** We zijn van plan om dit model te verkennen, dat in staat is om nieuwe virtuele stemmen te genereren zonder referentie.

---

**Gerelateerde artikelen**

-[NVIDIA DGX Spark - De nieuwe standaard voor on-premise AI-infrastructuur](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)