# MOSS-TTS installatie (met NVIDIA DGX Spark): Hoogwaardige TTS zonder finetuning In dit bericht delen we onze ervaring met het opzetten van het krachtige TTS-model **MOSS-TTS** in een **DGX Spark (Grace-Blackwell)** omgeving, NVIDIA's nieuwste AI-werkstation. Het model onderscheidt zich door zijn indrukwekkende spraakkloningprestaties zonder de noodzaak van aparte finetuning. ![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp) ## Systeemomgeving in het kort {#sec-f34b9d0d948e} Deze installatiegids is opgesteld op basis van de onderstaande omgeving: | Categorie | Specificatie | Opmerking | | --- | --- | --- | | **Hardware** | NVIDIA DGX Spark (Grace-Blackwell) | Energiezuinig/stil AI-werkstation | | **GPU** | GB10 (CUDA Capability 12.1) | Blackwell-architectuur | | **OS** | Gebaseerd op Ubuntu 22.04 LTS | - | | **CUDA / Driver** | CUDA 13.0 | Standaard driveromgeving van Spark | | **Python** | 3.10+ (gebruik van venv) | Lichtgewicht venv gekozen boven Conda | | **VRAM-gebruik** | Ongeveer 23.8 GB | Gebaseerd op inferentie standby en uitvoering | --- ## 1. Repository klonen {#sec-ef4f934465f5} ```bash git clone https://github.com/OpenMOSS/MOSS-TTS.github ``` ## 2. Virtuele omgeving (venv) aanmaken en activeren {#sec-919dd44853da} Hoewel de GitHub-handleiding Conda aanbeveelt, hebben we gekozen voor een Python virtuele omgeving voor het gemak van toekomstige Docker-packaging of `systemd`-service registratie. ```bash python3 -m venv myvenv source myvenv/bin/activate ``` ## 3. Basis buildtools updaten {#sec-93572d851f38} ```bash pip install -U pip setuptools wheel ``` ## 4. Essentiële configuratie: pyproject.toml aanpassen {#sec-20dfda9d709e} Om de **CUDA 13.0** omgeving van de DGX Spark te matchen, moeten we de versie van de afhankelijkheden handmatig aanpassen. Het is cruciaal om de versies van **torch en torchaudio op elkaar af te stemmen** om installatieconflicten te voorkomen. * **Aanpassingen:** * `"torch==2.10.0+cu130"` * `"torchaudio==2.10.0+cu130"` * `"torchcodec==0.10.0+cu130"` ## 5. Afhankelijkheidspakketten installeren {#sec-946338ef1888} ```bash pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e . ``` ## 6. Host FFmpeg installeren {#sec-4245e15027ca} Zonder FFmpeg zal er een fout optreden tijdens de inferentie, dus installeer het alvast samen met de bibliotheken. ```bash sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev sudo ldconfig ``` ## 7. Model downloaden en aandachtspunten bij uitvoering {#sec-aa117431d729} * **Geen directe HG-download:** Als u het model handmatig van HuggingFace downloadt en koppelt via `--model_path`, kan dit leiden tot fouten door inconsistentie in variabelen met het uitvoerbare bestand (`moss_tts_app.py`). * **Automatische download aanbevolen:** Bij uitvoering met de standaardinstellingen worden de gewichtsmodellen (ongeveer 17 GB) en de Tokenizer (7 GB) automatisch gedownload naar het cachepad. * **Uitvoerscript:** ```bash python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860 ``` > **Opmerking:** Er kan een waarschuwing verschijnen met betrekking tot `GB10 (cuda capability 12.1)` tijdens de uitvoering, maar we hebben bevestigd dat dit geen invloed heeft op de daadwerkelijke inferentieprestaties. De initiële laadtijd bedraagt ongeveer 30-60 seconden. ## 8. Gebruikerservaring: "Finetuning is niet langer nodig" {#sec-cfb473ec3c5d} * **Kloonprestaties:** Met slechts één stemvoorbeeld van mijn eigen stem worden toon en spraakgewoonten perfect gereproduceerd in het Koreaans, Engels en Japans. * **Snelheid:** Korte zinnen worden in 7-8 seconden gegenereerd, langere teksten (3-4 zinnen) in ongeveer 30 seconden. * **Taalspecifieke kenmerken:** Engels is vrijwel perfect; verkeerde lezingen van Japanse kanji kunnen eenvoudig worden gecorrigeerd door hiragana-notatie. * **Energiezuinigheid:** Zelfs tijdens inferentie blijft het stroomverbruik laag, rond de **36W**, en het ontbreken van ventilatorgeluid is een groot voordeel van de DGX Spark. --- ## 9. Probleemoplossing: Waarom geen officiële NVIDIA-images gebruikt? {#sec-e2798483c6b5} De door NVIDIA geleverde `nvcr.io/nvidia/pytorch:26.01-py3` image ondersteunt de benodigde `torchaudio` en `torchcodec` builds voor TTS niet. Het lijkt erop dat de PyTorch-versie die NVIDIA in hun images heeft opgenomen, speciaal is gebouwd voor NVIDIA-producten, wat resulteerde in versieconflicten met `torchaudio` en `torchcodec`. Daarom is een standaard `venv`-omgeving helaas de meest stabiele optie voor Spark op dit moment. --- ## 🚀 Toekomstige plannen {#sec-620285e7d87d} * **FlashAttention 2 implementatie:** We zullen testen hoeveel de inferentiesnelheid wordt verkort na implementatie. * **MOSS-VoiceGenerator:** We zijn van plan om dit model te verkennen, dat in staat is om nieuwe virtuele stemmen te genereren zonder referentie. --- **Gerelateerde artikelen** -[NVIDIA DGX Spark - De nieuwe standaard voor on-premise AI-infrastructuur](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)