MOSS-TTS installatiegids op NVIDIA DGX Spark: Krachtige TTS zonder finetuning

MOSS-TTS installatie (met NVIDIA DGX Spark): Hoogwaardige TTS zonder finetuning

In dit bericht delen we onze ervaring met het opzetten van het krachtige TTS-model MOSS-TTS in een DGX Spark (Grace-Blackwell) omgeving, NVIDIA's nieuwste AI-werkstation. Het model onderscheidt zich door zijn indrukwekkende spraakkloningprestaties zonder de noodzaak van aparte finetuning.

moss-tts-on-dgx-spark

Systeemomgeving in het kort

Deze installatiegids is opgesteld op basis van de onderstaande omgeving:

Categorie	Specificatie	Opmerking
Hardware	NVIDIA DGX Spark (Grace-Blackwell)	Energiezuinig/stil AI-werkstation
GPU	GB10 (CUDA Capability 12.1)	Blackwell-architectuur
OS	Gebaseerd op Ubuntu 22.04 LTS	-
CUDA / Driver	CUDA 13.0	Standaard driveromgeving van Spark
Python	3.10+ (gebruik van venv)	Lichtgewicht venv gekozen boven Conda
VRAM-gebruik	Ongeveer 23.8 GB	Gebaseerd op inferentie standby en uitvoering

1. Repository klonen

git clone https://github.com/OpenMOSS/MOSS-TTS.github

2. Virtuele omgeving (venv) aanmaken en activeren

Hoewel de GitHub-handleiding Conda aanbeveelt, hebben we gekozen voor een Python virtuele omgeving voor het gemak van toekomstige Docker-packaging of systemd-service registratie.

python3 -m venv myvenv
source myvenv/bin/activate

3. Basis buildtools updaten

pip install -U pip setuptools wheel

4. Essentiële configuratie: pyproject.toml aanpassen

Om de CUDA 13.0 omgeving van de DGX Spark te matchen, moeten we de versie van de afhankelijkheden handmatig aanpassen. Het is cruciaal om de versies van torch en torchaudio op elkaar af te stemmen om installatieconflicten te voorkomen.

Aanpassingen:
"torch==2.10.0+cu130"
"torchaudio==2.10.0+cu130"
"torchcodec==0.10.0+cu130"

5. Afhankelijkheidspakketten installeren

pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

6. Host FFmpeg installeren

Zonder FFmpeg zal er een fout optreden tijdens de inferentie, dus installeer het alvast samen met de bibliotheken.

sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

7. Model downloaden en aandachtspunten bij uitvoering

Geen directe HG-download: Als u het model handmatig van HuggingFace downloadt en koppelt via --model_path, kan dit leiden tot fouten door inconsistentie in variabelen met het uitvoerbare bestand (moss_tts_app.py).
Automatische download aanbevolen: Bij uitvoering met de standaardinstellingen worden de gewichtsmodellen (ongeveer 17 GB) en de Tokenizer (7 GB) automatisch gedownload naar het cachepad.
Uitvoerscript:

python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860

Opmerking: Er kan een waarschuwing verschijnen met betrekking tot GB10 (cuda capability 12.1) tijdens de uitvoering, maar we hebben bevestigd dat dit geen invloed heeft op de daadwerkelijke inferentieprestaties. De initiële laadtijd bedraagt ongeveer 30-60 seconden.

8. Gebruikerservaring: "Finetuning is niet langer nodig"

Kloonprestaties: Met slechts één stemvoorbeeld van mijn eigen stem worden toon en spraakgewoonten perfect gereproduceerd in het Koreaans, Engels en Japans.
Snelheid: Korte zinnen worden in 7-8 seconden gegenereerd, langere teksten (3-4 zinnen) in ongeveer 30 seconden.
Taalspecifieke kenmerken: Engels is vrijwel perfect; verkeerde lezingen van Japanse kanji kunnen eenvoudig worden gecorrigeerd door hiragana-notatie.
Energiezuinigheid: Zelfs tijdens inferentie blijft het stroomverbruik laag, rond de 36W, en het ontbreken van ventilatorgeluid is een groot voordeel van de DGX Spark.

9. Probleemoplossing: Waarom geen officiële NVIDIA-images gebruikt?

De door NVIDIA geleverde nvcr.io/nvidia/pytorch:26.01-py3 image ondersteunt de benodigde torchaudio en torchcodec builds voor TTS niet. Het lijkt erop dat de PyTorch-versie die NVIDIA in hun images heeft opgenomen, speciaal is gebouwd voor NVIDIA-producten, wat resulteerde in versieconflicten met torchaudio en torchcodec. Daarom is een standaard venv-omgeving helaas de meest stabiele optie voor Spark op dit moment.

🚀 Toekomstige plannen

FlashAttention 2 implementatie: We zullen testen hoeveel de inferentiesnelheid wordt verkort na implementatie.
MOSS-VoiceGenerator: We zijn van plan om dit model te verkennen, dat in staat is om nieuwe virtuele stemmen te genereren zonder referentie.

Gerelateerde artikelen

-NVIDIA DGX Spark - De nieuwe norm voor on-premise AI infrastructuur