MOSS-TTS installatie (met NVIDIA DGX Spark): Hoogwaardige TTS zonder finetuning
In dit bericht delen we onze ervaring met het opzetten van het krachtige TTS-model MOSS-TTS in een DGX Spark (Grace-Blackwell) omgeving, NVIDIA's nieuwste AI-werkstation. Het model onderscheidt zich door zijn indrukwekkende spraakkloningprestaties zonder de noodzaak van aparte finetuning.

Systeemomgeving in het kort
Deze installatiegids is opgesteld op basis van de onderstaande omgeving:
| Categorie | Specificatie | Opmerking |
|---|---|---|
| Hardware | NVIDIA DGX Spark (Grace-Blackwell) | Energiezuinig/stil AI-werkstation |
| GPU | GB10 (CUDA Capability 12.1) | Blackwell-architectuur |
| OS | Gebaseerd op Ubuntu 22.04 LTS | - |
| CUDA / Driver | CUDA 13.0 | Standaard driveromgeving van Spark |
| Python | 3.10+ (gebruik van venv) | Lichtgewicht venv gekozen boven Conda |
| VRAM-gebruik | Ongeveer 23.8 GB | Gebaseerd op inferentie standby en uitvoering |
1. Repository klonen
git clone https://github.com/OpenMOSS/MOSS-TTS.github
2. Virtuele omgeving (venv) aanmaken en activeren
Hoewel de GitHub-handleiding Conda aanbeveelt, hebben we gekozen voor een Python virtuele omgeving voor het gemak van toekomstige Docker-packaging of systemd-service registratie.
python3 -m venv myvenv
source myvenv/bin/activate
3. Basis buildtools updaten
pip install -U pip setuptools wheel
4. Essentiële configuratie: pyproject.toml aanpassen
Om de CUDA 13.0 omgeving van de DGX Spark te matchen, moeten we de versie van de afhankelijkheden handmatig aanpassen. Het is cruciaal om de versies van torch en torchaudio op elkaar af te stemmen om installatieconflicten te voorkomen.
- Aanpassingen:
"torch==2.10.0+cu130""torchaudio==2.10.0+cu130""torchcodec==0.10.0+cu130"
5. Afhankelijkheidspakketten installeren
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .
6. Host FFmpeg installeren
Zonder FFmpeg zal er een fout optreden tijdens de inferentie, dus installeer het alvast samen met de bibliotheken.
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig
7. Model downloaden en aandachtspunten bij uitvoering
- Geen directe HG-download: Als u het model handmatig van HuggingFace downloadt en koppelt via
--model_path, kan dit leiden tot fouten door inconsistentie in variabelen met het uitvoerbare bestand (moss_tts_app.py). - Automatische download aanbevolen: Bij uitvoering met de standaardinstellingen worden de gewichtsmodellen (ongeveer 17 GB) en de Tokenizer (7 GB) automatisch gedownload naar het cachepad.
- Uitvoerscript:
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
Opmerking: Er kan een waarschuwing verschijnen met betrekking tot
GB10 (cuda capability 12.1)tijdens de uitvoering, maar we hebben bevestigd dat dit geen invloed heeft op de daadwerkelijke inferentieprestaties. De initiële laadtijd bedraagt ongeveer 30-60 seconden.
8. Gebruikerservaring: "Finetuning is niet langer nodig"
- Kloonprestaties: Met slechts één stemvoorbeeld van mijn eigen stem worden toon en spraakgewoonten perfect gereproduceerd in het Koreaans, Engels en Japans.
- Snelheid: Korte zinnen worden in 7-8 seconden gegenereerd, langere teksten (3-4 zinnen) in ongeveer 30 seconden.
- Taalspecifieke kenmerken: Engels is vrijwel perfect; verkeerde lezingen van Japanse kanji kunnen eenvoudig worden gecorrigeerd door hiragana-notatie.
- Energiezuinigheid: Zelfs tijdens inferentie blijft het stroomverbruik laag, rond de 36W, en het ontbreken van ventilatorgeluid is een groot voordeel van de DGX Spark.
9. Probleemoplossing: Waarom geen officiële NVIDIA-images gebruikt?
De door NVIDIA geleverde nvcr.io/nvidia/pytorch:26.01-py3 image ondersteunt de benodigde torchaudio en torchcodec builds voor TTS niet. Het lijkt erop dat de PyTorch-versie die NVIDIA in hun images heeft opgenomen, speciaal is gebouwd voor NVIDIA-producten, wat resulteerde in versieconflicten met torchaudio en torchcodec. Daarom is een standaard venv-omgeving helaas de meest stabiele optie voor Spark op dit moment.
🚀 Toekomstige plannen
- FlashAttention 2 implementatie: We zullen testen hoeveel de inferentiesnelheid wordt verkort na implementatie.
- MOSS-VoiceGenerator: We zijn van plan om dit model te verkennen, dat in staat is om nieuwe virtuele stemmen te genereren zonder referentie.
Gerelateerde artikelen
-NVIDIA DGX Spark - De nieuwe norm voor on-premise AI infrastructuur
There are no comments.