# Установка TTS-модели MOSS-TTS, не требующей тонкой настройки (с использованием NVIDIA DGX Spark)

В этом посте я поделюсь процессом установки высокопроизводительной модели TTS **MOSS-TTS** в среде новейшей рабочей станции для ИИ от NVIDIA — **DGX Spark (Grace-Blackwell)**. Особенность этой модели заключается в невероятной производительности клонирования голоса без необходимости дополнительной тонкой настройки.


![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp)

## Краткий обзор системной среды {#sec-f34b9d0d948e}

Данное руководство по установке основано на следующей конфигурации:

| Категория | Характеристики | Примечание |
| --- | --- | --- |
| **Hardware** | NVIDIA DGX Spark (Grace-Blackwell) | Энергоэффективная/бесшумная рабочая станция для ИИ |
| **GPU** | GB10 (CUDA Capability 12.1) | Архитектура Blackwell |
| **OS** | На базе Ubuntu 22.04 LTS | - |
| **CUDA / Driver** | CUDA 13.0 | Стандартная среда драйверов Spark |
| **Python** | 3.10+ (используется venv) | Выбран легковесный venv вместо Conda |
| **VRAM 점유** | около 23.8 GB | При ожидании и выполнении инференса |

---

## 1. Клонирование репозитория {#sec-ef4f934465f5}

```bash
git clone https://github.com/OpenMOSS/MOSS-TTS.github
```


## 2. Создание и активация виртуальной среды (venv) {#sec-919dd44853da}

Хотя руководство GitHub рекомендует Conda, я выбрал виртуальную среду Python (venv) для удобства дальнейшей упаковки в Docker или регистрации службы `systemd`.

```bash
python3 -m venv myvenv
source myvenv/bin/activate
```

## 3. Обновление базовых инструментов сборки {#sec-93572d851f38}

```bash
pip install -U pip setuptools wheel

```

## 4. Важная настройка: Изменение pyproject.toml {#sec-20dfda9d709e}

Для соответствия среде **CUDA 13.0** на DGX Spark необходимо вручную изменить версии зависимостей. Важно **обязательно согласовать версии torch и torchaudio**, чтобы избежать конфликтов во время установки.

*   **Изменения:**
*   `"torch==2.10.0+cu130"`
*   `"torchaudio==2.10.0+cu130"`
*   `"torchcodec==0.10.0+cu130"`


## 5. Установка зависимостей {#sec-946338ef1888}

```bash
pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

```

## 6. Установка FFmpeg на хост {#sec-4245e15027ca}

Отсутствие FFmpeg вызовет ошибку при инференсе, поэтому его необходимо установить заранее вместе с необходимыми библиотеками.

```bash
sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

```

## 7. Загрузка модели и меры предосторожности при запуске {#sec-aa117431d729}

*   **Не скачивайте напрямую с HuggingFace:** Если вручную загрузить модель с HuggingFace и указать путь через `--model_path`, это может вызвать ошибку из-за несоответствия имен переменных с исполняемым файлом (`moss_tts_app.py`).
*   **Рекомендуется автоматическая загрузка:** При запуске по умолчанию автоматически загружаются весовые модели (около 17 ГБ) и токенизатор (7 ГБ) в кэш-директорию.
*   **Скрипт запуска:**

```bash
python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860
```

> **Примечание:** При запуске может появиться предупреждение, связанное с `GB10 (cuda capability 12.1)`, однако было подтверждено, что это не влияет на фактическую производительность инференса. Начальная загрузка занимает около 30-60 секунд.

## 8. Отзывы об использовании: «Тонкая настройка больше не нужна» {#sec-cfb473ec3c5d}

*   **Производительность клонирования:** Всего один образец моего голоса позволяет идеально воспроизвести тембр и особенности речи на корейском, английском и японском языках.
*   **Скорость:** Короткие предложения генерируются за 7-8 секунд, длинные тексты (3-4 предложения) — примерно за 30 секунд.
*   **Особенности по языкам:** Английский практически безупречен, а неправильное прочтение иероглифов в японском легко исправляется использованием хираганы.
*   **Энергоэффективность:** Даже при инференсе потребляется низкое энергопотребление — около **36 Вт**, а полное отсутствие шума вентиляторов является большим преимуществом DGX Spark.

---

## 9. Устранение неполадок: Почему не использовался официальный образ NVIDIA? {#sec-e2798483c6b5}

Образ `nvcr.io/nvidia/pytorch:26.01-py3`, предоставляемый NVIDIA, не позволяет собрать `torchaudio` и `torchcodec`, необходимые для работы TTS. Похоже, что версия PyTorch, включенная NVIDIA при создании образа, была специально скомпилирована для продуктов NVIDIA, и это вызвало проблемы из-за несоответствия версий PyTorch с `torchaudio` и `torchcodec`. Поэтому, к сожалению, на данный момент наиболее стабильной средой для Spark является обычное окружение `venv`.

---

## 🚀 Планы на будущее {#sec-620285e7d87d}

*   **Применение FlashAttention 2:** Планируется протестировать, насколько сократится скорость инференса после установки.
*   **MOSS-VoiceGenerator:** Также планируется изучить модель для генерации новых виртуальных голосов без использования референсов.

---

**Связанные статьи**

-[NVIDIA DGX Spark - 온프레미스 AI 인프라의 새로운 기준](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)