# 无需微调的TTS:MOSS-TTS安装实录(NVIDIA DGX Spark应用实践) 在本篇博文中,我们将分享在NVIDIA最新AI工作站**DGX Spark (Grace-Blackwell)** 环境中部署高性能TTS模型**MOSS-TTS**的全过程。其最大特点是,无需额外的微调,即可展现出令人惊叹的语音克隆能力。 ![moss-tts-on-dgx-spark](/media/whitedec/blog_img/e24d4416693f4aeaae267eecfa832122.webp) ## 系统环境概览 {#sec-f34b9d0d948e} 本安装指南基于以下环境配置: | 类别 | 规格 | 备注 | | --- | --- | --- | | **Hardware** | NVIDIA DGX Spark (Grace-Blackwell) | 低功耗/低噪音AI工作站 | | **GPU** | GB10 (CUDA Capability 12.1) | Blackwell架构 | | **OS** | Ubuntu 22.04 LTS 기반 | - | | **CUDA / Driver** | CUDA 13.0 | Spark默认驱动环境 | | **Python** | 3.10+ (venv 사용) | 选用轻量级venv而非Conda | | **VRAM 점유** | 약 23.8 GB | 推理待机及运行时的占用情况 | --- ## 1. 克隆代码库 {#sec-ef4f934465f5} ```bash git clone https://github.com/OpenMOSS/MOSS-TTS.github ``` ## 2. 创建并激活虚拟环境 (venv) {#sec-919dd44853da} 尽管GitHub指南推荐使用Conda,但考虑到未来Docker打包和`systemd`服务注册的便利性,我们选择了Python虚拟环境。 ```bash python3 -m venv myvenv source myvenv/bin/activate ``` ## 3. 更新基础构建工具 {#sec-93572d851f38} ```bash pip install -U pip setuptools wheel ``` ## 4. 关键配置:修改 pyproject.toml 文件 {#sec-20dfda9d709e} 为了适应DGX Spark的**CUDA 13.0**环境,我们需要手动修改依赖项的版本。特别要注意的是,**torch和torchaudio的版本必须保持一致**,以避免安装过程中出现冲突。 * **修改内容:** * `"torch==2.10.0+cu130"` * `"torchaudio==2.10.0+cu130"` * `"torchcodec==0.10.0+cu130"` ## 5. 安装依赖包 {#sec-946338ef1888} ```bash pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e . ``` ## 6. 安装主机FFmpeg {#sec-4245e15027ca} 由于缺少FFmpeg会导致推理时出错,因此我们需要提前安装FFmpeg及其相关库。 ```bash sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev sudo ldconfig ``` ## 7. 模型下载与运行注意事项 {#sec-aa117431d729} * **禁止手动下载HG模型:** 若从HuggingFace手动下载模型并通过`--model_path`参数连接,可能因与执行文件(`moss_tts_app.py`)的变量名不匹配而导致错误。 * **推荐自动下载:** 以默认设置运行,系统会自动下载约17GB的权重模型和7GB的Tokenizer到缓存路径。 * **运行脚本:** ```bash python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860 ``` > **注意:** 运行时可能会出现与`GB10 (cuda capability 12.1)`相关的警告,但经确认,这并不会影响实际的推理性能。初始加载大约需要30-60秒。 ## 8. 使用体验:“从此告别微调” {#sec-cfb473ec3c5d} * **克隆性能:** 仅凭一个我的声音样本,就能完美复刻韩语、英语、日语的发音音色和习惯。 * **速度:** 短句生成约需7-8秒,长文(3-4句)则在30秒左右完成。 * **各语言特点:** 英语表现几乎完美;日语中的汉字误读可以通过平假名标注轻松修正。 * **能效:** 推理时仍保持在**36W**左右的低功耗,且完全无风扇噪音,这是DGX Spark的一大显著优势。 --- ## 9. 故障排除:为何不使用NVIDIA官方镜像? {#sec-e2798483c6b5} NVIDIA提供的`nvcr.io/nvidia/pytorch:26.01-py3`镜像无法构建TTS运行所需的`torchaudio`和`torchcodec`。这可能是因为NVIDIA在制作镜像时,其内置的PyTorch版本是为NVIDIA产品特别构建的,导致与`torchaudio`及`torchcodec`存在版本不匹配问题。因此,遗憾的是,目前在Spark上使用普通的`venv`环境是最稳定的方案。 --- ## 🚀 未来计划 {#sec-620285e7d87d} * **应用FlashAttention 2:** 安装后将测试其推理速度能缩短多少。 * **MOSS-VoiceGenerator:** 计划探索无需参考即可生成全新虚拟声音的模型。 --- **相关文章** -[NVIDIA DGX Spark - 온프레미스 AI 인프라의 새로운 기준](/ko/whitedec/2025/5/12/nvidia-dgx-spark-ai-infra/)