Revision Ver-1

无需微调的TTS：MOSS-TTS安装实录（NVIDIA DGX Spark应用实践）

在本篇博文中，我们将分享在NVIDIA最新AI工作站DGX Spark (Grace-Blackwell) 环境中部署高性能TTS模型MOSS-TTS的全过程。其最大特点是，无需额外的微调，即可展现出令人惊叹的语音克隆能力。

moss-tts-on-dgx-spark

系统环境概览

本安装指南基于以下环境配置：

类别	规格	备注
Hardware	NVIDIA DGX Spark (Grace-Blackwell)	低功耗/低噪音AI工作站
GPU	GB10 (CUDA Capability 12.1)	Blackwell架构
OS	Ubuntu 22.04 LTS 기반	-
CUDA / Driver	CUDA 13.0	Spark默认驱动环境
Python	3.10+ (venv 사용)	选用轻量级venv而非Conda
VRAM 점유	약 23.8 GB	推理待机及运行时的占用情况

1. 克隆代码库

git clone https://github.com/OpenMOSS/MOSS-TTS.github

2. 创建并激活虚拟环境 (venv)

尽管GitHub指南推荐使用Conda，但考虑到未来Docker打包和systemd服务注册的便利性，我们选择了Python虚拟环境。

python3 -m venv myvenv
source myvenv/bin/activate

3. 更新基础构建工具

pip install -U pip setuptools wheel

4. 关键配置：修改 pyproject.toml 文件

为了适应DGX Spark的CUDA 13.0环境，我们需要手动修改依赖项的版本。特别要注意的是，torch和torchaudio的版本必须保持一致，以避免安装过程中出现冲突。

修改内容：
"torch==2.10.0+cu130"
"torchaudio==2.10.0+cu130"
"torchcodec==0.10.0+cu130"

5. 安装依赖包

pip install --extra-index-url https://download.pytorch.org/whl/cu130 -e .

6. 安装主机FFmpeg

由于缺少FFmpeg会导致推理时出错，因此我们需要提前安装FFmpeg及其相关库。

sudo apt update && sudo apt install -y ffmpeg libavcodec-dev libavformat-dev libavutil-dev libswresample-dev libswscale-dev
sudo ldconfig

7. 模型下载与运行注意事项

禁止手动下载HG模型： 若从HuggingFace手动下载模型并通过--model_path参数连接，可能因与执行文件(moss_tts_app.py)的变量名不匹配而导致错误。
推荐自动下载： 以默认设置运行，系统会自动下载约17GB的权重模型和7GB的Tokenizer到缓存路径。
运行脚本：

python clis/moss_tts_app.py --device cuda --attn_implementation auto --host 0.0.0.0 --port 7860

注意： 运行时可能会出现与GB10 (cuda capability 12.1)相关的警告，但经确认，这并不会影响实际的推理性能。初始加载大约需要30-60秒。

8. 使用体验：“从此告别微调”

克隆性能： 仅凭一个我的声音样本，就能完美复刻韩语、英语、日语的发音音色和习惯。
速度： 短句生成约需7-8秒，长文（3-4句）则在30秒左右完成。
各语言特点： 英语表现几乎完美；日语中的汉字误读可以通过平假名标注轻松修正。
能效： 推理时仍保持在36W左右的低功耗，且完全无风扇噪音，这是DGX Spark的一大显著优势。

9. 故障排除：为何不使用NVIDIA官方镜像？

NVIDIA提供的nvcr.io/nvidia/pytorch:26.01-py3镜像无法构建TTS运行所需的torchaudio和torchcodec。这可能是因为NVIDIA在制作镜像时，其内置的PyTorch版本是为NVIDIA产品特别构建的，导致与torchaudio及torchcodec存在版本不匹配问题。因此，遗憾的是，目前在Spark上使用普通的venv环境是最稳定的方案。

🚀 未来计划

应用FlashAttention 2： 安装后将测试其推理速度能缩短多少。
MOSS-VoiceGenerator： 计划探索无需参考即可生成全新虚拟声音的模型。

无需微调也能实现高性能TTS：MOSS-TTS在NVIDIA DGX Spark上的安装指南 [ r1 ]