MIKI BLOG

2026-03-10

DGX Spark 上 FlashAttention 2 模型推理安装实录

本文分享了在DGX Spark环境中为提升模型推理速度和降低GPU内存占用而安装FlashAttention 2的经验。详细记录了安装过程中遇到的挑战，如AArch64架构下的源码编译、CUDA版本兼容性问题以及Python开发库的依赖。同时，也客观评估了安装后在实际推理速度和内存使用方面的效果，为读者提供参考。

#cuda #gpu #dgx spark #flashattention 2 +2

2026-03-03

Ditto TalkingHead（DGX Spark / ARM64）TensorRT 移植工作记录

本文详细记录了在 DGX Spark ARM64 平台上将 Ditto TalkingHead 项目移植到 TensorRT 的完整过程，包括 x86 GridSample3D 插件加载失败的原因分析、在 ARM64 环境下重新编译自定义插件的步骤、CMake 配置调整以及 ONNX 到 TensorRT 的转换和推理成功的全部细节，为 AI 开发者提供实用的实战排障指南。

#cuda #dgx spark #tensorrt #arm64 +3

2025-11-26

迈向 DGX Spark 的 GGUF 时代 - 本地 AI 研究的新视野

在这篇文章中，我们探讨了超越 GGUF 模型的 DGX Spark，在本地 AI 研究中的新视野。介绍了最新的 Flux 模型、本地环境构建方法、性能比较以及实际应用案例。

#ai #本地 ai #flux #dgx spark +3

2025-11-19

在DGX Spark上进行FLUX 1-dev 12B LoRA微调的实践记 - 低功耗高效率学习的明与暗

分享在DGX Spark ARM架构下对FLUX 1-dev 12B模型的LoRA微调实际经验。包括1000 Step，100 Epoch的学习过程、OOM问题、电力效率、CPU瓶颈等详细分析及未来改进方案。

#arm #lora #fine-tuning #peft +4

所有文章

DGX Spark 上 FlashAttention 2 模型推理安装实录

Ditto TalkingHead（DGX Spark / ARM64）TensorRT 移植工作记录

迈向 DGX Spark 的 GGUF 时代 - 本地 AI 研究的新视野

在DGX Spark上进行FLUX 1-dev 12B LoRA微调的实践记 - 低功耗高效率学习的明与暗