MIKI BLOG

2026-03-10

DGX Spark 模型推論：FlashAttention 2 安裝實錄與效能評測

深入探討在 DGX Spark 高效能運算環境中，為加速模型推論並有效節省 GPU 記憶體資源，而進行 FlashAttention 2 安裝的完整實戰心得。本文不僅詳細記錄了從準備到實際安裝過程中遇到的各種技術難題、AArch64 架構下的特殊處理方式，以及如何透過指令最佳化解決方案，更重要的是，將真實呈現安裝 FlashAttention 2 後，在模型推論速度與記憶體利用率上的實際改善效果與體感評估，為您提供寶貴的參考經驗。

#cuda #gpu #dgx spark #flashattention 2 +2

2026-03-03

[Wan2.2 S2V 分析] 從 59 分鐘縮至 6 分鐘：尋找實務使用的速度與品質最佳平衡點

本報告以 Wan2.2 S2V 為例，分析音訊與單人影像生成口型同步影片時，速度、品質與手勢執行之權衡。比較 LoRA 有無、FP8 與 BF16、步數設定等因素，提供實務可用的最佳組合與後續改進方向。

#lora #dgx spark #wan2-2 #s2v +3

2026-03-03

Ditto TalkingHead（DGX Spark / ARM64）TensorRT 移植作業紀錄

在 DGX Spark ARM64 平台上將 Ditto TalkingHead 迁移至 TensorRT 的完整过程。解析 x86 GridSample3D 插件加载失败的原因，提供 ARM64 插件重新编译、CMake 配置调整、ONNX→TensorRT 转换及推论成功的步骤，为 AI 开发者和工程师提供实用的故障排查指南。

#cuda #dgx spark #tensorrt #arm64 +3

2025-11-26

走过GGUF时代，用DGX Spark开启本地AI研究的新视野

这篇文章探讨了本地AI研究的新视野，利用DGX Spark超越GGUF模型。介绍了最新的Flux模型、本地环境构建方法、性能比较及实际应用案例。

#ai #本地 ai #flux #dgx spark +3

2025-11-19

DGX Spark上進行FLUX 1-dev 12B LoRA微調實戰經驗 - 低功耗高效能學習的明與暗

分享在DGX Spark ARM基礎上對FLUX 1-dev 12B模型的LoRA微調實戰經驗，包括1000步、100個Epoch的學習過程、OOM問題、電力效率、CPU瓶頸等詳細分析及未來的改善方案。

#arm #lora #peft #flux +4

所有文章

DGX Spark 模型推論：FlashAttention 2 安裝實錄與效能評測

[Wan2.2 S2V 分析] 從 59 分鐘縮至 6 分鐘：尋找實務使用的速度與品質最佳平衡點

Ditto TalkingHead（DGX Spark / ARM64）TensorRT 移植作業紀錄

走过GGUF时代，用DGX Spark开启本地AI研究的新视野

DGX Spark上進行FLUX 1-dev 12B LoRA微調實戰經驗 - 低功耗高效能學習的明與暗