Sign in
There are a total of 4 posts.
2026-03-10
深入探討在 DGX Spark 高效能運算環境中,為加速模型推論並有效節省 GPU 記憶體資源,而進行 FlashAttention 2 安裝的完整實戰心得。本文不僅詳細記錄了從準備到實際安裝過程中遇到的各種技術難題、AArch64 架構下的特殊處理方式,以及如何透過指令最佳化解決方案,更重要的是,將真實呈現安裝 FlashAttention 2 後,在模型推論速度與記憶體利用率上的實際改善效果與體感評估,為您提供寶貴的參考經驗。
2026-03-03
在 DGX Spark ARM64 平台上將 Ditto TalkingHead 迁移至 TensorRT 的完整过程。解析 x86 GridSample3D 插件加载失败的原因,提供 ARM64 插件重新编译、CMake 配置调整、ONNX→TensorRT 转换及推论成功的步骤,为 AI 开发者和工程师提供实用的故障排查指南。
2025-05-07
為AI深度學習開發詳細介紹在Ubuntu上安裝CUDA、cuDNN的過程,並建立GPU環境的親切指導。初學者也能輕鬆跟隨的實戰指南。
CUDA是NVIDIA的並行計算平臺,對於利用GPU進行高速運算是必不可少的技術。介紹其概念和結構。