Sign in
There are a total of 6 posts.
2026-03-10
深入探討在 DGX Spark 高效能運算環境中,為加速模型推論並有效節省 GPU 記憶體資源,而進行 FlashAttention 2 安裝的完整實戰心得。本文不僅詳細記錄了從準備到實際安裝過程中遇到的各種技術難題、AArch64 架構下的特殊處理方式,以及如何透過指令最佳化解決方案,更重要的是,將真實呈現安裝 FlashAttention 2 後,在模型推論速度與記憶體利用率上的實際改善效果與體感評估,為您提供寶貴的參考經驗。
2026-03-03
本篇詳盡說明在 aarch64 環境(如 DGX‑Spark)上自行編譯 ONNX Runtime GPU 的必要性與完整步驟,涵蓋 CUDA13、cuDNN 安裝、CMake 設定、wheel 檔生成與驗證,為使用者提供即時可用的最佳化建置指南。
2025-12-17
對於深度學習開發者而言,NumPy 與 PyTorch 的關係常令人困惑。本文清晰說明 NumPy 主要用於 CPU 數值計算、資料前處理與視覺化,而 PyTorch 則負責 GPU 張量運算與自動微分。兩者可共享記憶體,實務中需頻繁轉換,掌握此流程可提升開發效率。
2025-11-21
隨著從CPU轉向GPU,探討AI模型為何偏好矩陣運算的原因及性能提升案例。闡述GPU加速如何提升深度學習的性能及矩陣運算的效率。
2025-06-27
掌握GPU霸主的NVIDIA,如今也瞄準CPU市場!透過Grace CPU和超級晶片策略,深入分析NVIDIA在AI計算時代的願景及其周圍的競爭局勢。
2025-05-07
CUDA是NVIDIA的並行計算平臺,對於利用GPU進行高速運算是必不可少的技術。介紹其概念和結構。