MIKI BLOG

2026-03-10

DGX Spark 模型推論：FlashAttention 2 安裝實錄與效能評測

深入探討在 DGX Spark 高效能運算環境中，為加速模型推論並有效節省 GPU 記憶體資源，而進行 FlashAttention 2 安裝的完整實戰心得。本文不僅詳細記錄了從準備到實際安裝過程中遇到的各種技術難題、AArch64 架構下的特殊處理方式，以及如何透過指令最佳化解決方案，更重要的是，將真實呈現安裝 FlashAttention 2 後，在模型推論速度與記憶體利用率上的實際改善效果與體感評估，為您提供寶貴的參考經驗。

#cuda #gpu #dgx spark #flashattention 2 +2

2026-03-03

ONNX Runtime GPU：為何需要自行編譯以及如何操作

本篇詳盡說明在 aarch64 環境（如 DGX‑Spark）上自行編譯 ONNX Runtime GPU 的必要性與完整步驟，涵蓋 CUDA13、cuDNN 安裝、CMake 設定、wheel 檔生成與驗證，為使用者提供即時可用的最佳化建置指南。

#gpu #深度學習 #onnxruntime #aarch64 +2

2025-12-17

深度學習程式碼中常見的 NumPy 與 PyTorch：實際關係與學習順序指南

對於深度學習開發者而言，NumPy 與 PyTorch 的關係常令人困惑。本文清晰說明 NumPy 主要用於 CPU 數值計算、資料前處理與視覺化，而 PyTorch 則負責 GPU 張量運算與自動微分。兩者可共享記憶體，實務中需頻繁轉換，掌握此流程可提升開發效率。

#pytorch #gpu #深度學習 #numpy +3

2025-11-21

從CPU到GPU的權力移動 - AI為什麼愛好「矩陣」？

隨著從CPU轉向GPU，探討AI模型為何偏好矩陣運算的原因及性能提升案例。闡述GPU加速如何提升深度學習的性能及矩陣運算的效率。

#deep learning #gpu #ai #performance +1

2025-06-27

NVIDIA挑戰CPU市場，超越GPU！AI時代的新‘超級晶片’策略

掌握GPU霸主的NVIDIA，如今也瞄準CPU市場！透過Grace CPU和超級晶片策略，深入分析NVIDIA在AI計算時代的願景及其周圍的競爭局勢。

#gpu #nvidia #x86 #arm +4

2025-05-07

CUDA是什麼？GPU與並行計算的開始

CUDA是NVIDIA的並行計算平臺，對於利用GPU進行高速運算是必不可少的技術。介紹其概念和結構。

#cuda #gpu #nvidia #並行計算 +1

所有文章