Sign in
There are a total of 6 posts.
2026-03-10
本文分享了在DGX Spark环境中为提升模型推理速度和降低GPU内存占用而安装FlashAttention 2的经验。详细记录了安装过程中遇到的挑战,如AArch64架构下的源码编译、CUDA版本兼容性问题以及Python开发库的依赖。同时,也客观评估了安装后在实际推理速度和内存使用方面的效果,为读者提供参考。
2026-03-03
本文详细阐述了在 aarch64 环境下为何需要自行构建 ONNX Runtime GPU,以及从 CUDA 13、cuDNN 安装到 CMake 参数配置、wheel 包生成与验证的完整步骤,为 DGX‑Spark 用户提供了实用的构建指南。
2025-12-17
深度学习开发者常常困惑 NumPy 与 PyTorch 的关系。本文阐明 NumPy 主要用于 CPU 计算、数据预处理与可视化,而 PyTorch 则专注于 GPU 上的张量运算与自动微分。了解两者的内存共享与转换方式,可帮助你在实际项目中高效切换。
2025-11-21
本文讨论了从CPU转向GPU的原因、AI模型如何偏好矩阵运算以及性能提升的案例。阐述了GPU加速如何提升深度学习性能及矩阵运算的高效性。
2025-06-27
坐拥GPU王座的英伟达,现在开始挑战CPU市场!通过Grace CPU和超级芯片战略,深入分析英伟达在AI计算时代的愿景及竞争格局。
2025-06-09
CUDA是NVIDIA的并行计算平台,是利用GPU进行快速运算的关键技术。本文介绍其概念和结构。