Sign in
There are a total of 1 posts.
2026-03-10
本文分享了在DGX Spark环境中为提升模型推理速度和降低GPU内存占用而安装FlashAttention 2的经验。详细记录了安装过程中遇到的挑战,如AArch64架构下的源码编译、CUDA版本兼容性问题以及Python开发库的依赖。同时,也客观评估了安装后在实际推理速度和内存使用方面的效果,为读者提供参考。