Sign in
There are a total of 4 posts.
2026-03-10
本文分享了在DGX Spark环境中为提升模型推理速度和降低GPU内存占用而安装FlashAttention 2的经验。详细记录了安装过程中遇到的挑战,如AArch64架构下的源码编译、CUDA版本兼容性问题以及Python开发库的依赖。同时,也客观评估了安装后在实际推理速度和内存使用方面的效果,为读者提供参考。
2026-03-03
本文详细记录了在 DGX Spark ARM64 平台上将 Ditto TalkingHead 项目移植到 TensorRT 的完整过程,包括 x86 GridSample3D 插件加载失败的原因分析、在 ARM64 环境下重新编译自定义插件的步骤、CMake 配置调整以及 ONNX 到 TensorRT 的转换和推理成功的全部细节,为 AI 开发者提供实用的实战排障指南。
2025-06-09
本文详细说明了如何在Ubuntu上安装CUDA和cuDNN以构建AI深度学习开发的GPU环境。适合初学者的实用指南。
CUDA是NVIDIA的并行计算平台,是利用GPU进行快速运算的关键技术。本文介绍其概念和结构。