来到这篇文章的读者,想必是希望开始利用GPU进行深度学习开发的人。这篇文章整理了在Ubuntu环境下准备基于CUDA的GPU计算的过程,提供了实用指南。
特别是对于初学者,如果你想确认"我的PC上CUDA是否正确安装?",这里的内容将非常适合你。

如果你对CUDA的概念感到好奇,建议先查看之前的文章 CUDA是什么?GPU与并行计算的开始

NVIDIA driving CUDA supercar


1. 为什么需要设置GPU环境?

AI模型的训练需要进行大量的矩阵运算。
这种运算在专门优化用于并行运算的GPU上会更加快速。

但是仅有GPU是不够的。
需要在操作系统中告知GPU的驱动程序
使GPU能够进行计算的CUDA
以及针对深度学习优化的库cuDNN
这三者必须正确安装,才能使用GPU。


2. 检查我的GPU状态 – 是否有驱动和CUDA?

nvidia-smi

这是一个显示GPU当前状态的工具。
如果CUDA版本和GPU名称显示正确,
就意味着"GPU已正常识别,并且驱动已安装"。


3. CUDA开发工具 – nvcc为什么需要?

nvcc是编译CUDA代码(.cu)的工具。
可以比喻为,CUDA的“实际应用所需的编译器”

sudo apt update
sudo apt install nvidia-cuda-toolkit
nvcc --version

4. cuDNN – 深度学习运算的秘密武器,让GPU快速工作

cuDNN是NVIDIA提供的一款深度学习专用高效数值运算库,能够优化深度学习运算。

它用于深度学习框架(如PyTorch、TensorFlow等)

  • 卷积
  • 池化
  • RNN
  • LSTM
  • 批归一化
  • 激活等运算,使它们能够快速且高效地在GPU中执行

计划使用PyTorch、TensorFlow等深度学习框架的人,cuDNN是必不可少的库。

必须安装对应CUDA版本的cuDNN包,深度学习框架才能高效利用GPU。

cuDNN包的下载路径根据操作系统和CPU架构的不同而不同,因此下载时请务必访问NVIDIA的官方cuDNN下载页面,下载适合自己的库并进行安装。

NVIDA cuDNN下载链接

通过上述链接下载cuDNN时,请确认最初在nvidia-smi中查看的CUDA版本,并安装相应的cuDNN。


5. 测试 – 确保Python能识别GPU

安装完成后,检查一下它是否能正常工作。

import torch
print(torch.cuda.is_available())          # True
print(torch.cuda.get_device_name(0))      # NVIDIA GeForce RTX  XXXX

6. 总结

组件 你的操作 你这么做的原因
NVIDIA驱动 检查安装状态 (nvidia-smi) 让系统识别GPU
CUDA工具包 nvcc安装 作为执行CUDA代码的编译器
cuDNN cudnn-cuda-12安装 优化深度学习运算的库
PyTorch测试 确认与GPU的连接 验证实际运算的可行性

7. Jesse的总结

现在你的系统已经准备好进行GPU计算了。
在这个环境下,你可以快速地在GPU上训练或运行Whisper、LLaMA、ChatGPT等各种模型。