高效 AI 微调的核心 - LoRA 完整整理

随着大语言模型（LLM）时代的到来，基于个人数据优化模型的需求——‘微调（Fine-tuning）’也急剧增加。然而，训练一个拥有数十亿参数的模型需要巨额的成本和计算资源。

为了解决这一问题，关键技术就是 LoRA（低秩适配，Low-Rank Adaptation）。今天，我们将梳理LoRA的定义，以及它为何高效的技术原理。

1. LoRA（低秩适配）是什么？

LoRA是2021年由微软研究团队提出的技术，它通过学习‘秩较低’的两个小矩阵来适配模型，而不是更新所有大模型的参数。

传统的‘完全微调（Full Fine-tuning）’需要触及模型的所有权重，而LoRA则是将现有的权重保持冻结（Freeze），仅对需要变化的部分进行微小的学习。

打个比方：

当你需要修改一本厚厚的专业书籍（基础模型）时，并不是把书的所有页面都删除并重新书写，而是将重要的修改事项写在便签（LoRA适配器）上，然后贴到书上。

LoRA的核心在于矩阵分解（Matrix Decomposition）。

假设深度学习模型的权重矩阵为$W$，微调的过程就是学习权重的变化量$\Delta W$。

$$W_{new} = W + \Delta W$$

LoRA并不是直接学习这个$\Delta W$，而是将其分解为两个小的低秩（Low-Rank）矩阵$A$和$B$的乘积。

$$\Delta W = B \times A$$

在这里，如果原始维度为$d$，秩为$r$，那就只需要学习两个尺寸更小的矩阵$d \times r$和$r \times d$，而不是$d \times d$的巨大矩阵。（通常$r$远小于$d$，例如：$r=8, 16$等）

最终，需学习的参数数量可以减少到原来的1/10,000水平。

由于不需要将所有参数加载到内存，因此，在非高端A100 GPU上，如普通消费级显卡（RTX 3090, 4090等）也能进行大模型的微调，显著减少VRAM的使用。

完全微调的模型通常超过数十GB，而LoRA学习的权重文件（适配器）通常只有数MB到数百MB。因此，可以在一个基础模型（Base Model）上更换多个LoRA适配器来运营各种服务。

尽管学习的参数数量剧减，与完全微调（Full Fine-tuning）相比，性能几乎没有下降或保持在同一水平。

训练结束后，将$B \times A$的计算结果加到原始权重$W$上（Merge），从而在结构上与原模型保持一致，因此推理速度不会变慢。

假设用户想要创建一个使用‘海盗语气’的聊天机器人。

LoRA是一项显著降低大语言模型入门门槛的技术。如今，个人开发者或中小企业也能够利用自身独特的数据，调优高性能的AI模型。

如果你在考虑高效的AI模型开发，优先考虑像LoRA这样的PEFT（参数高效微调，Parameter-Efficient Fine-Tuning）技术，而不是无条件的完全训练，将是一个理智的选择。

LoRA 概念图