高效AI微調的核心 - LoRA完全整理

隨著大型語言模型（LLM）時代的來臨，使用自己的數據來優化模型的需求急劇增加。然而，對擁有數十億個參數的模型進行完全訓練需要巨大的成本和計算資源。

為了解決這個問題，出現的核心技術就是 LoRA（Low-Rank Adaptation）。今天我們將整理LoRA的概念，以及它為何高效的技術原理。

1. LoRA（Low-Rank Adaptation）是什麼？

LoRA是2021年微軟研究團隊提出的技術，這是一種僅通過學習兩個“低秩”的小矩陣來適應模型，而不是更新大型模型的所有參數的方法。

如果傳統的“完全微調”必須涉及模型的所有權重，那麼LoRA可以這樣理解：它固定現有的權重（Freeze），僅對需要變化的部分進行小幅度的調整。

比喻來說：

當需要修改厚重的專業書籍（基本模型）的內容時，不是將所有頁面都擦掉重新書寫，而是將重要的修改事項寫在便利貼（LoRA適配器）上貼在書上。

LoRA的核心在於矩陣分解（Matrix Decomposition）。

當深度學習模型的權重矩陣為 $W$ 時，微調過程是學習權重的變化量 $\Delta W$。

$$W_{new} = W + \Delta W$$

LoRA並不直接學習這個 $\Delta W$ 的大型矩陣，而是將其拆分為兩個小的低秩矩陣 $A$ 和 $B$ 的乘積來進行表達。

$$\Delta W = B \times A$$

在這裡，原本的維度為 $d$ 而秩為 $r$，那麼與其學習 $d \times d$ 大的巨型矩陣，不如學習更小的 $d \times r$ 和 $r \times d$ 大小的矩陣。（通常 $r$ 會使用比 $d$ 小得多的數字。例如：$r=8, 16$ 等）

結果，學習所需的參數數量可降低至原有的1/10,000水準。

由於不需要將所有參數載入內存，因此即使是在一般消費者用的顯卡（如RTX 3090、4090等）上也能進行大型模型的微調，而不是高價的A100 GPU。這大大減少了VRAM的使用量。

完全微調的模型通常需要數十GB的空間，而使用LoRA學習的權重文件（適配器）通常只有幾MB至幾百MB。因此，可以在一個基本模型（Base Model）上換裝多個版本的LoRA適配器以運營各種服務。

儘管學習的參數數量大幅減少，但與完全微調（Full Fine-tuning）相比，其性能下降幾乎不存在或保持在同一水準。

訓練完成後，只需將 $B \times A$ 的計算值合併進原權重 $W$ 中，結構上便與原始模型完全相同。因此，推理速度不會變慢。

假設用戶希望創建一個“海盜語氣”的聊天機器人。

LoRA是一項顯著降低大型語言模型進入門檻的技術。現在，個人開發者和中小企業也能使用他們特有的數據來調整高性能的AI模型。

如果考慮高效的AI模型開發，優先考慮像LoRA這樣的PEFT（Parameter-Efficient Fine-Tuning）技術是更合理的選擇。

LoRA概念圖