Récemment, l'une des questions les plus fréquemment posées parmi ceux qui utilisent des modèles d'IA générative d'images, en particulier LoRA (Low-Rank Adaptation), est "Que faire des données précédentes lors de l'apprentissage (réglage fin) d'un modèle existant en ajoutant de nouvelles données ?"

Le processus de recherche de la réponse à cette question offre une perspective fascinante sur la mécanique de l'apprentissage et de la mémoire humaine. Je vais explorer en détail les principes fondamentaux de la mise à jour du modèle LoRA et la recette optimale à travers une conversation que j'ai eue avec un ami.


1. Questions sur l'apprentissage de LoRA : Écraser ou préserver ?



La principale préoccupation de la personne qui m'a posé la question était la suivante.

Q. Si je procède à un deuxième entraînement avec un modèle LoRA créé à partir de 20 images existantes en y ajoutant 10 nouvelles images, devrais-je inclure les 20 images d'origine dans le deuxième apprentissage ? Si je ne les ajoute pas, vais-je 'tout oublier' des caractéristiques existantes ?

Cette question nécessite une compréhension fondamentale du mode d'apprentissage de LoRA.


2. Le principe de l'apprentissage de LoRA : Actualisation statistique de la mémoire

Pour faire court, LoRA ne stocke pas les données sous forme de 'mémoire', mais fonctionne par écriture continue de 'poids statistiques' analysés des données.

Mise à jour des 'statistiques'

  • 1er apprentissage (20 images) : Crée un état de poids reflétant les caractéristiques des 20 images. Ce fichier de poids contient numériquement des caractéristiques telles que le style, le visage, la pose des 20 images.

  • 2ème apprentissage (ajout de 10 images) : À partir de l'état de poids existant, un travail de poussée et de tirage des poids vers la direction des 10 nouvelles données est effectué.

À ce moment-là, les 20 images d'origine ne sont pas conservées dans le fichier. Ainsi, si l'entraînement est effectué uniquement avec les 10 images, le modèle commencera à se pencher fortement vers les caractéristiques de ces 10 dernières, et les caractéristiques des 20 images d'origine deviendront progressivement floues.

💡 Point clé : Ne pas inclure les données existantes ne mène pas à un 'oubli total', mais il y a une très forte probabilité que les caractéristiques existantes s'estompent progressivement sous l'influence des nouvelles données. En particulier, si le taux d'apprentissage (LR) est élevé ou si le nombre d'étapes est long, la vitesse d'oubli augmentera encore.


3. La solution optimale : Une stratégie de révision équilibrée



Si l'objectif est de maintenir la cohérence et l'ambiance de base du modèle tout en renforçant de nouvelles caractéristiques, la méthode la plus sûre et conventionnelle consiste à mélanger les données existantes et les nouvelles et à réentraîner les 30 images dans leur ensemble.

Recette conventionnelle : 20 images + 10 images = réapprentissage des 30 images

Objectif Composition des données Paramètres d'apprentissage (par rapport au 1er apprentissage) Effet
Maintien de l'existant + réglage fin 20 images existantes + 10 nouvelles images LR bas (ex : 1.0 $\rightarrow$ 0.3~0.5), étapes courtes (100~300 étapes) Permet de garder l'identité existante tout en réglant finement dans la direction des nouvelles données
Augmenter la proportion de nouvelles données 20 images existantes + 10 nouvelles images (num_repeats doublée uniquement pour les 10 nouvelles) LR bas, étapes courtes Tout en conservant les caractéristiques existantes, les nouvelles caractéristiques des 10 images sont refletées plus rapidement.

Cette approche s’apparente à la façon dont un humain combine l'apprentissage de nouvelles connaissances avec la révision des connaissances existantes pour renforcer sa mémoire à long terme.


4. Phénomène d'apprentissage semblable à la mémoire humaine dans le machine learning

Ce phénomène est étonnamment "très similaire à l'apprentissage humain". En vérité, les phénomènes observés dans le deep learning évoquent les mécanismes de la mémoire humaine.

Phénomène (terminologie de machine learning) Similarités avec l'apprentissage/mémoire humaine Cas d'application de LoRA
Oubli catastrophique (Catastrophic Forgetting) Comme oublier l’ancien mot de passe lorsqu’on n’utilise que le nouveau. Si l'on apprend uniquement à partir des nouvelles données (10 images), les caractéristiques des anciennes données (20 images) sont oubliées rapidement.
Importance de la révision Réviser en mélangeant l'étude renforce la mémoire à long terme. Il est nécessaire de mélanger la 20 images existantes avec les 10 nouvelles pour maintenir et renforcer des caractéristiques équilibrées.
Surcharge (Overfitting) Une personne qui n'arrive qu'à mémoriser par cœur les problèmes d'examen et a peu de capacité d'application. Si l'on s'entraîne trop longtemps ou trop intensément sur des données spécifiques, la capacité d'appliquer à de nouveaux prompts diminue.

En fin de compte, les expériences de l'oubli, de la nécessité de révision et de l'arrêt au bon moment (Honey Spot) vécues au cours du processus de réglage fin de LoRA sont toutes liées à la réflexion en sciences cognitives sur "comment apprendre, comment oublier, comment réviser".

Les modèles de deep learning que nous utilisons sont inspirés de la structure du cerveau humain, mais restent des approximations statistiques mathématiquement réalisables. Pourtant, le fait que ce système présente des phénomènes similaires à l'apprentissage humain dépasse l'ingénierie pour toucher des points philosophiques et intrigants.


5. Traiter avec LoRA, c'est traiter avec 'l'équilibre'

La mise à jour du modèle LoRA n'est pas simplement une opération de réécriture de fichier.

Elle implique de comprendre la 'trace statistique' des données précédentes, d'ajuster la 'proportion' des nouvelles données et de réguler l'intensité de l'apprentissage (LR et étapes) afin de peaufiner la 'mémoire' du modèle. Cela exige un sensus de l'équilibre pour décider si l'on doit maintenir l'identité du modèle ou le rénover complètement avec de nouvelles caractéristiques.

Lors de votre prochain réglage fin de LoRA, ne vous contentez pas de saisir des chiffres, mais réfléchissez à "comment cela affectera-t-il la mémoire du modèle ?" Cette intuition est la véritable compétence d'un expert pour manipuler le modèle comme il le souhaite !

Apprentissage humain et deep learning