Le début du fine-tuning LoRA commence toujours par le Dataset

— Comment bien préparer la structure image·caption

Lorsque l’on commence à faire du fine-tuning LoRA, tout le monde s’intéresse d’abord aux options d’entraînement telles que le modèle, le rang et le taux d’apprentissage (learning_rate).
Cependant, en réalité, c’est le Dataset qui détermine 80%.
Un bon apprentissage avec de bonnes données peut masquer de nombreuses erreurs de configuration, mais de mauvaises données ne pourront jamais restaurer la qualité, peu importe la configuration.

Surtout, les modèles de la série Flux récents sont des « modèles qui reflètent très honnêtement les données », donc ils sont d’autant plus affectés par la qualité du Dataset.

Dans cet article, nous allons expliquer concrètement comment préparer les images, comment structurer les captions, et comment la configuration de data.toml est liée à la structure du Dataset.

lora dataset image

1. Pourquoi le Dataset est-il le plus important dans le fine-tuning LoRA ?

LoRA n’ajoute pas l’énorme paramètre du modèle de base, mais ajoute simplement un « patch mémoire » pour renforcer ou ajouter un concept particulier.

En d’autres termes, LoRA se concentre sur deux choses principales :

Les points communs entre les images
Les concepts clés énoncés dans la caption

Donc, si le Dataset est un peu désordonné, les phénomènes suivants peuvent se produire :

Les visages deviennent déformés
Il faut donner un LoRA scale=0.5 ou plus pour appliquer le style
Les résultats sont « ni ici ni là », mélangés avec les caractéristiques du modèle existant
Seules certaines poses/expressions sont exagérées
Les couleurs sont très déséquilibrées

La cause fondamentale de tous ces problèmes est le manque de cohérence des données.

2. Les règles de base pour préparer les images

En respectant cela, vous aurez déjà réussi à moitié. Étant donné que le tuning prend beaucoup de temps, il est préférable de bien préparer les données à chaque fois.

✔ 2-1) La résolution des images doit être normalisée

Les modèles basés sur Flux semblent un peu insensibles à la résolution, mais lors du fine-tuning, les problèmes suivants surviennent :

512×768
1024×1536
800×800
1536×768

Si les tailles sont variées de cette manière, pour le modèle, « la zone importante » peut apparaître floue ou dispersée.

Norme recommandée :

768×1152
768×1024
1024×1024
Ou uniformiser une seule norme selon le ratio d’image final souhaité

L'important est la cohérence des ratios et des tailles.

✔ 2-2) Plus de données n’est pas forcément mieux, mais la cohérence est essentielle

Mauvais exemple :

10 selfies + 5 photos en plein corps + 3 photos en faible éclairage + 2 photos en 4K + 5 images en style dessin animé

→ le modèle devient confus sur ce qu’il doit apprendre.

Bon exemple :

Distance de caméra identique
Éclairage identique
Concept clair, tel que centré sur le visage / le haut du corps
Uniformité du style (réaliste/animation/illustration, etc.)

✔ 2-3) « Inclure uniquement les bonnes photos » est le principe le plus important

Cela se ressent encore plus en expérimentant plusieurs fois avec Flux LoRA.

Une erreur très courante :

« Comme je manque de données, ajoutons cela. Cela devrait aider l'apprentissage. »

No.

C'est ce « quelque chose » qui ruine LoRA.
Une seule image floue peut entraîner un apprentissage erroné.

On peut affirmer avec certitude :

10 bonnes photos > 40 photos mélangées

✔ 2-4) La composition des images doit dépendre de l’objectif de création de LoRA

Par exemple :

1) LoRA pour reproduire une personne spécifique

Focus sur les gros plans du visage
Éclairage identique
Principalement de face + légèrement de côté
Ne pas inclure de photos en plein corps est généralement plus stable

2) LoRA pour reproduire un style de mode spécifique

Jeu de vêtements identique
Images mettant en avant les couleurs et textures
Pourrait inclure des photos en plein corps/du bas du corps
Des poses variées peuvent même être bénéfiques

3) LoRA pour un style d’illustration spécifique

Inclut l'arrière-plan
Images où la texture du pinceau est bien visible
Doit définir directement quels sont les éléments clés du style (épaisseur des lignes, saturation, contraste, etc.)

3. Rédaction des captions : deuxième clé déterminant la qualité de LoRA

Les captions sont tout aussi importantes que les images elles-mêmes.

Flux suit très bien le « signal texte » des captions, donc,
même une simple attention à la composition des captions peut grandement améliorer la qualité de LoRA.

✔ 3-1) Comment rédiger une caption ?

La réponse se situe dans l’une des deux méthodes suivantes :

A. Méthode basée sur des tags de mots-clés minimaux

a japanese woman, long hair, smiling, outdoor, daylight

Simple et stable
Particulièrement efficace pour un style réaliste
Facilite la convergence de LoRA

B. Méthode descriptive par phrase

A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.

Induit un apprentissage plus naturel dans les modèles de la série Flux ou SDXL
Adapté pour les LoRA de style ou de personnes

Pour les débutants, je recommande la méthode A, mais pour ceux qui savent bien écrire, je leur conseille d’essayer la méthode B. En expérience, il me semble que la méthode B est parfois plus efficace.

Remarque : Lorsque vous utilisez la méthode de phrase, assurez-vous que dans data.toml, keep_tokens = 0 et shuffle_caption = false.

✔ 3-2) Les captions sont-elles vraiment nécessaires ?

Réponse définitive : Il est impératif d’en inclure
Raison : Il faut indiquer au modèle quel concept il doit apprendre.
Cependant, j’ai déjà vu des exemples où l’on fine-tune avec juste « un token de classe sans caption », dans les documents de NVIDIA, mais d’expérience, il est beaucoup plus efficace d’inclure une caption.

✔ 3-3) Priorité entre class_tokens et captions txt

Information cruciale dans la pratique :

Lorsque les captions txt sont présentes → le txt est prioritaire.

Les class_tokens jouent un rôle secondaire.

C’est-à-dire, si deux éléments sont présents pour la même image :

class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"

→ le modèle prendra plus en compte caption.txt.

En résumé :

caption.txt est l’essentiel
class_tokens sont « la base du concept global »

4. Exemple de structure de répertoire du Dataset

Voici un exemple clair basé sur LoRA de la série Flux :

dataset/
 └── concept1/
      ├── 00001.png
      ├── 00001.txt
      ├── 00002.png
      ├── 00002.txt
      ├── 00003.png
      ├── 00003.txt
      └── ...

Règles pour les fichiers .txt :

Les noms de fichiers doivent être identiques
UTF-8 recommandé
Écrire sur une seule ligne (éviter les sauts de ligne inutiles)

5. Erreurs de caption courantes qui ruinent LoRA

1) Des adjectifs excessifs

beautiful gorgeous extremely lovely asian woman with super long silky hair

Le modèle se concentre de manière excessive sur certaines caractéristiques.

2) Des descriptions de style différentes pour chaque photo

Une photo a « éclairage cinématique »
Une autre a « éclairage doux et lumineux »
→ confusion à 100%

3) Émotions/moods inutiles et différentes des images

Il arrive parfois que lors de la copie + collage de nombreuses photos, les descriptions d’expressions diffèrent de celles des photos, cela peut les ruiner !!
Vérifier au moins deux fois après la finalisation du DATA set est bon pour la santé mentale.

(même si la personne sourit, si le texte dit sad, melancholy, l'expression risque de changer)

6. Quantité de données : combien est le plus efficace ?

D'après l’expérience avec Flux LoRA :

Nombre de données	Qualité des résultats
5–10 images	Instable (grandes fluctuations)
15–25 images	Le plus efficace
30–50 images	Qualité maximale (mais uniquement si données cohérentes)
Plus de 60 images	Peu de signification. Augmentation des informations redondantes

Éliminer les « mauvaises images » augmente plus la qualité que d'augmenter les données.
Pour ma part, au début, j'ai utilisé environ 40 images, mais par la suite, je compose plutôt les datasets entre 10 et 20 images.

7. Gestion du Dataset lors du fine-tuning de la première à la seconde fois

Voici la question la plus fréquente :

« Faut-il inclure des images existantes ? »

Réponse :
Oui. Il faut inclure un certain pourcentage.

Raison :
Le modèle est un « patch de mémoire » et non LoRA,
il oubliera les concepts précédents s’ils ne sont pas de nouveau présentés.

Pourcentage recommandé :

50% des données existantes
50% de nouvelles données

Je pense que cela permet de maintenir la « mémoire + refléter un nouveau style » de manière la plus stable.

8. Conclusion : si le Dataset est bien préparé, 70% de LoRA est déjà réalisé

Une chose se confirme à chaque fine-tuning.

En fin de compte, la qualité de LoRA est déterminée par le Dataset.

Résolution
Ratio
Éclairage
Cohérence des images
Exactitude des captions
Élimination des images de mauvaise qualité
Ajustement entre data.toml et structure du Dataset

Si vous vous occupez bien de ces 7 éléments,
les paramètres comme le rang ou le learning_rate deviennent moins importants que prévu.