— Comment bien préparer la structure image·caption
Lorsque l’on commence à faire du fine-tuning LoRA, tout le monde s’intéresse d’abord aux options d’entraînement telles que le modèle, le rang et le taux d’apprentissage (learning_rate).
Cependant, en réalité, c’est le Dataset qui détermine 80%.
Un bon apprentissage avec de bonnes données peut masquer de nombreuses erreurs de configuration, mais de mauvaises données ne pourront jamais restaurer la qualité, peu importe la configuration.
Surtout, les modèles de la série Flux récents sont des « modèles qui reflètent très honnêtement les données », donc ils sont d’autant plus affectés par la qualité du Dataset.
Dans cet article, nous allons expliquer concrètement comment préparer les images, comment structurer les captions, et comment la configuration de data.toml est liée à la structure du Dataset.

1. Pourquoi le Dataset est-il le plus important dans le fine-tuning LoRA ?
LoRA n’ajoute pas l’énorme paramètre du modèle de base, mais ajoute simplement un « patch mémoire » pour renforcer ou ajouter un concept particulier.
En d’autres termes, LoRA se concentre sur deux choses principales :
-
Les points communs entre les images
-
Les concepts clés énoncés dans la caption
Donc, si le Dataset est un peu désordonné, les phénomènes suivants peuvent se produire :
-
Les visages deviennent déformés
-
Il faut donner un LoRA scale=0.5 ou plus pour appliquer le style
-
Les résultats sont « ni ici ni là », mélangés avec les caractéristiques du modèle existant
-
Seules certaines poses/expressions sont exagérées
-
Les couleurs sont très déséquilibrées
La cause fondamentale de tous ces problèmes est le manque de cohérence des données.
2. Les règles de base pour préparer les images
En respectant cela, vous aurez déjà réussi à moitié. Étant donné que le tuning prend beaucoup de temps, il est préférable de bien préparer les données à chaque fois.
✔ 2-1) La résolution des images doit être normalisée
Les modèles basés sur Flux semblent un peu insensibles à la résolution, mais lors du fine-tuning, les problèmes suivants surviennent :
-
512×768
-
1024×1536
-
800×800
-
1536×768
Si les tailles sont variées de cette manière, pour le modèle, « la zone importante » peut apparaître floue ou dispersée.
Norme recommandée :
-
768×1152
-
768×1024
-
1024×1024
-
Ou uniformiser une seule norme selon le ratio d’image final souhaité
L'important est la cohérence des ratios et des tailles.
✔ 2-2) Plus de données n’est pas forcément mieux, mais la cohérence est essentielle
Mauvais exemple :
- 10 selfies + 5 photos en plein corps + 3 photos en faible éclairage + 2 photos en 4K + 5 images en style dessin animé
→ le modèle devient confus sur ce qu’il doit apprendre.
Bon exemple :
-
Distance de caméra identique
-
Éclairage identique
-
Concept clair, tel que centré sur le visage / le haut du corps
-
Uniformité du style (réaliste/animation/illustration, etc.)
✔ 2-3) « Inclure uniquement les bonnes photos » est le principe le plus important
Cela se ressent encore plus en expérimentant plusieurs fois avec Flux LoRA.
Une erreur très courante :
« Comme je manque de données, ajoutons cela. Cela devrait aider l'apprentissage. »
No.
C'est ce « quelque chose » qui ruine LoRA.
Une seule image floue peut entraîner un apprentissage erroné.
On peut affirmer avec certitude :
10 bonnes photos > 40 photos mélangées
✔ 2-4) La composition des images doit dépendre de l’objectif de création de LoRA
Par exemple :
1) LoRA pour reproduire une personne spécifique
-
Focus sur les gros plans du visage
-
Éclairage identique
-
Principalement de face + légèrement de côté
-
Ne pas inclure de photos en plein corps est généralement plus stable
2) LoRA pour reproduire un style de mode spécifique
-
Jeu de vêtements identique
-
Images mettant en avant les couleurs et textures
-
Pourrait inclure des photos en plein corps/du bas du corps
-
Des poses variées peuvent même être bénéfiques
3) LoRA pour un style d’illustration spécifique
-
Inclut l'arrière-plan
-
Images où la texture du pinceau est bien visible
-
Doit définir directement quels sont les éléments clés du style (épaisseur des lignes, saturation, contraste, etc.)
3. Rédaction des captions : deuxième clé déterminant la qualité de LoRA
Les captions sont tout aussi importantes que les images elles-mêmes.
Flux suit très bien le « signal texte » des captions, donc,
même une simple attention à la composition des captions peut grandement améliorer la qualité de LoRA.
✔ 3-1) Comment rédiger une caption ?
La réponse se situe dans l’une des deux méthodes suivantes :
A. Méthode basée sur des tags de mots-clés minimaux
a japanese woman, long hair, smiling, outdoor, daylight
-
Simple et stable
-
Particulièrement efficace pour un style réaliste
-
Facilite la convergence de LoRA
B. Méthode descriptive par phrase
A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.
-
Induit un apprentissage plus naturel dans les modèles de la série Flux ou SDXL
-
Adapté pour les LoRA de style ou de personnes
Pour les débutants, je recommande la méthode A, mais pour ceux qui savent bien écrire, je leur conseille d’essayer la méthode B. En expérience, il me semble que la méthode B est parfois plus efficace.
Remarque : Lorsque vous utilisez la méthode de phrase, assurez-vous que dans data.toml, keep_tokens = 0 et shuffle_caption = false.
✔ 3-2) Les captions sont-elles vraiment nécessaires ?
-
Réponse définitive : Il est impératif d’en inclure
-
Raison : Il faut indiquer au modèle quel concept il doit apprendre.
-
Cependant, j’ai déjà vu des exemples où l’on fine-tune avec juste « un token de classe sans caption », dans les documents de NVIDIA, mais d’expérience, il est beaucoup plus efficace d’inclure une caption.
✔ 3-3) Priorité entre class_tokens et captions txt
Information cruciale dans la pratique :
Lorsque les captions txt sont présentes → le txt est prioritaire.
Les class_tokens jouent un rôle secondaire.
C’est-à-dire, si deux éléments sont présents pour la même image :
class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"
→ le modèle prendra plus en compte caption.txt.
En résumé :
-
caption.txt est l’essentiel
-
class_tokens sont « la base du concept global »
4. Exemple de structure de répertoire du Dataset
Voici un exemple clair basé sur LoRA de la série Flux :
dataset/
└── concept1/
├── 00001.png
├── 00001.txt
├── 00002.png
├── 00002.txt
├── 00003.png
├── 00003.txt
└── ...
Règles pour les fichiers .txt :
-
Les noms de fichiers doivent être identiques
-
UTF-8 recommandé
-
Écrire sur une seule ligne (éviter les sauts de ligne inutiles)
5. Erreurs de caption courantes qui ruinent LoRA
1) Des adjectifs excessifs
beautiful gorgeous extremely lovely asian woman with super long silky hair
Le modèle se concentre de manière excessive sur certaines caractéristiques.
2) Des descriptions de style différentes pour chaque photo
-
Une photo a « éclairage cinématique »
-
Une autre a « éclairage doux et lumineux »
→ confusion à 100%
3) Émotions/moods inutiles et différentes des images
Il arrive parfois que lors de la copie + collage de nombreuses photos, les descriptions d’expressions diffèrent de celles des photos, cela peut les ruiner !!
Vérifier au moins deux fois après la finalisation du DATA set est bon pour la santé mentale.
(même si la personne sourit, si le texte dit sad, melancholy, l'expression risque de changer)
6. Quantité de données : combien est le plus efficace ?
D'après l’expérience avec Flux LoRA :
| Nombre de données | Qualité des résultats |
|---|---|
| 5–10 images | Instable (grandes fluctuations) |
| 15–25 images | Le plus efficace |
| 30–50 images | Qualité maximale (mais uniquement si données cohérentes) |
| Plus de 60 images | Peu de signification. Augmentation des informations redondantes |
-
Éliminer les « mauvaises images » augmente plus la qualité que d'augmenter les données.
-
Pour ma part, au début, j'ai utilisé environ 40 images, mais par la suite, je compose plutôt les datasets entre 10 et 20 images.
7. Gestion du Dataset lors du fine-tuning de la première à la seconde fois
Voici la question la plus fréquente :
« Faut-il inclure des images existantes ? »
Réponse :
Oui. Il faut inclure un certain pourcentage.
Raison :
Le modèle est un « patch de mémoire » et non LoRA,
il oubliera les concepts précédents s’ils ne sont pas de nouveau présentés.
Pourcentage recommandé :
-
50% des données existantes
-
50% de nouvelles données
Je pense que cela permet de maintenir la « mémoire + refléter un nouveau style » de manière la plus stable.
8. Conclusion : si le Dataset est bien préparé, 70% de LoRA est déjà réalisé
Une chose se confirme à chaque fine-tuning.
En fin de compte, la qualité de LoRA est déterminée par le Dataset.
-
Résolution
-
Ratio
-
Éclairage
-
Cohérence des images
-
Exactitude des captions
-
Élimination des images de mauvaise qualité
-
Ajustement entre data.toml et structure du Dataset
Si vous vous occupez bien de ces 7 éléments,
les paramètres comme le rang ou le learning_rate deviennent moins importants que prévu.
Aucun commentaire.