— So bereiten Sie die Bild- und Beschriftungsstruktur richtig vor
Wenn man mit dem LoRA-Fine-Tuning beginnt, konzentriert sich jeder zunächst auf Trainingsoptionen wie Modelle, Rang und Lernrate (learning_rate).
Aber tatsächlich bestimmt das Dataset 80% der Ergebnisse.
Wenn Sie mit guten Daten lernen, können Sie auch die meisten Einstellungsfehler ausblenden, während schlechte Daten mit keiner Einstellung die Qualität wiederherstellen können.
Insbesondere die neueren Flux-Modelle sind „Modelle, die die Daten sehr ehrlich widerspiegeln“, und sind daher stärker von der Qualität des Datasets betroffen.
In diesem Artikel wird erklärt, wie man beim Fine-Tuning von LoRA die Bilder vorbereitet, die Beschriftungen strukturiert, und wie die Einstellungen in data.toml mit der Dataset-Struktur zusammenhängen, basierend auf praktischen Kriterien.

1. Warum ist das Dataset beim LoRA-Fine-Tuning das wichtigste?
LoRA verändert nicht die gesamten Parameter des Grundmodells,
sondern fügt nur „Memorierungspatches“ hinzu, um bestimmte Konzepte zu verstärken oder hinzuzufügen.
Das bedeutet, LoRA lernt hauptsächlich anhand:
-
Gemeinsamkeiten zwischen Bildern
-
Schlüsselkonzepten, die in den Beschriftungen angegeben sind
Deshalb treten schon bei einer leichten Unordnung im Dataset folgende Phänomene auf:
-
Gesichter wirken inkonsistent
-
Man muss LoRA scale=0.5 oder mehr verwenden, damit der Stil überhaupt angewendet wird
-
Die Ergebnisse sind eine Mischung aus den Eigenschaften des Originalmodells und wirken „weder hier noch dort“
-
Bestimmte Posen/Mimiken werden übertrieben verstärkt
-
Farben wirken stark unausgewogen
Die Grundursache all dieser Probleme ist das Fehlen von Konsistenz in den Daten.
2. Grundregeln zur Bildvorbereitung
Wenn Sie sich daran halten, haben Sie bereits die Hälfte gewonnen. Da das Tuning viel Zeit in Anspruch nimmt, ist es ratsam, die Daten beim ersten Mal gut vorzubereiten.
✔ 2-1) Bildauflösung sollte normalisiert werden
Flux-basierte Modelle scheinen unempfindlich gegenüber Auflösungen, aber beim Fine-Tuning treten folgende Probleme auf:
-
512×768
-
1024×1536
-
800×800
-
1536×768
Wenn die Größen so unterschiedlich sind, erscheinen die „wichtigen Bereiche“ für das Modell verschwommen oder inkonsistent.
Empfohlene Standardgrößen:
-
768×1152
-
768×1024
-
1024×1024
-
oder eine Einheitliche Größe, die dem gewünschten endgültigen Bildverhältnis entspricht
Wichtig ist die Konsistenz von Verhältnis und Größe.
✔ 2-2) Mehr ist nicht besser, sondern Konsistenz ist entscheidend
Falsches Beispiel:
- 10 Selfies + 5 Ganzkörperfotos + 3 Fotos mit schwacher Beleuchtung + 2 4K-HD-Bilder + 5 cartoonartige Bilder
→ Das Modell wird verwirrt, was es lernen soll.
Gutes Beispiel:
-
Gleiche Kameraperspektive
-
Gleiche Beleuchtung
-
Das Konzept sollte klar sein, z.B. Gesichtssicht / Oberkörperansicht
-
Einheitlicher Stil (Realismus/Anime/Illustration etc.)
✔ 2-3) „Nur gut gemachte Fotos verwenden“ ist die wichtigste Regel
Das wird viel deutlicher, wenn Sie Flux LoRA mehrmals ausprobiert haben.
Ein häufiger Fehler:
„Die Daten sind unzureichend, also fügen wir das hier hinzu. Das wird schon helfen.“
No.
Dieses „etwas“ ruiniert LoRA.
Ein unscharfes Bild kann das Lernen oft verzerren.
Ich kann mit Sicherheit sagen:
10 gute Fotos > 40 wirre Fotos
✔ 2-4) Die Bildgestaltung sollte je nach dem Zweck des LoRA bestimmt werden
Beispielsweise:
1) LoRA zur Repräsentation einer bestimmten Person
-
Schwerpunkt auf Nahaufnahmen des Gesichts
-
Gleiche Beleuchtung
-
Frontale + leicht seitliche Ansichten
-
In der Regel ist es stabiler, keine Ganzkörperaufnahmen einzuschließen
2) LoRA zur Repräsentation eines bestimmten Modestils
-
Gleiche Kleidungsets
-
Farben und Texturen sind betont
-
Ganzkörper-/Halbportraits sind möglich
-
Verschiedene Posen sind tatsächlich hilfreich
3) LoRA für einen bestimmten Illustrationsstil
-
Hintergrund einbeziehen
-
Bilder mit gut sichtbarer Pinseltextur
-
Die Schlüsselfaktoren des Stils müssen direkt definiert werden (Linienstärke, Sättigung, Helligkeit etc.)
3. Beschriftung verfassen: der zweite Schlüssel zur Qualität von LoRA
Die Beschriftung ist ebenso wichtig wie das Bild selbst.
Flux folgt den „Textsignalen“ der Beschriftungen sehr gut, daher verändert sich die Qualität von LoRA stark, wenn man die Struktur der Beschriftungen sorgfältig gestaltet.
✔ 3-1) Wie sollte man eine Beschriftung schreiben?
Die Antwort ist eine der beiden folgenden:
A. Minimal Keyword Tag-basierter Ansatz
a japanese woman, long hair, smiling, outdoor, daylight
-
Einfach und stabil
-
Stark im Realismus-Stil
-
LoRA konvergiert leicht
B. Satzbasierte Beschreibungsweise
A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.
-
Leitet eine natürlicheres Lernen bei Flux- oder SDXL-Modellen ein
-
Eignet sich gut für Stil- oder Personen-LoRAs
Anfänger, die es zum ersten Mal versuchen, empfehle ich den A-Ansatz, aber Personen mit Schreibgeschick sollten den B-Ansatz ausprobieren. Erfahrungsbedingt schien der B-Ansatz gelegentlich effektiver zu sein.
Hinweis: Wenn der satzbasierte Ansatz gewählt wird, sollten Sie in data.toml keep_tokens = 0 und shuffle_caption = false setzen.
✔ 3-2) Kann man ganz auf Beschriftungen verzichten?
-
Klare Antwort: Auf jeden Fall einfügen.
-
Grund: Das Modell muss wissen, was es lernen soll.
-
Es gibt jedoch Beispiele für Fine-Tuning mit der Struktur „Nur Klassentoken ohne Satzbeschriftung“ in der NVIDIA-Dokumentation, aber erfahrungsgemäß ist das Einfügen von Beschriftungen viel effektiver.
✔ 3-3) Priorität zwischen class_tokens und txt-Beschriftungen
Wichtige Informationen aus der Praxis:
Wenn txt-Beschriftungen vorhanden sind → hat txt Vorrang.
class_tokens spielt eine untergeordnete Rolle.
Wenn also zwei Einträge gleichzeitig für dasselbe Bild vorhanden sind:
class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"
→ Das Modell berücksichtigt eher caption.txt.
Zusammenfassung:
-
caption.txt steht im Mittelpunkt
-
class_tokens ist die „Grundlage des Gesamtkonzepts“
4. Beispiel für die Verzeichnisstruktur eines Datasets
Eine saubere Beispielstruktur basierend auf Flux LoRA:
dataset/
└── concept1/
├── 00001.png
├── 00001.txt
├── 00002.png
├── 00002.txt
├── 00003.png
├── 00003.txt
└── ...
Regeln für .txt-Dateien:
-
Dateinamen müssen identisch sein
-
UTF-8 empfohlen
-
Auf einer Zeile (keine unnötigen Zeilenumbrüche)
5. Häufige Beschriftungsfehler, die LoRA ruinieren
1) Übermäßige Adjektive
beautiful gorgeous extremely lovely asian woman with super long silky hair
Das Modell hält sich übermäßig an bestimmten Eigenschaften auf.
2) Unterschiedliche Stilbeschreibungen für jedes Bild
-
Ein Bild hat „cinematic lighting“
-
Ein anderes Bild hat „bright soft lighting“
→ 100% Verwirrung
3) Unnötige Emotionen/Stimmungen, die nicht mit dem Bild übereinstimmen
Manchmal, wenn viele Bilder vorhanden sind, durch Kopieren + Einfügen Nachrichten hinzufügen, die nicht zur Mimik des Bildes passen, führt das zum Misserfolg!!
Das endgültige Dataset sollte mindestens zweimal überprüft werden, um die geistige Gesundheit zu fördern.
(Wenn das Bild tatsächlich lächelt, aber Begriffe wie sad, melancholy da stehen, wird der Gesichtsausdruck abgewandelt)
6. Datenmenge: Wie viele Bilder sind am effizientesten?
Erfahrungen gemäß Flux LoRA:
| Anzahl der Daten | Qualität des Ergebnisses |
|---|---|
| 5–10 Bilder | Instabil (große Schwankungen) |
| 15–25 Bilder | Am effizientesten |
| 30–50 Bilder | Höchste Qualität (aber nur, wenn die Daten _konsistent_ sind) |
| Über 60 Bilder | Hat wenig Bedeutung. Zunahme redundanter Informationen |
-
„Schlechte Bilder entfernen“ erhöht die Qualität mehr als „Daten erhöhen“.
-
Ich selbst habe anfangs etwa 40 Bilder verwendet, greife aber jetzt öfter auf 10-20 Bilder für die Datasets zurück.
7. Umgang mit Datasets beim Übergang von 1. zu 2. Fine-Tuning
Hier ist die häufigste Frage:
„Muss ich die vorherigen Bilder einbeziehen?“
Die Antwort:
Ja, ein gewisser Anteil sollten enthalten sein.
Grund:
Das Modell ist kein LoRA, sondern „eine Gedächtnispatch“, und wenn das bestehende Konzept nicht mehr gezeigt wird, vergisst es.
Empfohlener Anteil:
-
50% bestehende Daten
-
50% neue Daten
So wird „Gedächtnis beibehalten + neuen Stil reflektieren“ am stabilsten erreicht.
8. Fazit: Wenn das Dataset richtig vorbereitet ist, sind 70% von LoRA vollendet
Mit zunehmendem Fine-Tuning wird mir nur eines klar:
Letztendlich wird die Qualität von LoRA durch das Dataset bestimmt.
-
Auflösung
-
Verhältnis
-
Beleuchtung
-
Bilderkonsistenz
-
Genauigkeit der Beschriftung
-
Entfernen von schlechten Bildern
-
Abstimmung von data.toml und Dataset-Struktur
Wenn diese sieben Punkte gut umgesetzt werden,
wird die Bedeutung von Einstellungen wie Rang und Lernrate weniger wichtig.
Es sind keine Kommentare vorhanden.