Der Beginn des LoRA-Fine-Tunings liegt immer im Dataset

— So bereiten Sie die Bild- und Beschriftungsstruktur richtig vor

Wenn man mit dem LoRA-Fine-Tuning beginnt, konzentriert sich jeder zunächst auf Trainingsoptionen wie Modelle, Rang und Lernrate (learning_rate).
Aber tatsächlich bestimmt das Dataset 80% der Ergebnisse.
Wenn Sie mit guten Daten lernen, können Sie auch die meisten Einstellungsfehler ausblenden, während schlechte Daten mit keiner Einstellung die Qualität wiederherstellen können.

Insbesondere die neueren Flux-Modelle sind „Modelle, die die Daten sehr ehrlich widerspiegeln“, und sind daher stärker von der Qualität des Datasets betroffen.

In diesem Artikel wird erklärt, wie man beim Fine-Tuning von LoRA die Bilder vorbereitet, die Beschriftungen strukturiert, und wie die Einstellungen in data.toml mit der Dataset-Struktur zusammenhängen, basierend auf praktischen Kriterien.

lora dataset bild

1. Warum ist das Dataset beim LoRA-Fine-Tuning das wichtigste?

LoRA verändert nicht die gesamten Parameter des Grundmodells,
sondern fügt nur „Memorierungspatches“ hinzu, um bestimmte Konzepte zu verstärken oder hinzuzufügen.

Das bedeutet, LoRA lernt hauptsächlich anhand:

Gemeinsamkeiten zwischen Bildern
Schlüsselkonzepten, die in den Beschriftungen angegeben sind

Deshalb treten schon bei einer leichten Unordnung im Dataset folgende Phänomene auf:

Gesichter wirken inkonsistent
Man muss LoRA scale=0.5 oder mehr verwenden, damit der Stil überhaupt angewendet wird
Die Ergebnisse sind eine Mischung aus den Eigenschaften des Originalmodells und wirken „weder hier noch dort“
Bestimmte Posen/Mimiken werden übertrieben verstärkt
Farben wirken stark unausgewogen

Die Grundursache all dieser Probleme ist das Fehlen von Konsistenz in den Daten.

2. Grundregeln zur Bildvorbereitung

Wenn Sie sich daran halten, haben Sie bereits die Hälfte gewonnen. Da das Tuning viel Zeit in Anspruch nimmt, ist es ratsam, die Daten beim ersten Mal gut vorzubereiten.

✔ 2-1) Bildauflösung sollte normalisiert werden

Flux-basierte Modelle scheinen unempfindlich gegenüber Auflösungen, aber beim Fine-Tuning treten folgende Probleme auf:

512×768
1024×1536
800×800
1536×768

Wenn die Größen so unterschiedlich sind, erscheinen die „wichtigen Bereiche“ für das Modell verschwommen oder inkonsistent.

Empfohlene Standardgrößen:

768×1152
768×1024
1024×1024
oder eine Einheitliche Größe, die dem gewünschten endgültigen Bildverhältnis entspricht

Wichtig ist die Konsistenz von Verhältnis und Größe.

✔ 2-2) Mehr ist nicht besser, sondern Konsistenz ist entscheidend

Falsches Beispiel:

10 Selfies + 5 Ganzkörperfotos + 3 Fotos mit schwacher Beleuchtung + 2 4K-HD-Bilder + 5 cartoonartige Bilder

→ Das Modell wird verwirrt, was es lernen soll.

Gutes Beispiel:

Gleiche Kameraperspektive
Gleiche Beleuchtung
Das Konzept sollte klar sein, z.B. Gesichtssicht / Oberkörperansicht
Einheitlicher Stil (Realismus/Anime/Illustration etc.)

✔ 2-3) „Nur gut gemachte Fotos verwenden“ ist die wichtigste Regel

Das wird viel deutlicher, wenn Sie Flux LoRA mehrmals ausprobiert haben.

Ein häufiger Fehler:

„Die Daten sind unzureichend, also fügen wir das hier hinzu. Das wird schon helfen.“

No.

Dieses „etwas“ ruiniert LoRA.
Ein unscharfes Bild kann das Lernen oft verzerren.

Ich kann mit Sicherheit sagen:

10 gute Fotos > 40 wirre Fotos

✔ 2-4) Die Bildgestaltung sollte je nach dem Zweck des LoRA bestimmt werden

Beispielsweise:

1) LoRA zur Repräsentation einer bestimmten Person

Schwerpunkt auf Nahaufnahmen des Gesichts
Gleiche Beleuchtung
Frontale + leicht seitliche Ansichten
In der Regel ist es stabiler, keine Ganzkörperaufnahmen einzuschließen

2) LoRA zur Repräsentation eines bestimmten Modestils

Gleiche Kleidungsets
Farben und Texturen sind betont
Ganzkörper-/Halbportraits sind möglich
Verschiedene Posen sind tatsächlich hilfreich

3) LoRA für einen bestimmten Illustrationsstil

Hintergrund einbeziehen
Bilder mit gut sichtbarer Pinseltextur
Die Schlüsselfaktoren des Stils müssen direkt definiert werden (Linienstärke, Sättigung, Helligkeit etc.)

3. Beschriftung verfassen: der zweite Schlüssel zur Qualität von LoRA

Die Beschriftung ist ebenso wichtig wie das Bild selbst.

Flux folgt den „Textsignalen“ der Beschriftungen sehr gut, daher verändert sich die Qualität von LoRA stark, wenn man die Struktur der Beschriftungen sorgfältig gestaltet.

✔ 3-1) Wie sollte man eine Beschriftung schreiben?

Die Antwort ist eine der beiden folgenden:

A. Minimal Keyword Tag-basierter Ansatz

a japanese woman, long hair, smiling, outdoor, daylight

Einfach und stabil
Stark im Realismus-Stil
LoRA konvergiert leicht

B. Satzbasierte Beschreibungsweise

A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.

Leitet eine natürlicheres Lernen bei Flux- oder SDXL-Modellen ein
Eignet sich gut für Stil- oder Personen-LoRAs

Anfänger, die es zum ersten Mal versuchen, empfehle ich den A-Ansatz, aber Personen mit Schreibgeschick sollten den B-Ansatz ausprobieren. Erfahrungsbedingt schien der B-Ansatz gelegentlich effektiver zu sein.

Hinweis: Wenn der satzbasierte Ansatz gewählt wird, sollten Sie in data.toml keep_tokens = 0 und shuffle_caption = false setzen.

✔ 3-2) Kann man ganz auf Beschriftungen verzichten?

Klare Antwort: Auf jeden Fall einfügen.
Grund: Das Modell muss wissen, was es lernen soll.
Es gibt jedoch Beispiele für Fine-Tuning mit der Struktur „Nur Klassentoken ohne Satzbeschriftung“ in der NVIDIA-Dokumentation, aber erfahrungsgemäß ist das Einfügen von Beschriftungen viel effektiver.

✔ 3-3) Priorität zwischen class_tokens und txt-Beschriftungen

Wichtige Informationen aus der Praxis:

Wenn txt-Beschriftungen vorhanden sind → hat txt Vorrang.

class_tokens spielt eine untergeordnete Rolle.

Wenn also zwei Einträge gleichzeitig für dasselbe Bild vorhanden sind:

class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"

→ Das Modell berücksichtigt eher caption.txt.

Zusammenfassung:

caption.txt steht im Mittelpunkt
class_tokens ist die „Grundlage des Gesamtkonzepts“

4. Beispiel für die Verzeichnisstruktur eines Datasets

Eine saubere Beispielstruktur basierend auf Flux LoRA:

dataset/
 └── concept1/
      ├── 00001.png
      ├── 00001.txt
      ├── 00002.png
      ├── 00002.txt
      ├── 00003.png
      ├── 00003.txt
      └── ...

Regeln für .txt-Dateien:

Dateinamen müssen identisch sein
UTF-8 empfohlen
Auf einer Zeile (keine unnötigen Zeilenumbrüche)

5. Häufige Beschriftungsfehler, die LoRA ruinieren

1) Übermäßige Adjektive

beautiful gorgeous extremely lovely asian woman with super long silky hair

Das Modell hält sich übermäßig an bestimmten Eigenschaften auf.

2) Unterschiedliche Stilbeschreibungen für jedes Bild

Ein Bild hat „cinematic lighting“
Ein anderes Bild hat „bright soft lighting“
→ 100% Verwirrung

3) Unnötige Emotionen/Stimmungen, die nicht mit dem Bild übereinstimmen

Manchmal, wenn viele Bilder vorhanden sind, durch Kopieren + Einfügen Nachrichten hinzufügen, die nicht zur Mimik des Bildes passen, führt das zum Misserfolg!!
Das endgültige Dataset sollte mindestens zweimal überprüft werden, um die geistige Gesundheit zu fördern.

(Wenn das Bild tatsächlich lächelt, aber Begriffe wie sad, melancholy da stehen, wird der Gesichtsausdruck abgewandelt)

6. Datenmenge: Wie viele Bilder sind am effizientesten?

Erfahrungen gemäß Flux LoRA:

Anzahl der Daten	Qualität des Ergebnisses
5–10 Bilder	Instabil (große Schwankungen)
15–25 Bilder	Am effizientesten
30–50 Bilder	Höchste Qualität (aber nur, wenn die Daten _konsistent_ sind)
Über 60 Bilder	Hat wenig Bedeutung. Zunahme redundanter Informationen

„Schlechte Bilder entfernen“ erhöht die Qualität mehr als „Daten erhöhen“.
Ich selbst habe anfangs etwa 40 Bilder verwendet, greife aber jetzt öfter auf 10-20 Bilder für die Datasets zurück.

7. Umgang mit Datasets beim Übergang von 1. zu 2. Fine-Tuning

Hier ist die häufigste Frage:

„Muss ich die vorherigen Bilder einbeziehen?“

Die Antwort:
Ja, ein gewisser Anteil sollten enthalten sein.

Grund:
Das Modell ist kein LoRA, sondern „eine Gedächtnispatch“, und wenn das bestehende Konzept nicht mehr gezeigt wird, vergisst es.

Empfohlener Anteil:

50% bestehende Daten
50% neue Daten

So wird „Gedächtnis beibehalten + neuen Stil reflektieren“ am stabilsten erreicht.

8. Fazit: Wenn das Dataset richtig vorbereitet ist, sind 70% von LoRA vollendet

Mit zunehmendem Fine-Tuning wird mir nur eines klar:

Letztendlich wird die Qualität von LoRA durch das Dataset bestimmt.

Auflösung
Verhältnis
Beleuchtung
Bilderkonsistenz
Genauigkeit der Beschriftung
Entfernen von schlechten Bildern
Abstimmung von data.toml und Dataset-Struktur

Wenn diese sieben Punkte gut umgesetzt werden,
wird die Bedeutung von Einstellungen wie Rang und Lernrate weniger wichtig.