— Hoe je de afbeeldings- en bijschriftstructuur goed voorbereidt

Wanneer je voor het eerst begint met LoRA-finetuning, heeft iedereen de neiging om zich eerst te concentreren op trainingsopties zoals model, rang en leersnelheid (learning_rate).
Maar in werkelijkheid bepaalt de dataset 80%.
Als je met goede data traint, kunnen de meeste instellingsfouten worden verdoezeld, maar slechte data kunnen met geen enkele instelling worden hersteld.

Met name recente Flux-seriemodellen zijn “modellen die de data heel eerlijk weergeven”, waardoor ze sterker beïnvloed worden door de kwaliteit van de dataset.

In dit artikel worden praktische richtlijnen gegeven over hoe je afbeeldingen voorbereidt, hoe je bijschriften opstelt, en hoe de instellingen in data.toml verband houden met de structuur van de dataset.

lora dataset afbeelding


1. Waarom is de dataset het belangrijkste in LoRA-finetuning?



LoRA voegt geen grote veranderingen aan de enorme parameters van het basismodel toe, maar
voegt enkele “memory patches” toe om specifieke concepten te versterken of toe te voegen.

Met andere woorden, LoRA leert zich te concentreren op de volgende twee dingen:

  1. Overeenkomsten tussen afbeeldingen

  2. Kernconcepten vermeld in de bijschriften

Dus zelfs een kleine afwijking in de dataset kan de volgende problemen veroorzaken:

  • Gezichten worden ongelijkmatig

  • LoRA vereist een scale van 0.5 of hoger om de stijl gerealiseerd te krijgen

  • De kenmerken van het oorspronkelijke model mengen zich en geven “een resultaat dat niks is”

  • Slechts bepaalde poses/uitdrukkingen worden overmatig versterkt

  • Kleuren zijn sterk onevenwichtig

De fundamentele oorzaak van al deze problemen is het gebrek aan consistentie in de data.


2. Basisregels voor het voorbereiden van afbeeldingen

Als je deze regels volgt, heb je al voor de helft succes geboekt. Aangezien het afstemmen veel tijd kost, is het beter om de data goed voor te bereiden in één keer.

✔ 2-1) Het is beter om de resolutie van afbeeldingen te normaliseren

Flux-gebaseerde modellen lijken ongevoelig voor resolutie, maar bij finetuning ontstaan de volgende problemen:

  • 512×768

  • 1024×1536

  • 800×800

  • 1536×768

Als de maten zo variëren, kan het zijn dat “belangrijke gebieden” voor het model onscherp of inconsistente posities vertonen.

Aanbevolen specificaties:

  • 768×1152

  • 768×1024

  • 1024×1024

  • Of uniformeren naar een andere specifieke maat die aan de gewenste eindafbeeldingsverhouding is aangepast

Het belangrijke is consistentie in verhoudingen en maten.


✔ 2-2) Meer is niet beter, maar homogeniteit is beter



Slechte voorbeelden:

  • 10 selfies + 5 full-body shots + 3 foto's met slecht licht + 2 foto's in 4K hoge resolutie + 5 cartoonachtige afbeeldingen

→ Het model raakt in de war over wat het moet leren.

Goede voorbeelden:

  • Zelfde cameralengte

  • Zelfde verlichting

  • Focus op het gezicht of bovenlichaam, met een duidelijk concept

  • Uniformiteit in stijl (realistisch/animatie/illustratie, etc.)


✔ 2-3) “Alleen goed gelukt foto's gebruiken” is de belangrijkste regel

Dit wordt duidelijker wanneer je zelf meerdere experimenten met Flux LoRA doet.

Te vaak voorkomende fout:

“We hebben niet genoeg data, dus laten we dit ook maar toevoegen. Dat zal wel helpen bij het leren.”

No.

Dat “iets” verstoort LoRA.
Een enkele onscherpe afbeelding kan de training ernstig verstoren.

Ik kan het met zekerheid zeggen:

10 goede foto's > 40 door elkaar gegooide foto's


✔ 2-4) Je moet de afbeelding samenstelling bepalen op basis van het doel van de LoRA

Bijvoorbeeld:

1) LoRA voor de reproductie van specifieke personen

  • Voornamelijk close-ups van het gezicht

  • Zelfde belichting

  • Rechtdoor en een klein beetje zijaanzicht

  • Volledige lichamen zijn meestal minder stabiel om in te voegen

2) LoRA voor het reproduceren van specifieke modestijlen

  • Zelfde kleding set

  • Afbeeldingen met focus op kleur en textuur

  • Volledige of onderlichaamshots toegestaan

  • Verschillende poses kunnen zelfs nuttig zijn

3) LoRA voor een specifieke illustratiestijl

  • Inclusief achtergrond

  • Afbeeldingen met goed zichtbare borstelstructuren

  • Je moet zelf definiëren wat de belangrijkste elementen van stijl zijn (dikte van lijnen, verzadiging, contrast, etc.)


3. Bijschrift schrijven: Het tweede sleutelaspect dat de kwaliteit van LoRA bepaalt

Bijschriften zijn net zo belangrijk als de afbeeldingen zelf.

Flux volgt de “tekstuele signalen” van bijschriften heel goed,
door zorgvuldig bijschriften samen te stellen kan de kwaliteit van LoRA sterk worden beïnvloed.


✔ 3-1) Hoe schrijf je bijschriften?

Het antwoord is een van de volgende twee:

A. Minimale sleutelwoord-tag gebaseerde methode

a japanese woman, long hair, smiling, outdoor, daylight
  • Eenvoudig en stabiel

  • Sterk in realistische stijl

  • LoRA convergeert gemakkelijk

B. Zinnenvorm beschrijvende methode

A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.
  • Leidt tot natuurlijkere training in Flux en SDXL-series

  • Geschikt voor stijl LoRA of personage LoRA

Voor beginners zou ik optie A aanraden, maar als je goed kunt schrijven, raad ik optie B aan. Op basis van mijn ervaring lijkt optie B soms effectiever te zijn.

Let op: Als je zinnen gebruikt, zet dan keep_tokens = 0 en shuffle_caption = false in data.toml


✔ 3-2) Is het mogelijk om helemaal geen bijschriften toe te voegen?

  • Zeker antwoord: Zet het er altijd in

  • Reden: Je moet het model vertellen wat het te leren concept is

  • Er zijn voorbeelden van fine-tuning waarbij alleen “klas tokens worden gegeven zonder zinnen bijschriften”, die ik in de documentatie van NVIDIA heb gezien, maar uit ervaring blijkt dat het toevoegen van bijschriften veel effectiever is.


✔ 3-3) class_tokens vs txt bijschriften prioriteit

Belangrijke praktische informatie:

Als er txt bijschriften zijn, heeft txt prioriteit.

class_tokens is meer een ondersteunende rol.

Dat wil zeggen, als dezelfde afbeelding de volgende twee tegelijk heeft:

class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"

→ Het model zal de caption.txt meer prioriteit geven.

Samenvatting:

  • caption.txt is de kern

  • class_tokens moeten worden gezien als “de basis voor het totale concept”


4. Voorbeeld van de directorystructuur van de dataset

Een net voorbeeld op basis van Flux-serie LoRA:

dataset/
 └── concept1/
      ├── 00001.png
      ├── 00001.txt
      ├── 00002.png
      ├── 00002.txt
      ├── 00003.png
      ├── 00003.txt
      └── ...

Regels voor .txt-bestanden:

  • Bestandsnaam moet hetzelfde zijn

  • UTF-8 vervaardiging is aanbevolen

  • Schrijf alles op één regel (vermijd onnodige regeleinden)


5. Veelvoorkomende bijschriftfouten die LoRA schaden

1) Overmatige bijvoeglijke naamwoorden

beautiful gorgeous extremely lovely asian woman with super long silky hair

Het model raakt overmatig gefocust op specifieke eigenschappen.

2) Verschillende stijlomschrijvingen voor elke foto

  • De ene afbeelding is “cinematische verlichting”

  • De andere afbeelding is “heldere zachte verlichting”
    → 100% verwarring

3) Onnodige emoties of stemmingen die anders zijn dan de foto

Bij veel afbeeldingen, als je copy + paste doet en daarbij verkeerde emotiebeschrijvingen toevoegt, gaat het mis!!
Controleer het dataset minstens twee keer na de voltooiing voor je geestelijke gezondheid.

(Zelfs als iemand lacht, als er teksten zoals 'verdrietig' of 'melancholisch' zijn, kan de emotie veranderen)


6. Hoeveel afbeeldingen zijn het meest efficiënt?

Op basis van ervaring met Flux LoRA:

Aantal afbeeldingen Kwaliteit van het resultaat
5–10 afbeeldingen Onstabiel (grote fluctuaties)
15–25 afbeeldingen Het meest efficiënt
30–50 afbeeldingen De beste kwaliteit (mits _consistente data_)
Meer dan 60 afbeeldingen Helemaal niet significant. Vergrote duplicatie-informatie
  • In plaats van de data te vergroten, verhoogt het verwijderen van “slechte afbeeldingen” de kwaliteit meer.

  • Persoonlijk begon ik met ongeveer 40 afbeeldingen, maar daarna geef ik de voorkeur aan een dataset van 10-20 afbeeldingen.


7. Omgaan met de dataset bij de overgang van 1e naar 2e finetuning

De meest voorkomende vraag hier is:

“Moet ik de eerdere afbeeldingen opnemen?”

Antwoord:
Ja. Een bepaalde verhouding moet worden opgenomen.

Reden:
Het model is geen LoRA, maar een “geheugenpatch”, dus het moet de oorspronkelijke concepten opnieuw zien, anders vergeet het ze.

Aanbevolen verhouding:

  • 50% bestaande data

  • 50% nieuwe data

Als je dat doet, denk ik dat “herinnering behouden + nieuwe stijl weerspiegelen” de meest stabiele aanpak is.


8. Conclusie: Als je de dataset goed voorbereidt, is 70% van LoRA voltooid

Hoe vaker je finetuning doet, hoe duidelijker dit woord wordt.

Uiteindelijk wordt de kwaliteit van LoRA bepaald door de dataset.

  • Resolutie

  • Verhouding

  • Verlichting

  • Consistentie van afbeeldingen

  • Nauwkeurigheid van bijschriften

  • Verwijdering van inferieure afbeeldingen

  • Afstemming van data.toml en datasetstructuur

Als je deze zeven goed regelt,
worden instellingen zoals rang en leersnelheid verhoudingsgewijs minder belangrijk.