Der verborgene Helfer von Bildgenerierungsmodellen - CLIP und fortgeschrittene Prompt-Strategien

Wenn man KI zur Bildgenerierung verwendet, stößt man häufig auf den Begriff 'CLIP'. Viele Menschen betrachten ihn einfach als 'Interpret, der Text in Bilder umwandelt', aber die Rolle von CLIP ist viel tiefer und ausgeklügelter. Besonders seit der Einführung des 'Dual-CLIP'-Ansatzes, der zwei oder mehr Encoder verwendet, entwickelt sich auch die Strategie zur Erstellung von Prompts weiter.

In diesem Artikel werden wir das grundlegende Konzept von CLIP durchgehen und herausfinden, wie man Prompts in einem dualen Encodersystem optimiert.

1. Was ist CLIP?

CLIP (Contrastive Language-Image Pre-training) ist ein von OpenAI entwickeltes Modell, das, wie der Name schon sagt, 'Text und Bilder kontrastiv zusammen lernt', ein multimodales Modell.

Die Kernfunktion besteht darin, Bilder und Texte im gleichen 'latent space' zu platzieren, einem hypothetischen Vektorraum.

Wenn der Text "Hund" an einer bestimmten Koordinate (Vektor) positioniert ist,
wird auch das Bild eines „Hundes“ so trainiert, dass es sich in der Nähe dieser Koordinate befindet.

Rolle im Bildgenerierungsmodell:

Wichtig ist es, dass CLIP selbst kein Generator ist, der Bilder malt. Stattdessen spielt es die Rolle eines 'Richters' oder 'Navigators', während das Generierungsmodell (z. B. Stable Diffusion) Bilder erstellt und bewertet, „Wie gut stimmt das aktuell generierte Bild mit dem Text-Prompt des Nutzers überein?“ Je höher die CLIP-Punktzahl (je näher Text und Bild beieinander liegen), desto mehr entscheidet das Generierungsmodell: „Diese Richtung ist richtig“ und fügt weitere Details hinzu.

2. Die Einführung des Dual-Encoders: Warum zwei Modelle verwenden?

Neueste leistungsstarke Modelle wie Stable Diffusion XL (SDXL) haben anstelle eines einzelnen CLIP den 'Dual-Text-Encoder'-Ansatz übernommen. Eine typische Kombination ist clip_l und t5xxl_fp16.

Dies geschieht wegen der 'Aufgabenteilung und Spezialisierung'.

clip_l (Experte für visuelle/Schlüsselwortübereinstimmung):
- Der traditionelle Text-Encoder von CLIP.
- Er ist stark darin, visuelle Konzepte zwischen Bildern und Texten zu verbinden.
- Wird hauptsächlich verwendet, um Schlüsselwörter, Stile und Kompositionen sowie andere visuelle Elemente zu erfassen.
t5xxl_fp16 (Experte für Sprache/Kontext):
- T5 ist ein großes Sprachmodell (LLM), das von Google entwickelt wurde und viel größer ist als der grundlegende Text-Encoder von CLIP.
- Es versteht nicht nur einfache Schlüsselwörter, sondern auch komplexe Satzstrukturen, Kontexte und subtile Beziehungen zwischen Wörtern viel tiefer.
- Als 'Sprachesxerzt' erfasst es die feinen Nuancen des Prompts.

Durch die gleichzeitige Verwendung von zwei Encodern können wir die Bedeutung komplexer und langer Sätze (T5) und der Schlüsselstil (CLIP-L) genau widerspiegeln, um viel reichhaltigere und genauere Bilder zu generieren.

3. Optimale Prompt-Erstellung: Kombination von Sätzen und Schlüsselwörtern

Um die Leistung dieses Dual-Encoder-Systems maximal auszuschöpfen, ist es ratsam, Prompts zu liefern, die den Eigenschaften jedes Encoders entsprechen. Viele fortschrittliche Bildgenerierungswerkzeuge (z. B. ComfyUI) ermöglichen es, jedem dieser beiden Encoder unterschiedliche Texte einzugeben.

T5-XXL (sprachlicher Experte) → natürliche 'Sätze'
- Es ist am besten, vollständige Satzformen zu verwenden, damit das Modell den Kontext verstehen kann.
- Beispiel: "Eine japanische junge Frau in ihren 20ern, mit einem schwarzen Pferdeschwanz und einer schwarzen Brille. Sie sitzt auf einem weißen Teppich, hört Musik und schaut in die Kamera."
CLIP-L (visueller Matching-Experte) → 'Schlüsselwörter'
- Es ist effektiv, visuell wichtige Schlüsselelemente wie Stil, Objekte, Farben und Kompositionen aufzulisten.
- Beispiel: "japanische Frau, 20er, schwarzer Pferdeschwanz, schwarze Brille, weiße Kopfhörer, weißer Teppich, Musik hören, sitzen, nach oben schauen, von oben, ganzkörper, professionelles reales Foto"

4. Wie wäre es mit Prompts im JSON- oder Dictionary-Format?

Um Prompts systematisch zu verwalten, gibt es Fälle, in denen sie in einem JSON- oder Python-Dictionary-Format geschrieben werden.

{
"Character":"japanische junge Frau in ihren 20ern.",
"Appearance":{
"hair": "schwarzer Pferdeschwanz",
"wearing": "schwarze Brille, weiße kabellose Kopfhörer"
},
"Action": "Musik hören, auf weißem Teppich sitzen",
"style": "professionelles reales Foto"
}

Diese Struktur einfach zu kopieren und den T5- und CLIP-L-Encodern identisch einzugeben, ist sehr ineffizient und nicht wünschenswert.

Warum wirkt es weniger effektiv?

Unvereinbarkeit mit der Lernweise des Modells: Modelle wie T5 oder CLIP haben natürliche Sätze (Text) gelernt. Programmier-Syntax-Symbole wie {, }, " könnten vom Modell als 'Geräusch' und nicht als 'Sprache' erkannt werden.
Kontextverlust: Der organische, kontextuelle Zusammenhang zwischen "Character": "..." und "Action": "..." geht verloren. Das Modell nimmt 'Charakter' und 'Aktion' als separate Informationsfragmente wahr und hat Schwierigkeiten, diese zu einer natürlichen Szene zu kombinieren.

Beispiel für eine korrekte Umwandlung

Um die obigen JSON-Daten im Dual-Encoder-System ordnungsgemäß zu nutzen, ist der folgende 'Übersetzungs'-Prozess erforderlich.

T5-XXL (satzformulierte Eingabe):

Eine japanische junge Frau in ihren 20ern, mit einem schwarzen Pferdeschwanz, wearing einer schwarzen Brille und weißen kabellosen Kopfhörern. Sie hört Musik, während sie auf einem weißen Teppich sitzt. Dies ist ein professionelles reales Foto.
CLIP-L (Schlüsselworteingabe):

japanische junge Frau, 20er, schwarzer Pferdeschwanz, schwarze Brille, weiße kabellose Kopfhörer, Musik hören, auf weißem Teppich sitzen, professionelles reales Foto

image_from_right_prompt

5. Zusammenfassung und Fazit

CLIP ist kein Generator, der Bilder malt, sondern ein 'Richter', der die Übereinstimmung zwischen Text und Bild bewertet.
Der Dual-Encoder (T5 + CLIP-L) ist eine leistungsstarke Methode, bei der 'Sprachexperte (T5)' und 'visueller Matching-Experte (CLIP-L)' zusammenarbeiten.
Um die besten Ergebnisse zu erzielen, sollte T5 natürliche Sätze und CLIP-L Schlüsselwörter zugänglich gemacht werden.
Die Verwendung strukturierter Daten wie JSON oder Dictionaries im Prompt behindert das Verständnis des Modells. Stattdessen sollte man sie in natürliche Sprache und Schlüsselworte umformen.