El asistente oculto del modelo de generación de imágenes - CLIP y estrategias avanzadas de prompts

Al usar la IA de generación de imágenes, es común encontrarse con el término 'CLIP'. Muchos lo consideran simplemente como un 'intérprete que convierte texto en imágenes', pero el papel de CLIP es mucho más profundo y sofisticado. Con la aparición del método 'Dual CLIP', que utiliza dos o más codificadores para generar imágenes de alta calidad, también ha evolucionado la estrategia para redactar prompts.

En este artículo, exploraremos el concepto básico de CLIP y cómo optimizar los prompts en un sistema de dual codificadores.

1. ¿Qué es CLIP?

CLIP (Contrastive Language-Image Pre-training) es un modelo desarrollado por OpenAI, que, como su nombre indica, es un modelo multimodal que aprende en conjunto haciendo una comparación (Contrastive) entre 'texto' y 'imágenes'.

Su función principal es colocar imágenes y textos en un 'espacio latente (Latent Space)' común, que es un espacio vectorial imaginario.

Si el texto “perro” se sitúa en un punto específico en este espacio (vector),
la imagen de un “perro” también se aprende para estar ubicada en una coordenada muy cercana.

Rol en modelos de generación de imágenes:

Es importante destacar que CLIP no es un generador (Generator) que dibuje imágenes. En lugar de eso, actúa como un 'juez' o 'navegador' que evalúa “¿qué tan bien coincide la imagen generada con el prompt de texto del usuario?”. A medida que el puntaje de CLIP aumenta (es decir, la proximidad entre el texto y la imagen), el modelo generador (por ejemplo, Stable Diffusion) decide que “esta dirección es la correcta” y agrega más detalles.

2. La llegada del codificador dual: ¿por qué usar dos modelos?

Modelos de alto rendimiento como Stable Diffusion XL (SDXL) han adoptado una estrategia de 'codificador de texto dual' en lugar de un solo CLIP. Una combinación representativa es clip_l y t5xxl_fp16.

Esto se debe a la 'distribución de roles y especialización'.

clip_l (experto en coincidencias visuales/palabras clave):
- Es el codificador de texto tradicional de CLIP.
- Es muy fuerte en conectar conceptos visuales entre imágenes y textos.
- Se utiliza principalmente para capturar elementos visuales como palabras clave clave, estilos y composiciones.
t5xxl_fp16 (experto en lenguaje/contexto):
- T5 es un modelo de lenguaje grande (LLM) desarrollado por Google, que es mucho más grande que el codificador de texto básico de CLIP.
- Entiende mucho mejor estructuras complejas de oraciones, contexto y relaciones sutiles entre palabras en lugar de solo palabras clave.
- Como 'experto en lenguaje', capta las sutilezas detalladas de los prompts.

Al usar ambos codificadores, se puede reflejar con precisión tanto el significado de oraciones complejas (T5) como el estilo visual clave (CLIP-L), generando imágenes mucho más ricas y precisas.

3. Cómo redactar el mejor prompt: combinación de oraciones y palabras clave

Para maximizar el rendimiento de este sistema de codificadores duales, es recomendable proporcionar prompts que se ajusten a las características de cada codificador. Muchas herramientas avanzadas de generación de imágenes (por ejemplo, ComfyUI) permiten ingresar textos diferentes para cada uno de estos dos codificadores.

Para T5-XXL (experto en lenguaje) → 'oraciones naturales'
- Es mejor redactar en forma de oraciones completas para que el modelo pueda comprender el contexto.
- Ej: "Una joven japonesa en sus 20 años, con una coleta negra y usando gafas de montura negra. Está sentada sobre una alfombra blanca, escuchando música, y mirando hacia la cámara."
Para CLIP-L (experto en coincidencias visuales) → 'palabras clave principales'
- Listar elementos clave visualmente importantes, como estilo, objeto, color y composición, resulta efectivo.
- Ej: "mujer japonesa, 20 años, coleta negra, gafas negras, auriculares blancos, alfombra blanca, escuchando música, sentada, mirando hacia arriba, desde arriba, cuerpo completo, foto real profesional"

4. ¿Qué hay de los prompts en forma de JSON o diccionario?

Para gestionar los prompts de manera sistemática, a veces se redactan en forma de JSON o diccionario (Python Dictionary).

{
"Character":"mujer japonesa joven en sus 20 años.",
"Appearance":{
"hair": "cabello en coleta negra",
"wearing": "gafas de montura negra, auriculares inalámbricos blancos"
},
"Action": "escuchando música, sentada sobre alfombra blanca",
"style": "foto real profesional"
}

Copiar esta estructura tal cual y utilizarla igualmente en los codificadores T5 y CLIP-L es muy ineficiente y poco recomendable.

¿Por qué es ineficaz?

Incompatibilidad con el método de aprendizaje del modelo: Modelos como T5 o CLIP han aprendido de oraciones naturales (texto). Los símbolos de sintaxis de programación como {, }, " podrían ser interpretados por el modelo como 'ruido' en lugar de 'lenguaje'.
Ruptura del contexto: Se interrumpe la conexión orgánica entre "Character": "..." y "Action": "...". El modelo acepta "personaje" y "acción" como fragmentos de información separados, lo que dificulta combinarlos en una escena natural.

Ejemplo de conversión correcta

Para utilizar correctamente los datos JSON en el sistema de codificadores duales, es necesario pasar por un proceso de 'traducción'.

T5-XXL (entrada tipo oración):

Una joven japonesa en sus 20 años, con una coleta negra, usando gafas de montura negra y auriculares inalámbricos blancos. Ella está escuchando música mientras está sentada sobre una alfombra blanca. Esta es una foto real profesional.
CLIP-L (entrada tipo palabras clave):

mujer japonesa joven, 20 años, coleta negra, gafas negras, auriculares inalámbricos blancos, escuchando música, sentada sobre alfombra blanca, foto real profesional

image_from_right_prompt

5. Resumen y conclusión

CLIP no es un generador que dibuje imágenes, sino un 'juez' que evalúa la concordancia entre texto e imagen.
El codificador dual (T5 + CLIP-L) es un poderoso método donde 'el experto en lenguaje (T5)' y el 'experto en coincidencias visuales (CLIP-L)' colaboran.
Para obtener los mejores resultados, es recomendable enviar oraciones naturales a T5 y palabras clave clave a CLIP-L.
Usar datos estructurados como JSON o diccionario directamente en los prompts puede obstaculizar la comprensión del modelo, por lo que es necesario convertirlos a oraciones naturales y palabras clave para su uso.