El comienzo del fine-tuning de LoRA siempre es el Dataset

— Cómo preparar correctamente la estructura de imagen y caption

Al comenzar con el fine-tuning de LoRA, todos tienden a enfocarse primero en opciones de entrenamiento como el modelo, rank y learning_rate.
Sin embargo, en realidad el Dataset determina el 80%.
Si se entrena con buenos datos, la mayoría de los errores de configuración se pueden ignorar, pero los malos datos no pueden recuperar la calidad con ninguna configuración.

En particular, los modelos de la serie Flux son “modelos que reflejan muy honestamente los datos”, por lo que están más afectados por la calidad del Dataset.

En este artículo, organizaremos de manera práctica cómo preparar las imágenes, cómo estructurar los captions, y cómo la configuración de data.toml está relacionada con la estructura del Dataset.

imagen del dataset de lora

1. ¿Por qué es tan importante el Dataset en el fine-tuning de LoRA?

LoRA no cambia todos los parámetros masivos del modelo base,
sino que agrega “parches de memoria” que refuerzan o añaden conceptos específicos.

Es decir, LoRA se centra en dos aspectos clave:

Puntos en común entre imágenes
Conceptos clave especificados en los captions

Por lo tanto, si el Dataset tiene pequeñas inconsistencias, inmediatamente se presentan fenómenos como:

Rostros distorsionados
Se necesita un LoRA scale=0.5 o más para aplicar el estilo
Resultados “ni aquí ni allá” al mezclarse con características del modelo existente
Se refuerzan en exceso ciertas poses/o expresiones
Colores desproporcionados

La raíz de todos estos problemas es la falta de consistencia en los datos.

2. Reglas básicas para preparar imágenes

Si se siguen estas pautas, ya se ha tenido un gran éxito. Dado que el tuning puede llevar bastante tiempo, es mejor tener los datos listos desde el principio.

✔ 2-1) Es recomendable normalizar la resolución de las imágenes

Los modelos basados en Flux parecen ser un poco insensibles a la resolución, pero surgen los siguientes problemas durante el fine-tuning:

512×768
1024×1536
800×800
1536×768

Si las dimensiones son diferentes, para el modelo, las “áreas importantes” pueden verse borrosas o inconsistentes.

Especificaciones recomendadas:

768×1152
768×1024
1024×1024
O uniformizar a una sola especificación que se ajuste a la proporción final deseada

Lo importante es mantener consistencia en la proporción y tamaño.

✔ 2-2) No es cuántos, sino cuán homogéneo es el Dataset lo que importa

Ejemplo incorrecto:

10 selfies + 5 fotos de cuerpo entero + 3 fotos en iluminación tenue + 2 fotos en 4K + 5 imágenes en estilo cómic

→ Confusión sobre lo que el modelo debe aprender.

Ejemplo bueno:

Misma distancia de cámara
Misma iluminación
Concepto claro como enfoque en el rostro/cuerpo
Uniformidad de estilo (realista/animación/ilustración, etc.)

✔ 2-3) “Incluir solo fotos bien tomadas” es el principio más importante

Esto se siente aún más en los experimentos repetidos con Flux LoRA.

Un error demasiado común:

“Como faltan datos, simplemente añadamos esto. Algo útil tendrá para el aprendizaje.”

No.

Esa “cosa” arruina LoRA.
Con una imagen borrosa, el aprendizaje se desvía en muchos casos.

Puedo afirmar con total certeza:

10 buenas fotos > 40 fotos confusas

✔ 2-4) La composición de imágenes debe determinarse según el propósito del LoRA deseado

Por ejemplo:

1) LoRA de representación de un personaje específico

Enfoque en primeros planos del rostro
Misma iluminación
Solo frontal + un poco de lateral
No incluir cuerpo completo generalmente es más estable

2) LoRA de representación de un estilo de moda específico

Mismo conjunto de ropa
Imágenes que enfatizan color y textura
Se pueden incluir fotos de cuerpo completo o la mitad del cuerpo
Diferentes poses son incluso útiles

3) LoRA de un estilo de ilustración específico

Incluir fondos
Imágenes donde se ve bien la textura del pincel
Definir directamente cuáles son los elementos clave del estilo (grosor de líneas, saturación, contraste, etc.)

3. Redacción de captions: el segundo elemento clave que determina la calidad de LoRA

Casi tan importante como la imagen misma es el caption.

Flux sigue muy bien el “señal de texto” de los captions, así que,
solo al prestar atención a la composición de los captions, la calidad de LoRA puede cambiar drásticamente.

✔ 3-1) ¿Cómo se deben escribir los captions?

La respuesta es una de las siguientes dos:

A. Método basado en etiquetas de palabras clave mínimas

a japanese woman, long hair, smiling, outdoor, daylight

Simple y estable
Fuerte en estilo realista
LoRA converge fácilmente

B. Método de descripción en forma de oración

A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.

Induce un aprendizaje más natural en modelos como Flux o SDXL
Adecuado para style LoRA o person LoRA

Los principiantes que lo intentan por primera vez deberían optar por el método A, pero se recomienda el método B a quienes escriben bien. Basado en mi experiencia, a veces pienso que el método B es más efectivo.

Nota: Al usar el método de oración, asegúrese de establecer keep_tokens = 0 y shuffle_caption = false en data.toml

✔ 3-2) ¿Es posible no tener captions?

Respuesta definitiva: ¡Debe incluirse!
Razón: El modelo necesita saber qué conceptos debe aprender
Sin embargo, he visto ejemplos de fine-tuning en una estructura donde solo se da “clase tokens y no hay caption”, pero en mi experiencia, incluir captions es mucho más efectivo.

✔ 3-3) Prioridad entre class_tokens y captions.txt

Información esencial:

Si hay captions.txt → se prioriza el txt.

class_tokens tiene un papel secundario.

Es decir, si la misma imagen tiene ambos:

class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"

→ El modelo prioriza el caption.txt.

Resumen:

caption.txt es clave
class_tokens puede considerarse “la base del concepto general”

4. Ejemplo de estructura del directorio del Dataset

Ejemplo limpio basado en LoRA de la serie Flux:

dataset/
 └── concept1/
      ├── 00001.png
      ├── 00001.txt
      ├── 00002.png
      ├── 00002.txt
      ├── 00003.png
      ├── 00003.txt
      └── ...

Reglas para archivos .txt:

El nombre del archivo debe ser el mismo
UTF-8 recomendado
Escribir en una línea (sin saltos de línea innecesarios)

5. Errores comunes en captions que arruinan LoRA

1) Uso excesivo de adjetivos

beautiful gorgeous extremely lovely asian woman with super long silky hair

El modelo se aferra excesivamente a una característica específica.

2) Descripciones de estilo diferentes en cada foto

Una tiene “iluminación cinematográfica”
Otra tiene “iluminación suave y brillante”
→ 100% de confusión

3) Emotion/mood innecesarios que no corresponden a la foto

A veces, al copiar y pegar muchas fotos, se incluye una descripción que no corresponde a la expresión de la foto. Es saludable revisar el DATA set al menos 2 veces después de completarlo.

(Incluso si la persona está sonriendo, si hay texto como sad o melancholy, cambia la expresión)

6. Cantidad de datos: ¿cuántas imágenes son más eficientes?

Basado en la experiencia con Flux LoRA:

Cantidad de datos	Calidad de resultados
5–10 imágenes	Inestable (gran variabilidad)
15–25 imágenes	Más eficiente
30–50 imágenes	Calidad máxima (siempre que sea _datos consistentes_)
Más de 60 imágenes	No tiene gran significado. Aumento de información duplicada

Eliminar “malas imágenes” aumenta más la calidad que aumentar “número de datos”.
Personalmente, empecé con alrededor de 40 fotos, pero luego tiendo a formar datasets entre 10 y 20 fotos.

7. Manejo del Dataset entre el fine-tuning inicial y el secundario

La pregunta más común aquí:

“¿Debo incluir imágenes existentes?”

Respuesta:
Sí. Deben incluirse en cierta proporción.

Razón:
El modelo no es LoRA, sino un “parche de memoria”
si no se le vuelven a mostrar conceptos existentes, los olvidará.

Proporción recomendada:

50% de datos existentes
50% de nuevos datos

Así, se logra “mantenimiento de la memoria + reflejo del nuevo estilo” de la manera más estable.

8. Conclusión: Solo preparando correctamente el Dataset se completa el 70% de LoRA

Lo que se siente al repetir el fine-tuning es solo una cosa.

En última instancia, la calidad de LoRA está determinada por el Dataset.

Resolución
Proporción
Iluminación
Consistencia de imágenes
Precisión de captions
Eliminación de imágenes deficientes
Alineación de data.toml y la estructura del dataset

Si se cuidan estos 7 puntos,
configuraciones como rank y learning_rate se vuelven menos importantes de lo que se podría pensar.