— Cómo preparar correctamente la estructura de imagen y caption
Al comenzar con el fine-tuning de LoRA, todos tienden a enfocarse primero en opciones de entrenamiento como el modelo, rank y learning_rate.
Sin embargo, en realidad el Dataset determina el 80%.
Si se entrena con buenos datos, la mayoría de los errores de configuración se pueden ignorar, pero los malos datos no pueden recuperar la calidad con ninguna configuración.
En particular, los modelos de la serie Flux son “modelos que reflejan muy honestamente los datos”, por lo que están más afectados por la calidad del Dataset.
En este artículo, organizaremos de manera práctica cómo preparar las imágenes, cómo estructurar los captions, y cómo la configuración de data.toml está relacionada con la estructura del Dataset.

1. ¿Por qué es tan importante el Dataset en el fine-tuning de LoRA?
LoRA no cambia todos los parámetros masivos del modelo base,
sino que agrega “parches de memoria” que refuerzan o añaden conceptos específicos.
Es decir, LoRA se centra en dos aspectos clave:
-
Puntos en común entre imágenes
-
Conceptos clave especificados en los captions
Por lo tanto, si el Dataset tiene pequeñas inconsistencias, inmediatamente se presentan fenómenos como:
-
Rostros distorsionados
-
Se necesita un LoRA scale=0.5 o más para aplicar el estilo
-
Resultados “ni aquí ni allá” al mezclarse con características del modelo existente
-
Se refuerzan en exceso ciertas poses/o expresiones
-
Colores desproporcionados
La raíz de todos estos problemas es la falta de consistencia en los datos.
2. Reglas básicas para preparar imágenes
Si se siguen estas pautas, ya se ha tenido un gran éxito. Dado que el tuning puede llevar bastante tiempo, es mejor tener los datos listos desde el principio.
✔ 2-1) Es recomendable normalizar la resolución de las imágenes
Los modelos basados en Flux parecen ser un poco insensibles a la resolución, pero surgen los siguientes problemas durante el fine-tuning:
-
512×768
-
1024×1536
-
800×800
-
1536×768
Si las dimensiones son diferentes, para el modelo, las “áreas importantes” pueden verse borrosas o inconsistentes.
Especificaciones recomendadas:
-
768×1152
-
768×1024
-
1024×1024
-
O uniformizar a una sola especificación que se ajuste a la proporción final deseada
Lo importante es mantener consistencia en la proporción y tamaño.
✔ 2-2) No es cuántos, sino cuán homogéneo es el Dataset lo que importa
Ejemplo incorrecto:
- 10 selfies + 5 fotos de cuerpo entero + 3 fotos en iluminación tenue + 2 fotos en 4K + 5 imágenes en estilo cómic
→ Confusión sobre lo que el modelo debe aprender.
Ejemplo bueno:
-
Misma distancia de cámara
-
Misma iluminación
-
Concepto claro como enfoque en el rostro/cuerpo
-
Uniformidad de estilo (realista/animación/ilustración, etc.)
✔ 2-3) “Incluir solo fotos bien tomadas” es el principio más importante
Esto se siente aún más en los experimentos repetidos con Flux LoRA.
Un error demasiado común:
“Como faltan datos, simplemente añadamos esto. Algo útil tendrá para el aprendizaje.”
No.
Esa “cosa” arruina LoRA.
Con una imagen borrosa, el aprendizaje se desvía en muchos casos.
Puedo afirmar con total certeza:
10 buenas fotos > 40 fotos confusas
✔ 2-4) La composición de imágenes debe determinarse según el propósito del LoRA deseado
Por ejemplo:
1) LoRA de representación de un personaje específico
-
Enfoque en primeros planos del rostro
-
Misma iluminación
-
Solo frontal + un poco de lateral
-
No incluir cuerpo completo generalmente es más estable
2) LoRA de representación de un estilo de moda específico
-
Mismo conjunto de ropa
-
Imágenes que enfatizan color y textura
-
Se pueden incluir fotos de cuerpo completo o la mitad del cuerpo
-
Diferentes poses son incluso útiles
3) LoRA de un estilo de ilustración específico
-
Incluir fondos
-
Imágenes donde se ve bien la textura del pincel
-
Definir directamente cuáles son los elementos clave del estilo (grosor de líneas, saturación, contraste, etc.)
3. Redacción de captions: el segundo elemento clave que determina la calidad de LoRA
Casi tan importante como la imagen misma es el caption.
Flux sigue muy bien el “señal de texto” de los captions, así que,
solo al prestar atención a la composición de los captions, la calidad de LoRA puede cambiar drásticamente.
✔ 3-1) ¿Cómo se deben escribir los captions?
La respuesta es una de las siguientes dos:
A. Método basado en etiquetas de palabras clave mínimas
a japanese woman, long hair, smiling, outdoor, daylight
-
Simple y estable
-
Fuerte en estilo realista
-
LoRA converge fácilmente
B. Método de descripción en forma de oración
A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.
-
Induce un aprendizaje más natural en modelos como Flux o SDXL
-
Adecuado para style LoRA o person LoRA
Los principiantes que lo intentan por primera vez deberían optar por el método A, pero se recomienda el método B a quienes escriben bien. Basado en mi experiencia, a veces pienso que el método B es más efectivo.
Nota: Al usar el método de oración, asegúrese de establecer keep_tokens = 0 y shuffle_caption = false en data.toml
✔ 3-2) ¿Es posible no tener captions?
-
Respuesta definitiva: ¡Debe incluirse!
-
Razón: El modelo necesita saber qué conceptos debe aprender
-
Sin embargo, he visto ejemplos de fine-tuning en una estructura donde solo se da “clase tokens y no hay caption”, pero en mi experiencia, incluir captions es mucho más efectivo.
✔ 3-3) Prioridad entre class_tokens y captions.txt
Información esencial:
Si hay captions.txt → se prioriza el txt.
class_tokens tiene un papel secundario.
Es decir, si la misma imagen tiene ambos:
class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"
→ El modelo prioriza el caption.txt.
Resumen:
-
caption.txt es clave
-
class_tokens puede considerarse “la base del concepto general”
4. Ejemplo de estructura del directorio del Dataset
Ejemplo limpio basado en LoRA de la serie Flux:
dataset/
└── concept1/
├── 00001.png
├── 00001.txt
├── 00002.png
├── 00002.txt
├── 00003.png
├── 00003.txt
└── ...
Reglas para archivos .txt:
-
El nombre del archivo debe ser el mismo
-
UTF-8 recomendado
-
Escribir en una línea (sin saltos de línea innecesarios)
5. Errores comunes en captions que arruinan LoRA
1) Uso excesivo de adjetivos
beautiful gorgeous extremely lovely asian woman with super long silky hair
El modelo se aferra excesivamente a una característica específica.
2) Descripciones de estilo diferentes en cada foto
-
Una tiene “iluminación cinematográfica”
-
Otra tiene “iluminación suave y brillante”
→ 100% de confusión
3) Emotion/mood innecesarios que no corresponden a la foto
A veces, al copiar y pegar muchas fotos, se incluye una descripción que no corresponde a la expresión de la foto. Es saludable revisar el DATA set al menos 2 veces después de completarlo.
(Incluso si la persona está sonriendo, si hay texto como sad o melancholy, cambia la expresión)
6. Cantidad de datos: ¿cuántas imágenes son más eficientes?
Basado en la experiencia con Flux LoRA:
| Cantidad de datos | Calidad de resultados |
|---|---|
| 5–10 imágenes | Inestable (gran variabilidad) |
| 15–25 imágenes | Más eficiente |
| 30–50 imágenes | Calidad máxima (siempre que sea _datos consistentes_) |
| Más de 60 imágenes | No tiene gran significado. Aumento de información duplicada |
-
Eliminar “malas imágenes” aumenta más la calidad que aumentar “número de datos”.
-
Personalmente, empecé con alrededor de 40 fotos, pero luego tiendo a formar datasets entre 10 y 20 fotos.
7. Manejo del Dataset entre el fine-tuning inicial y el secundario
La pregunta más común aquí:
“¿Debo incluir imágenes existentes?”
Respuesta:
Sí. Deben incluirse en cierta proporción.
Razón:
El modelo no es LoRA, sino un “parche de memoria”
si no se le vuelven a mostrar conceptos existentes, los olvidará.
Proporción recomendada:
-
50% de datos existentes
-
50% de nuevos datos
Así, se logra “mantenimiento de la memoria + reflejo del nuevo estilo” de la manera más estable.
8. Conclusión: Solo preparando correctamente el Dataset se completa el 70% de LoRA
Lo que se siente al repetir el fine-tuning es solo una cosa.
En última instancia, la calidad de LoRA está determinada por el Dataset.
-
Resolución
-
Proporción
-
Iluminación
-
Consistencia de imágenes
-
Precisión de captions
-
Eliminación de imágenes deficientes
-
Alineación de data.toml y la estructura del dataset
Si se cuidan estos 7 puntos,
configuraciones como rank y learning_rate se vuelven menos importantes de lo que se podría pensar.
No hay comentarios.