— Как правильно подготовить структуру изображений и описаний

Когда вы впервые начинаете настраивать LoRA, каждый обычно обращает внимание на такие параметры обучения, как модель, ранг, скорость обучения.
Однако на самом деле набор данных определяет 80% результата.
Хорошие данные могут скрыть большинство ошибок настройки, но плохие данные не позволят восстановить качество с помощью никаких настроек.

В частности, современные модели серии Flux являются “моделями, которые очень честно отражают данные”, поэтому они сильнее зависят от качества набора данных.

В этой статье мы разберём, как подготовить изображения, как структурировать описания и как настройки data.toml связаны со структурой набора данных на практическом уровне.

Изображение набора данных LoRA


1. Почему набор данных наиболее важен для настройки LoRA?



LoRA не меняет все огромные параметры основной модели,
а добавляет только “памятные патчи”, усиливающие или добавляющие конкретные концепции.

То есть, LoRA учится, основываясь на двух ключевых вещах:

  1. Общих чертах между изображениями

  2. Ключевых концепциях, указанных в описаниях

Поэтому, даже небольшое расхождение в наборе данных может привести к следующим проблемам:

  • Лица становятся неровными

  • LoRA нужно задавать scale=0.5 и выше, чтобы стиль хотя бы применялся

  • Результат получается “ни тем, ни другим”, смешанный с особенностями существующей модели

  • Преувеличивается только определённая поза/выражение

  • Цвета становятся слишком яркими или тусклыми

Все эти проблемы возникают из-за недостатка согласованности данных.


2. Основные правила подготовки изображений

Если вы это соблюдете, то уже на полпути к успеху. Так как настройка занимает значительное время, лучше сразу подготовить данные как следует.

✔ 2-1) Рекомендуется нормализовать разрешение изображений

Модели на основе Flux могут быть не слишком чувствительны к разрешению, но при настройке могут возникнуть следующие проблемы:

  • 512×768

  • 1024×1536

  • 800×800

  • 1536×768

Если размеры варьируются, “важные зоны” могут выглядеть размытыми или неясными.

Рекомендуемые параметры:

  • 768×1152

  • 768×1024

  • 1024×1024

  • Или один стандартный размер, соответствующий желаемому конечному соотношению изображений

Важно, чтобы согласованность соотношений и размеров сохранялась.


✔ 2-2) Набор данных не обязательно должен быть большим, но должен быть однородным



Неправильный пример:

  • 10 селфи + 5 полноразмерных фото + 3 фото в плохом освещении + 2 фото в 4K + 5 мультяшных изображений

→ Модель путается, что ей нужно учить.

Правильный пример:

  • Одинаковое расстояние камеры

  • Одно и то же освещение

  • Концепция четко определена, например, центр лица / верхняя часть тела

  • Унифицированный стиль (реализм/аниме/иллюстрация и т.д.)


✔ 2-3) “Добавлять только хорошо сделанные фотографии” — главный принцип

Это становится очевидным, когда вы несколько раз экспериментируете с Flux LoRA.

Распространенная ошибка:

“Данных недостаточно, давайте добавим это. Это может быть полезно для обучения.”

Нет.

Это “что-то” разрушает LoRA.
Из-за одного размытым изображением обучение может пойти не так.

Можно с уверенностью сказать:

10 хороших фотографий > 40 несовместимых фотографий


✔ 2-4) Состав изображений нужно определять в зависимости от целей создания LoRA

Например:

1) LoRA для воссоздания конкретного персонажа

  • В основном крупные планы лиц

  • Одно и то же освещение

  • Лицом к камере + немного сбоку

  • Как правило, не стоит добавлять полноразмерные снимки

2) LoRA для воссоздания конкретного модного стиля

  • Один и тот же набор одежды

  • Изображения с акцентом на цвет и текстуру

  • Включены могут быть полноразмерные/снимки нижней части тела

  • Разнообразие поз может быть полезным

3) LoRA для воссоздания конкретного иллюстративного стиля

  • Включая фон

  • Изображения, где хорошо видима текстура кисти

  • Следует четко определить, что является основными элементами стиля (толщина линий, насыщенность, контраст и т.д.)


3. Написание описаний: второй ключ к качеству LoRA

Не менее важным, чем сами изображения, являются и описания.

Flux очень хорошо улавливает “текстовые сигналы” в описаниях, поэтому
тщательная проработка описаний может значительно улучшить качество LoRA.


✔ 3-1) Как писать описания?

Ответ — один из следующих двух вариантов:

A. Основанный на минимальных ключевых словах

a japanese woman, long hair, smiling, outdoor, daylight
  • Просто и стабильно

  • Сильное влияние на стиль реализма

  • LoRA быстро сходится

B. Описательный текст в предложениях

A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.
  • Способствует более естественному обучению в моделях Flux и SDXL

  • Подходит для стилей LoRA или персоналий

Рекомендуется новичкам использовать A способ, но тем, кто хорошо пишет, стоит попробовать B способ. На основе личного опыта, у B способа порой была лучшая эффективность.

Примечание: при использовании описательного текста, задайте в data.toml keep_tokens = 0, shuffle_caption = false


✔ 3-2) Можно ли обойтись без описаний?

  • Точный ответ: Обязательно нужно добавить

  • Причина: нужно сообщить модели, что именно она должна учить

  • Тем не менее, я видел примеры настройки с “только классами токенов и без текстовых описаний”, но по моему опыту добавление описаний значительно эффективнее.


✔ 3-3) Приоритет class_tokens и txt описаний

Важная информация для практического использования:

Если есть txt описание → txt имеет приоритет.

class_tokens выполняет вспомогательную роль.

Таким образом, если на одном изображении одновременно присутствуют:

class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"

→ Модель в первую очередь ориентируется на caption.txt.

Итог:

  • caption.txt — ключевой элемент

  • class_tokens — “основная основа всей концепции”


4. Пример структуры директории набора данных

Вот аккуратный пример, основанный на Flux LoRA:

dataset/
 └── concept1/
      ├── 00001.png
      ├── 00001.txt
      ├── 00002.png
      ├── 00002.txt
      ├── 00003.png
      ├── 00003.txt
      └── ...

Правила для .txt файлов:

  • Имена файлов должны совпадать

  • Рекомендуется UTF-8

  • Пишите в одной строке (избегайте лишних переносов строк)


5. Распространенные ошибки в описаниях, портящих LoRA

1) Излишние прилагательные

beautiful gorgeous extremely lovely asian woman with super long silky hair

Модель начинает чрезмерно зацикливаться на конкретных характеристиках.

2) Разные описания стиля на разных снимках

  • На одном “кинематографическое освещение”

  • На другом “яркое мягкое освещение”
    → 100% путаницы

3) Неуместные эмоции и настроение

Иногда, при большом количестве изображений, копируя и вставляя текст описания, можно случайно ввести объяснение выражения, отличающееся от фотографии!!
Проверка набора данных как минимум 2 раза после завершения важна для здоровья психики.

(Если, к примеру, на фотографии человек улыбается, а текст содержит sad, melancholy, то выражение может измениться)


6. Количество данных: сколько изображений наиболее эффективно?

На основе опыта с Flux LoRA:

Количество данных Качество результата
5–10 изображений Нестабильно (существенные колебания)
15–25 изображений Наиболее эффективно
30–50 изображений Наивысшее качество (при условии _согласованных данных_)
более 60 изображений Большой смысл отсутствует. Увеличение дублирующей информации
  • Удаление “плохих изображений” повышает качество больше, чем “увеличение данных”.

  • Лично я сначала использовал около 40 изображений, но потом стал формировать набор данных между 10 и 20 изображениями


7. Работа с набором данных при первой и второй настройках

Наиболее распространённый вопрос:

“Нужно ли включать старые изображения?”

Ответ:
Да. Их нужно включить в определённом проценте.

Причина:
Поскольку модель является “памятным патчем”, а не LoRA,
нужно показать старые концепции, иначе она забудет.

Рекомендуемый процент:

  • 50% старых данных

  • 50% новых данных

Таким образом достигается “поддержание памяти + отражение нового стиля” наиболее стабильно.


8. Заключение: качественной подготовки набора данных достаточно, чтобы завершить 70% LoRA

Чем больше я настраиваю, тем яснее одно:

В конце концов, качество LoRA определяется набором данных.

  • Разрешение

  • Соотношение

  • Освещение

  • Согласованность изображений

  • Точность описаний

  • Удаление некачественных изображений

  • Согласование структуры data.toml и набора данных

Если всё это правильно учитывать,
настройки такие как ранг и скорость обучения становятся менее важными, чем кажется.