— Как правильно подготовить структуру изображений и описаний
Когда вы впервые начинаете настраивать LoRA, каждый обычно обращает внимание на такие параметры обучения, как модель, ранг, скорость обучения.
Однако на самом деле набор данных определяет 80% результата.
Хорошие данные могут скрыть большинство ошибок настройки, но плохие данные не позволят восстановить качество с помощью никаких настроек.
В частности, современные модели серии Flux являются “моделями, которые очень честно отражают данные”, поэтому они сильнее зависят от качества набора данных.
В этой статье мы разберём, как подготовить изображения, как структурировать описания и как настройки data.toml связаны со структурой набора данных на практическом уровне.

1. Почему набор данных наиболее важен для настройки LoRA?
LoRA не меняет все огромные параметры основной модели,
а добавляет только “памятные патчи”, усиливающие или добавляющие конкретные концепции.
То есть, LoRA учится, основываясь на двух ключевых вещах:
-
Общих чертах между изображениями
-
Ключевых концепциях, указанных в описаниях
Поэтому, даже небольшое расхождение в наборе данных может привести к следующим проблемам:
-
Лица становятся неровными
-
LoRA нужно задавать scale=0.5 и выше, чтобы стиль хотя бы применялся
-
Результат получается “ни тем, ни другим”, смешанный с особенностями существующей модели
-
Преувеличивается только определённая поза/выражение
-
Цвета становятся слишком яркими или тусклыми
Все эти проблемы возникают из-за недостатка согласованности данных.
2. Основные правила подготовки изображений
Если вы это соблюдете, то уже на полпути к успеху. Так как настройка занимает значительное время, лучше сразу подготовить данные как следует.
✔ 2-1) Рекомендуется нормализовать разрешение изображений
Модели на основе Flux могут быть не слишком чувствительны к разрешению, но при настройке могут возникнуть следующие проблемы:
-
512×768
-
1024×1536
-
800×800
-
1536×768
Если размеры варьируются, “важные зоны” могут выглядеть размытыми или неясными.
Рекомендуемые параметры:
-
768×1152
-
768×1024
-
1024×1024
-
Или один стандартный размер, соответствующий желаемому конечному соотношению изображений
Важно, чтобы согласованность соотношений и размеров сохранялась.
✔ 2-2) Набор данных не обязательно должен быть большим, но должен быть однородным
Неправильный пример:
- 10 селфи + 5 полноразмерных фото + 3 фото в плохом освещении + 2 фото в 4K + 5 мультяшных изображений
→ Модель путается, что ей нужно учить.
Правильный пример:
-
Одинаковое расстояние камеры
-
Одно и то же освещение
-
Концепция четко определена, например, центр лица / верхняя часть тела
-
Унифицированный стиль (реализм/аниме/иллюстрация и т.д.)
✔ 2-3) “Добавлять только хорошо сделанные фотографии” — главный принцип
Это становится очевидным, когда вы несколько раз экспериментируете с Flux LoRA.
Распространенная ошибка:
“Данных недостаточно, давайте добавим это. Это может быть полезно для обучения.”
Нет.
Это “что-то” разрушает LoRA.
Из-за одного размытым изображением обучение может пойти не так.
Можно с уверенностью сказать:
10 хороших фотографий > 40 несовместимых фотографий
✔ 2-4) Состав изображений нужно определять в зависимости от целей создания LoRA
Например:
1) LoRA для воссоздания конкретного персонажа
-
В основном крупные планы лиц
-
Одно и то же освещение
-
Лицом к камере + немного сбоку
-
Как правило, не стоит добавлять полноразмерные снимки
2) LoRA для воссоздания конкретного модного стиля
-
Один и тот же набор одежды
-
Изображения с акцентом на цвет и текстуру
-
Включены могут быть полноразмерные/снимки нижней части тела
-
Разнообразие поз может быть полезным
3) LoRA для воссоздания конкретного иллюстративного стиля
-
Включая фон
-
Изображения, где хорошо видима текстура кисти
-
Следует четко определить, что является основными элементами стиля (толщина линий, насыщенность, контраст и т.д.)
3. Написание описаний: второй ключ к качеству LoRA
Не менее важным, чем сами изображения, являются и описания.
Flux очень хорошо улавливает “текстовые сигналы” в описаниях, поэтому
тщательная проработка описаний может значительно улучшить качество LoRA.
✔ 3-1) Как писать описания?
Ответ — один из следующих двух вариантов:
A. Основанный на минимальных ключевых словах
a japanese woman, long hair, smiling, outdoor, daylight
-
Просто и стабильно
-
Сильное влияние на стиль реализма
-
LoRA быстро сходится
B. Описательный текст в предложениях
A Japanese woman with long black hair smiles softly in natural daylight, wearing a white knit sweater.
-
Способствует более естественному обучению в моделях Flux и SDXL
-
Подходит для стилей LoRA или персоналий
Рекомендуется новичкам использовать A способ, но тем, кто хорошо пишет, стоит попробовать B способ. На основе личного опыта, у B способа порой была лучшая эффективность.
Примечание: при использовании описательного текста, задайте в data.toml keep_tokens = 0, shuffle_caption = false
✔ 3-2) Можно ли обойтись без описаний?
-
Точный ответ: Обязательно нужно добавить
-
Причина: нужно сообщить модели, что именно она должна учить
-
Тем не менее, я видел примеры настройки с “только классами токенов и без текстовых описаний”, но по моему опыту добавление описаний значительно эффективнее.
✔ 3-3) Приоритет class_tokens и txt описаний
Важная информация для практического использования:
Если есть txt описание → txt имеет приоритет.
class_tokens выполняет вспомогательную роль.
Таким образом, если на одном изображении одновременно присутствуют:
class_tokens = "leona_empire asian woman"
caption.txt = "a japanese woman in winter knit"
→ Модель в первую очередь ориентируется на caption.txt.
Итог:
-
caption.txt — ключевой элемент
-
class_tokens — “основная основа всей концепции”
4. Пример структуры директории набора данных
Вот аккуратный пример, основанный на Flux LoRA:
dataset/
└── concept1/
├── 00001.png
├── 00001.txt
├── 00002.png
├── 00002.txt
├── 00003.png
├── 00003.txt
└── ...
Правила для .txt файлов:
-
Имена файлов должны совпадать
-
Рекомендуется UTF-8
-
Пишите в одной строке (избегайте лишних переносов строк)
5. Распространенные ошибки в описаниях, портящих LoRA
1) Излишние прилагательные
beautiful gorgeous extremely lovely asian woman with super long silky hair
Модель начинает чрезмерно зацикливаться на конкретных характеристиках.
2) Разные описания стиля на разных снимках
-
На одном “кинематографическое освещение”
-
На другом “яркое мягкое освещение”
→ 100% путаницы
3) Неуместные эмоции и настроение
Иногда, при большом количестве изображений, копируя и вставляя текст описания, можно случайно ввести объяснение выражения, отличающееся от фотографии!!
Проверка набора данных как минимум 2 раза после завершения важна для здоровья психики.
(Если, к примеру, на фотографии человек улыбается, а текст содержит sad, melancholy, то выражение может измениться)
6. Количество данных: сколько изображений наиболее эффективно?
На основе опыта с Flux LoRA:
| Количество данных | Качество результата |
|---|---|
| 5–10 изображений | Нестабильно (существенные колебания) |
| 15–25 изображений | Наиболее эффективно |
| 30–50 изображений | Наивысшее качество (при условии _согласованных данных_) |
| более 60 изображений | Большой смысл отсутствует. Увеличение дублирующей информации |
-
Удаление “плохих изображений” повышает качество больше, чем “увеличение данных”.
-
Лично я сначала использовал около 40 изображений, но потом стал формировать набор данных между 10 и 20 изображениями
7. Работа с набором данных при первой и второй настройках
Наиболее распространённый вопрос:
“Нужно ли включать старые изображения?”
Ответ:
Да. Их нужно включить в определённом проценте.
Причина:
Поскольку модель является “памятным патчем”, а не LoRA,
нужно показать старые концепции, иначе она забудет.
Рекомендуемый процент:
-
50% старых данных
-
50% новых данных
Таким образом достигается “поддержание памяти + отражение нового стиля” наиболее стабильно.
8. Заключение: качественной подготовки набора данных достаточно, чтобы завершить 70% LoRA
Чем больше я настраиваю, тем яснее одно:
В конце концов, качество LoRA определяется набором данных.
-
Разрешение
-
Соотношение
-
Освещение
-
Согласованность изображений
-
Точность описаний
-
Удаление некачественных изображений
-
Согласование структуры data.toml и набора данных
Если всё это правильно учитывать,
настройки такие как ранг и скорость обучения становятся менее важными, чем кажется.
Комментариев нет.