Скрытые помощники модели генерации изображений - стратегии CLIP и продвинутых подсказок

Используя AI для генерации изображений, вы часто сталкиваетесь с термином 'CLIP'. Многие воспринимают его всего лишь как 'интерпретатор, преобразующий текст в изображение', но роль CLIP гораздо глубже и сложнее. Особенно с появлением метода 'двойного CLIP', использующего два и более энкодера для генерации изображений высокого качества, стратегия написания подсказок также эволюционирует.

В этой статье мы рассмотрим основные концепции CLIP и то, как оптимизировать подсказки в системе с двойным энкодером.

1. Что такое CLIP?

CLIP (Контрастная языково-изображенческая предобученность) - это модель, разработанная OpenAI, которая, как следует из названия, сравнивает (контрастирует) 'язык (текст)' и 'изображение', обучаясь совместно как многомодальная модель.

Основная функция заключается в размещении изображений и текста в одном 'латентном пространстве' - воображаемом векторном пространстве.

Если текст "собака" находится в определенной пространственной координате (векторе),
то фото "собаки" также обучается находиться в очень близкой координате.

Роль в модели генерации изображений:

Важный момент: CLIP сам по себе не является генератором изображений. Вместо этого он выполняет роль 'судьи' или 'навигации', оценивая «насколько сгенерированное изображение соответствует текстовой подсказке пользователя?» Чем выше оценка CLIP (чем ближе текст и изображение), тем больше шансов, что генеративная модель решит: 'это правильное направление' и добавит детали.

2. Появление двойного энкодера: зачем использовать две модели?

Совсем недавно модели высокой производительности, такие как Stable Diffusion XL (SDXL), начали применять вместо одного CLIP 'двойной текстовый энкодер'. Примеры таких комбинаций - clip_l и t5xxl_fp16.

Это связано с 'распределением ролей и специализацией'.

clip_l (эксперт по визуальному/ключевому соответствию):
- Это традиционный текстовый энкодер CLIP.
- Он силен в связывании визуальных концепций между изображениями и текстами.
- В основном используется для захвата основных ключевых слов, стилей, композиций и других визуально важных элементов.
t5xxl_fp16 (эксперт по языку/контексту):
- T5 - это большая языковая модель (LLM), разработанная Google, которая значительно больше, чем базовый текстовый энкодер CLIP.
- Она понимает не просто ключевые слова, а сложные структуры предложений, контекст и тонкие связи между словами на более глубоком уровне.
- В качестве 'языкового эксперта' она улавливает детали нюансов подсказок.

Использование двух энкодеров позволяет более точно отразить значение сложных и длинных предложений (T5) и основной визуальный стиль (CLIP-L), что приводит к созданию гораздо более богатых и точных изображений.

3. Как правильно составить подсказки: комбинация предложений и ключевых слов

Чтобы максимально эффективно использовать возможности этой системы двойного энкодера, желательно предлагать подсказки, соответствующие характеристикам каждого энкодера. Многие продвинутые инструменты генерации изображений (например, ComfyUI) позволяют вводить различные тексты для этих двух энкодеров.

T5-XXL (эксперт по языку) → естественные 'предложения'
- Рекомендуется формулировать все в виде полных предложений, чтобы модель могла понять контекст.
- Пример: "Японская молодая женщина в возрасте 20 лет с черным хвостом и черными очками. Она сидит на белом ковре, слушает музыку и смотрит в камеру."
CLIP-L (эксперт по визуальному соответствию) → 'основные ключевые слова'
- Эффективно перечислять визуально важные ключевые элементы, такие как стиль, объект, цвет и композиция.
- Пример: "японская женщина, 20 лет, черный хвост, черные очки, белые наушники, белый ковер, слушает музыку, сидит, смотрит вверх, сверху, целиком, профессиональное настоящее фото"

4. А как насчёт подсказок в формате JSON или словаря?

Для систематического управления подсказками иногда пишут их в формате JSON или словаря (Python Dictionary).

{
"Character":"японская молодая женщина в возрасте 20 лет.",
"Appearance":{
"hair": "черный хвост",
"wearing": "черные очки, белые беспроводные наушники"
},
"Action": "слушает музыку, сидит на белом ковре",
"style": "профессиональное настоящее фото"
}

Копирование этой структуры в идентичные вводы для T5 и CLIP-L является крайне неэффективным и нежелательным.

Почему это не сработает?

Несоответствие методам обучения модели: Модели, такие как T5 или CLIP, обучаются на естественных предложениях (тексте). Программные синтаксические символы, такие как {, }, ", могут восприниматься моделью как 'шум', а не 'язык'.
Разрыв контекста: Органическая контекстная связь между "Character": "..." и "Action": "..." прерывается. Модель воспринимает "персонажа" и "действие" как отдельные фрагменты информации, что затрудняет их объединение в естественную сцену.

Пример правильного преобразования

Чтобы правильно использовать данные JSON в системе двойного энкодера, требуется 'перевод':

T5-XXL (ввод в формате предложений):

Японская молодая женщина в возрасте 20 лет с черным хвостом, носит черные очки и белые беспроводные наушники. Она слушает музыку, сидя на белом ковре. Это профессиональное настоящее фото.
CLIP-L (ввод в формате ключевых слов):

японская молодая женщина, 20 лет, черный хвост, черные очки, белые беспроводные наушники, слушает музыку, сидит на белом ковре, профессиональное настоящее фото

image_from_right_prompt

5. Резюме и выводы

CLIP не является генератором изображений, а выступает в роли 'судьи', оценивающего соответствие текста и изображения.
Двойной энкодер (T5 + CLIP-L) - это мощный способ сотрудничества 'языкового эксперта (T5)' и 'эксперта по визуальному соответствию (CLIP-L)'.
Для достижения наилучших результатов лучше всего передавать естественные предложения T5 и основные ключевые слова CLIP-L.
Использование структурированных данных, таких как JSON или словарь, в качестве подсказок нарушает понимание модели, поэтому необходимо перевести их в естественные текстовые и ключевые слова.