Практикум по ИИ-рисованию, часть третья, или Как добыть обои на «Рабочий стол» из латентного пространства

10 авг 2023, 00:49

824

Новая модель Stable Diffusion XL (SDXL) 1.0 от Stability.ai, официально представленная в конце июля, демонстрирует впечатляющий скачок в качестве генерации изображений. Однако, несмотря на объективное превосходство в детализации и реалистичности, сообщество энтузиастов не спешит отказываться от проверенной «Полуторки» (модели SD 1.5). Причина кроется в суровой реальности: новинка требует мощного «железа» и пока лишена обширной экосистемы дообученных моделей и инструментов, которые сделали SD 1.5 стандартом де-факто для локального ИИ-рисования. Для тех, кто хочет получить максимум контроля над генерацией уже сегодня, старая добрая SD 1.5 в связке с AUTOMATIC1111 остается наиболее гибким и доступным решением.

Обновление AUTOMATIC1111: готовимся к экспериментам

Прежде чем погружаться в творчество, необходимо обновить рабочую среду AUTOMATIC1111 до актуальной версии (на начало августа — 1.5.1). Первым делом — резервное копирование. Скопируйте на внешний носитель папки embeddings, models (с чекпойнтами и LoRA) и outputs (ваши работы), а также файл webui-user.bat с пользовательскими настройками. После этого откройте каталог stable-diffusion-webui, запустите «Git Bash Here» и выполните команду git pull. Процесс обновления займет несколько минут.

Тонкая настройка интерфейса

После обновления стоит оптимизировать параметры веб-интерфейса. В разделе «Settings» измените шаблон именования файлов на [seed]-[steps]-[cfg] для более информативных названий. Обязательно активируйте опции «Save text information about generation parameters as chunks to png files» и «Always save all generated image grids». Для работы с апскейлерами рекомендуется оставить только семейство R-ESRGAN 4x+, а в качестве апскейлера по умолчанию на вкладке «img2img» установить 4x-UltraSharp. Скачайте файл 4x-UltraSharp.pth и поместите его в папку modelsESRGAN.

Для обеспечения воспроизводимости результатов на разных видеокартах переведите переключатель «Random number generator source» в положение CPU. В разделе «Compatibility» поставьте галочку «Do not make DPM++ SDE deterministic across different batch sizes» — это критически важно для повторения чужих результатов, полученных на сэмплере DPM++ SDE Karras.

Секретное оружие: Tiled Diffusion & VAE

а соседних фрагментов. Это позволяет создавать изображения с произвольным соотношением сторон без артефактов и задвоения объектов.

Установите расширение через вкладку «Extensions» -> «Available», найдя его по ключевому слову «Tiled». После установки и перезапуска в интерфейсе появятся два новых подменю: «Tiled Diffusion» и «Tiled VAE».

Создание изображения для рабочего стола: пошаговый пример

Рассмотрим процесс генерации обоев 16:9 (размер 912x512) на примере сцены с двумя роботами. В качестве чекпойнта используем модель Juggernaut Final, в качестве VAE — vae-ft-mse-840000-ema-pruned, с Clip skip = 2.

Шаг 1. Базовая настройка Tiled Diffusion. Активируйте расширение, выберите метод «Mixture of diffusers». Задайте размер плитки: Latent tile width = 128, Latent tile height = 64. Установите перекрытие плиток (Latent tile overlap) = 60, а размер пакета (Latent tile batch size) = 8.

Шаг 2. Зональные подсказки (Region Prompt Control). Это ключевая функция для управления композицией. Активируйте «Region prompt control» и «Draw full canvas background». Создайте три зоны:

Зона 1 (Фон): Type = Background. Позитивная подсказка: «ancient city ruins, forest, mossed stone, lush trees, sun shining through leaves, god rays».
Зона 2 (Футуристический робот): Type = Foreground, Blur = 0.4. Позитивная подсказка: «(full body shot) humanoid futuristic mecha, dynamic pose, in action, powerful, elegant, iridescent shiny metal, transparent glass, chrome and nickel, metal reflections, neons». Негативная: «close-up».
Зона 3 (Стимпанк-робот): Type = Foreground, Blur = 0.2. Позитивная подсказка: «(full body shot) humanoid steampunk robot, static, old, broken, damaged, clockwork mechanism parts, brass pipes, copper gears, rust, patina, oily». Негативная: «close-up».

Разместите зоны на холсте, задав их границы с помощью графического редактора внутри расширения.

Шаг 3. Генерация и фиксация удачного seed. Запустите генерацию. После получения удачного кадра, используйте вкладку «PNG Info» для извлечения seed для каждой зоны. Зафиксируйте seed для фона и стимпанк-робота, оставив seed для футуристического робота случайным для перебора вариантов.

Добавление деталей с помощью LoRA и Textual Inversion

Для усиления визуальных характеристик используйте дообученные модели. Добавьте LoRA Industrial Machines (файл mshn.safetensors) в позитивную подсказку зоны 2: «..., <lora:mshn:1>». Для общего повышения детализации добавьте LoRA Add detail в главную позитивную подсказку: «..., <lora:add_detail:0.8>». Для усиления стимпанк-эстетики в зоне 3 используйте текстовую инверсию WAS Steampunk (файл was-steampunk.pt): «..., (art by WAS-Steampunk:0.8)».

Финальный апскейл: два подхода

Для увеличения разрешения до 1824x1024 можно использовать два метода. Первый — через Tiled Diffusion: активируйте «Overwrite image size» и задайте нужные размеры. Второй — через скрипт «Ultimate SD upscale» на вкладке img2img. Оба метода дают разные, но интересные результаты. Для дополнительной проработки текстур и деталей на финальном этапе можно применить LoRA Insanobot и текстовую инверсию Fast Negative Embedding v2.

Погоня за идеалом в латентном пространстве бесконечна. Каждое изменение параметров, будь то новая LoRA или минимальная правка подсказки, может привести к совершенно неожиданному и зачастую более удачному результату. Именно эта непредсказуемость и безграничность возможностей и привлекает энтузиастов, предпочитающих локальный контроль над генерацией облачным сервисам с их ограничениями.

Опубликовано: Мировое обозрение Источник