Практикум по ИИ-рисованию, часть девятая: SD3M — «троечка» на троечку

22 июл 2024, 11:13

986

Релиз Stable Diffusion 3 Medium (SD3M) от Stability AI, который должен был стать триумфом открытых ИИ-моделей, обернулся двойным провалом. Технические ограничения, проявившиеся в виде сюрреалистических галлюцинаций при генерации простых сцен, и запутанная лицензионная политика не только разочаровали сообщество, но и поставили под вопрос будущее всей платформы. В то время как энтузиасты объявили бойкот, компания погрузилась в финансовую нестабильность, а на рынке зреет новая инициатива по созданию по-настоящему открытого генератора изображений.

Проклятие «лежащей на траве»: как цензура сломала нейросеть

В первые же часы после публикации весов SD3M пользователи обнаружили странную аномалию: модель оказалась неспособна адекватно генерировать изображения людей, лежащих на траве. Вместо ожидаемых фотореалистичных сцен нейросеть выдавала пугающие образы, напоминающие кадры из фильмов ужасов. Сообщество быстро связало это с «выхолащиванием» модели — предположительно, из тренировочного набора были удалены все изображения, которые могли быть истолкованы как непристойные. В результате модель просто «разучилась» понимать значение слова «лежать», а попытки обойти это ограничение приводили к генерации «body horror».

Лоботомия в погоне за безопасностью

Бывший глава Stability AI Эмад Мостак намекнул, что столь грубое вмешательство в архитектуру SD3M стало следствием новой политики «безопасности», принятой руководством компании. Технически это могло быть реализовано либо через исключение целых классов изображений из датасета, либо через принудительное обнуление весов нейронов, отвечающих за «нежелательные» сцены. Этот подход, который энтузиасты назвали «лоботомией», привел к тому, что даже корректно распознанные текстовые токены не находили соответствия в искалеченном латентном пространстве модели.

Лицензионный ад: почему сообщество отвернулось от Stability AI

Если технические проблемы SD3M можно было бы исправить силами сообщества (как это было с SD 1.5 и SDXL), то лицензионные условия поставили на этом крест. В отличие от предыдущих открытых лицензий, новая версия для «троечки» оказалась отзывной и запрещала сублицензирование. Это означало, что Stability AI могла в любой момент отозвать разрешение на использование модели, а разработчики производных инструментов (LoRA, чекпойнты) были бы обязаны удалить все плоды своего труда. Даже юристы профильного сайта Civitai взяли паузу, чтобы разобраться в формулировках, а сама платформа временно забанила страницу модели. В результате сообщество объявило бойкот, отказавшись тратить время на доработку «сырой» и юридически опасной модели.

Технический прорыв: как запустить SD3M на старом железе

Несмотря на все проблемы, SD3M демонстрирует значительный технологический скачок. Она построена на архитектуре мультимодальных диффузионных трансформеров (MMDiT), что обеспечивает лучшее понимание длинных подсказок и высокое качество типографики. Ключевое новшество — использование трех кодировщиков текста (два CLIP и один T5-XXL), которые обрабатывают запрос параллельно. Для локального запуска на слабых видеокартах (например, GTX 1070 с 8 Гбайт) необходимо использовать модульную версию модели и рабочую среду ComfyUI, которая благодаря своему разработчику (бывшему сотруднику Stability AI) получила наиболее полную поддержку SD3M. Правильная настройка, включая отключение «умного менеджера памяти» и использование виртуального окружения Python, позволяет добиться приемлемой скорости генерации даже на устаревшем оборудовании.

Провал SD3M совпал с серьезными финансовыми трудностями Stability AI: сменой руководства, увольнениями и поиском новых инвестиций. На этом фоне сообщество, разочарованное в политике компании, начинает консолидироваться вокруг проекта Open Model Initiative. Invoke, Comfy Org, Civitai и LAION объединяются для создания по-настоящему открытой модели, свободной от корпоративных капризов. В ближайшее время именно «полуторка» и «Оверсайз» останутся основными рабочими лошадками для ИИ-художников, в то время как будущее SD3M и самой Stability AI остается под большим вопросом.

Опубликовано: Мировое обозрение Источник