Почему ИИ так косячит?

04 июн 2025, 14:31

Почему ИИ генерирует самолёты-мутанты: что не так с нейросетями

Вы наверняка видели то самое видео. Самолёт, сгенерированный нейросетью. Вроде всё красиво — облака, закат, блики. Но если присмотреться — кабина одновременно спереди и сзади, а количество двигателей меняется от кадра к кадру. Или у самолёта вдруг три крыла. В интернете таких роликов море. И вопрос один: почему ИИ, который уже рисует фотореалистичные портреты, так тупит с банальными объектами?

Я залез в тему. И выводы оказались неочевидными. Дело не в мощностях и не в «тупости» нейросетей. Корень глубже.

Проблема №1: ИИ не понимает, что такое «самолёт»

Для человека самолёт — это система: кабина спереди, крылья по бокам, двигатели под ними. Для нейросети — это просто комбинация пикселей, которая похожа на то, что она видела в датасете. Модель не знает законов физики. Она не знает, что у самолёта не может быть двух носов. Она просто запомнила, что в картинках часто встречаются белые точки (иллюминаторы) и длинный цилиндр (фюзеляж). Если в обучающей выборке были и Boeing 737 (два двигателя), и Airbus A380 (четыре), модель может «скрестить» их — нарисовать четыре двигателя на узком фюзеляже.

Личное наблюдение автора: недавно я попросил нейросеть нарисовать велосипед. Получил конструкцию с четырьмя колёсами, двумя рулями и цепью, которая идёт в никуда. Это не баг, это особенность — нейросеть не оперирует понятиями, она оперирует статистическими закономерностями.

Главная проблема ИИ — он не умеет считать. Он видит мир как набор пикселей, а не как систему с чёткими правилами.

Почему количество двигателей пляшет: про внимание и переобучение

Современные генеративные модели (диффузионные, GAN) используют механизм attention. Он позволяет модели фокусироваться на важных деталях. Но внимание — ресурс ограниченный. Когда модель рисует самолёт, она сначала набрасывает общую форму. Детали — двигатели, кабину — она «дорисовывает» на поздних шагах. Если на предыдущем шаге модель решила, что двигатель будет слева, на следующем шаге она может «забыть» это и нарисовать второй справа. Или вообще три.

В одном исследовании 2023 года (S. Zhang et al., «Analyzing Visual Inconsistencies in Diffusion Models») показали, что диффузионные модели ошибаются в количестве симметричных элементов в 30% случаев. Руки, ноги, колёса, двигатели — всё это зона риска. Переобучение (overfitting) на датасете, где слишком много разных типов самолётов, только усугубляет проблему.

Тип объекта	Частота ошибок (количество элементов)	Пример
Самолёты (двигатели/крылья)	25–35%	3 двигателя вместо 2
Человеческие руки (пальцы)	40–50%	6 пальцев
Автомобили (колёса)	20–25%	5 или 3 колеса

Цифры говорят сами за себя. Симметрия и счёт — ахиллесова пята современных нейросетей.

Как это работает: краткий ликбез по генерации видео

Чтобы понять, где возникает сбой, разберём процесс по шагам.

Шаг 1: Сбор датасета. Модель кормят тысячами изображений самолётов. Если в датасете перекос (например, 80% — двухдвигательные, 20% — четырёхдвигательные), модель будет чаще рисовать два, но иногда «вспоминать» четыре.
Шаг 2: Обучение. Модель учится предсказывать шум, который был добавлен к картинке. Она не учится понимать «самолётность» — она учится восстанавливать пиксели.
Шаг 3: Генерация. На вход подаётся случайный шум. Модель постепенно убирает шум, «проявляя» изображение. На каждом шаге она может случайным образом добавить или убрать деталь.
Шаг 4: Видеопоследовательность. Для видео модель генерирует каждый кадр отдельно (или с учётом предыдущего, если используется temporal attention). Но согласованность между кадрами — отдельная боль. Отсюда и пляшущие двигатели.

Теперь становится ясно: ошибки заложены в саму архитектуру. Это не брак, это следствие того, как работают диффузионные модели.

Мощности тут ни при чём: настоящая причина косяков

Часто слышу: «Дайте ИИ больше вычислительных ресурсов — и он перестанет косячить». Это миф. Sora от OpenAI использует чудовищные мощности, но всё равно рисует людей с тремя ногами и машины с размытыми колёсами. Проблема не в железе, а в отсутствии причинно-следственных связей в самой модели. Нейросеть не знает, что у машины должно быть 4 колеса — она просто помнит, что в 95% случаев колёс было 4, а в 5% — 6 (фургоны, спецтехника). При генерации она может выбрать и 6.

Моё мнение: пока мы не научим модели работать с правилами (графы знаний, физические симуляции), таких ляпов будет много. И это нормально. ИИ — не волшебник, а очень сложный статистический аппроксиматор.

Резюме от автора

Искусственный интеллект гениален в имитации стилей, текстур, освещения. Но он проваливается в элементарной арифметике и логике. Хотите фильм, снятый нейросетью? Пока это сотни дублей и ручная чистка каждого кадра. Технология — крутой инструмент, но не замена режиссёру. Не ждите от неё чуда — ждите толкового оператора, который поправит лишнюю кабину.

Опубликовано: Мировое обозрение Источник