Почему ИИ так косячит?
Почему ИИ генерирует самолёты-мутанты: что не так с нейросетями
Вы наверняка видели то самое видео. Самолёт, сгенерированный нейросетью. Вроде всё красиво — облака, закат, блики. Но если присмотреться — кабина одновременно спереди и сзади, а количество двигателей меняется от кадра к кадру. Или у самолёта вдруг три крыла. В интернете таких роликов море. И вопрос один: почему ИИ, который уже рисует фотореалистичные портреты, так тупит с банальными объектами?
Я залез в тему. И выводы оказались неочевидными. Дело не в мощностях и не в «тупости» нейросетей. Корень глубже.
Проблема №1: ИИ не понимает, что такое «самолёт»
Для человека самолёт — это система: кабина спереди, крылья по бокам, двигатели под ними. Для нейросети — это просто комбинация пикселей, которая похожа на то, что она видела в датасете. Модель не знает законов физики. Она не знает, что у самолёта не может быть двух носов. Она просто запомнила, что в картинках часто встречаются белые точки (иллюминаторы) и длинный цилиндр (фюзеляж). Если в обучающей выборке были и Boeing 737 (два двигателя), и Airbus A380 (четыре), модель может «скрестить» их — нарисовать четыре двигателя на узком фюзеляже.
Личное наблюдение автора: недавно я попросил нейросеть нарисовать велосипед. Получил конструкцию с четырьмя колёсами, двумя рулями и цепью, которая идёт в никуда. Это не баг, это особенность — нейросеть не оперирует понятиями, она оперирует статистическими закономерностями.
Главная проблема ИИ — он не умеет считать. Он видит мир как набор пикселей, а не как систему с чёткими правилами.
Почему количество двигателей пляшет: про внимание и переобучение
Современные генеративные модели (диффузионные, GAN) используют механизм attention. Он позволяет модели фокусироваться на важных деталях. Но внимание — ресурс ограниченный. Когда модель рисует самолёт, она сначала набрасывает общую форму. Детали — двигатели, кабину — она «дорисовывает» на поздних шагах. Если на предыдущем шаге модель решила, что двигатель будет слева, на следующем шаге она может «забыть» это и нарисовать второй справа. Или вообще три.
В одном исследовании 2023 года (S. Zhang et al., «Analyzing Visual Inconsistencies in Diffusion Models») показали, что диффузионные модели ошибаются в количестве симметричных элементов в 30% случаев. Руки, ноги, колёса, двигатели — всё это зона риска. Переобучение (overfitting) на датасете, где слишком много разных типов самолётов, только усугубляет проблему.
| Тип объекта | Частота ошибок (количество элементов) | Пример |
|---|---|---|
| Самолёты (двигатели/крылья) | 25–35% | 3 двигателя вместо 2 |
| Человеческие руки (пальцы) | 40–50% | 6 пальцев |
| Автомобили (колёса) | 20–25% | 5 или 3 колеса |
Цифры говорят сами за себя. Симметрия и счёт — ахиллесова пята современных нейросетей.
Как это работает: краткий ликбез по генерации видео
Чтобы понять, где возникает сбой, разберём процесс по шагам.
- Шаг 1: Сбор датасета. Модель кормят тысячами изображений самолётов. Если в датасете перекос (например, 80% — двухдвигательные, 20% — четырёхдвигательные), модель будет чаще рисовать два, но иногда «вспоминать» четыре.
- Шаг 2: Обучение. Модель учится предсказывать шум, который был добавлен к картинке. Она не учится понимать «самолётность» — она учится восстанавливать пиксели.
- Шаг 3: Генерация. На вход подаётся случайный шум. Модель постепенно убирает шум, «проявляя» изображение. На каждом шаге она может случайным образом добавить или убрать деталь.
- Шаг 4: Видеопоследовательность. Для видео модель генерирует каждый кадр отдельно (или с учётом предыдущего, если используется temporal attention). Но согласованность между кадрами — отдельная боль. Отсюда и пляшущие двигатели.
Теперь становится ясно: ошибки заложены в саму архитектуру. Это не брак, это следствие того, как работают диффузионные модели.
Мощности тут ни при чём: настоящая причина косяков
Часто слышу: «Дайте ИИ больше вычислительных ресурсов — и он перестанет косячить». Это миф. Sora от OpenAI использует чудовищные мощности, но всё равно рисует людей с тремя ногами и машины с размытыми колёсами. Проблема не в железе, а в отсутствии причинно-следственных связей в самой модели. Нейросеть не знает, что у машины должно быть 4 колеса — она просто помнит, что в 95% случаев колёс было 4, а в 5% — 6 (фургоны, спецтехника). При генерации она может выбрать и 6.
Моё мнение: пока мы не научим модели работать с правилами (графы знаний, физические симуляции), таких ляпов будет много. И это нормально. ИИ — не волшебник, а очень сложный статистический аппроксиматор.
Резюме от автора
Искусственный интеллект гениален в имитации стилей, текстур, освещения. Но он проваливается в элементарной арифметике и логике. Хотите фильм, снятый нейросетью? Пока это сотни дублей и ручная чистка каждого кадра. Технология — крутой инструмент, но не замена режиссёру. Не ждите от неё чуда — ждите толкового оператора, который поправит лишнюю кабину.

