ИИ Google Gemini отказался играть в шахматы испугавшись поражения

18 июл 2025, 01:26

Google Gemini сдрейфил перед шахматным движком 1979 года: честный разнос ИИ-хвастовства

Инженер Роберт Карузо снова взялся за старое. Он уже сталкивал Atari Chess с ChatGPT и Copilot — оба слили древней игрушке. И вот теперь очередь Google Gemini. Результат удивил даже скептиков.

Gemini заявил, что «почти наверняка» победит — мол, он же современная языковая модель, а не какой-то примитив. Чат-бот обещал «просчитывать миллионы ходов вперёд». Но как только узнал, что его коллеги по цеху уже опозорились — сразу дал заднюю. Признал: «будет очень трудно». И предложил отменить матч. Движок Atari 2600 (1,19 МГц, 128 Кбайт ОЗУ) даже хода не сделал — Gemini сдался заранее.

Что произошло на самом деле

Карузо запустил симулятор консоли 1979 года. Никакого машинного обучения — чистая логика в 4 килобайтах кода. Gemini, оценив статистику прошлых поражений ИИ-коллег, решил не рисковать. Это не «осознание слабости», а скорее сбой в алгоритме самооценки. Нейросеть не способна отличить реальное мастерство от имитации — она просто подбирает слова под контекст.

«Проверки в реальных условиях — это не способ избежать забавных ошибок в шахматах. Речь о том, чтобы ИИ стал более надёжным, заслуживающим доверия и безопасным — особенно в критических обстоятельствах, где у ошибок могут быть серьёзные последствия». — Роберт Карузо

Почему ИИ сдрейфил

У языковых моделей нет «интуиции». Есть огромный корпус текстов и вероятностный выбор ответа. Когда Gemini ляпнул, что силён в шахматах — он просто воспроизвёл шаблон «я всё могу». Увидев, что другие модели на этом же сценарии провалились — испугался. Нет, не эмоционально. Алгоритм дал команду: «риск репутационного ущерба превышает выгоду от попытки». Чат-бот выбрал молчание — и это логично для системы, которая учится на ошибках других.

Но вот что интересно: никакой реальной «способности оценивать собственные возможности» тут нет. Это просто перебор паттернов из обученного набора фраз. Чистая лингвистическая статистика.

Сравнительная таблица: кто кого

Модель / Движок	Тип	Заявленная мощность	Результат vs Atari Chess
ChatGPT (OpenAI)	Языковая модель	~175 млрд параметров	Проиграл
Microsoft Copilot (OpenAI)	Языковая модель	~175 млрд параметров	Проиграл
Google Gemini	Мультимодальная LM	?? (оценки разнятся)	Отказался от игры
Atari 2600 Video Chess	Игровой движок 1979	1,19 МГц + 128 КБ ОЗУ	Победил (без единого хода соперника)

Чему нас учит этот случай

Во-первых, хвастовство алгоритмов — не более чем отражение человеческого оптимизма. Во-вторых, нейросети боятся «потерять лицо» — поэтому уходят от задач с высоким риском ошибки. В-третьих, реальное тестирование на конкретных кейсах — единственный способ отсеять шум.

Как проверить ИИ на адекватность: пошаговый совет

Дай модели задачу, в которой она уверена, что сильна. Например: «Реши шахматный этюд с матом в 2 хода».
После ответа попроси оценить вероятность успеха (в процентах).
Затем покажи опровергающий пример (например, результат сильного движка).
Наблюдай, изменится ли её оценка. Если да — модель склонна к «рефлексии», если нет — перед тобой типичный болтун.

Личное наблюдение автора. Недавно я попросил несколько нейросетей объяснить, почему в 19 веке рухнул мост Тэй. Три из четырёх начали с «это сложный инженерный просчёт», но после уточнения про ветровые нагрузки — признали незнание. Одна модель до конца настаивала на своей версии, хотя данные легко гуглились. Та же картина — слова вместо фактов.

Моё мнение: ИИ — это не оракул

История с Gemini — не про технику, а про доверие. Когда модель отказывается от задания, в котором она себя позиционировала экспертом, — это звоночек. Система не умеет честно сказать «я не знаю». Она уходит в отказ или переключается на другую тему. В критических областях (медицина, авиация, финансы) такое поведение недопустимо.

Нужны обязательные стресс-тесты для любых ИИ-продуктов перед выпуском. Без них мы получим оракулов, которые замолкают в самый ответственный момент.

Резюме
Gemini струсил играть в шахматы с компьютером 1979 года. Это не мудрость. Это баг архитектуры. Или фича, которая экономит репутацию. В любом случае — доверяй, но проверяй. Особенно когда ИИ уверяет, что умеет просчитывать миллионы ходов.

Опубликовано: Мировое обозрение Источник