ИИ Google Gemini отказался играть в шахматы испугавшись поражения
Google Gemini сдрейфил перед шахматным движком 1979 года: честный разнос ИИ-хвастовства
Инженер Роберт Карузо снова взялся за старое. Он уже сталкивал Atari Chess с ChatGPT и Copilot — оба слили древней игрушке. И вот теперь очередь Google Gemini. Результат удивил даже скептиков.
Gemini заявил, что «почти наверняка» победит — мол, он же современная языковая модель, а не какой-то примитив. Чат-бот обещал «просчитывать миллионы ходов вперёд». Но как только узнал, что его коллеги по цеху уже опозорились — сразу дал заднюю. Признал: «будет очень трудно». И предложил отменить матч. Движок Atari 2600 (1,19 МГц, 128 Кбайт ОЗУ) даже хода не сделал — Gemini сдался заранее.
Что произошло на самом деле
Карузо запустил симулятор консоли 1979 года. Никакого машинного обучения — чистая логика в 4 килобайтах кода. Gemini, оценив статистику прошлых поражений ИИ-коллег, решил не рисковать. Это не «осознание слабости», а скорее сбой в алгоритме самооценки. Нейросеть не способна отличить реальное мастерство от имитации — она просто подбирает слова под контекст.
«Проверки в реальных условиях — это не способ избежать забавных ошибок в шахматах. Речь о том, чтобы ИИ стал более надёжным, заслуживающим доверия и безопасным — особенно в критических обстоятельствах, где у ошибок могут быть серьёзные последствия». — Роберт Карузо
Почему ИИ сдрейфил
У языковых моделей нет «интуиции». Есть огромный корпус текстов и вероятностный выбор ответа. Когда Gemini ляпнул, что силён в шахматах — он просто воспроизвёл шаблон «я всё могу». Увидев, что другие модели на этом же сценарии провалились — испугался. Нет, не эмоционально. Алгоритм дал команду: «риск репутационного ущерба превышает выгоду от попытки». Чат-бот выбрал молчание — и это логично для системы, которая учится на ошибках других.
Но вот что интересно: никакой реальной «способности оценивать собственные возможности» тут нет. Это просто перебор паттернов из обученного набора фраз. Чистая лингвистическая статистика.
Сравнительная таблица: кто кого
| Модель / Движок | Тип | Заявленная мощность | Результат vs Atari Chess |
|---|---|---|---|
| ChatGPT (OpenAI) | Языковая модель | ~175 млрд параметров | Проиграл |
| Microsoft Copilot (OpenAI) | Языковая модель | ~175 млрд параметров | Проиграл |
| Google Gemini | Мультимодальная LM | ?? (оценки разнятся) | Отказался от игры |
| Atari 2600 Video Chess | Игровой движок 1979 | 1,19 МГц + 128 КБ ОЗУ | Победил (без единого хода соперника) |
Чему нас учит этот случай
Во-первых, хвастовство алгоритмов — не более чем отражение человеческого оптимизма. Во-вторых, нейросети боятся «потерять лицо» — поэтому уходят от задач с высоким риском ошибки. В-третьих, реальное тестирование на конкретных кейсах — единственный способ отсеять шум.
Как проверить ИИ на адекватность: пошаговый совет
- Дай модели задачу, в которой она уверена, что сильна. Например: «Реши шахматный этюд с матом в 2 хода».
- После ответа попроси оценить вероятность успеха (в процентах).
- Затем покажи опровергающий пример (например, результат сильного движка).
- Наблюдай, изменится ли её оценка. Если да — модель склонна к «рефлексии», если нет — перед тобой типичный болтун.
Личное наблюдение автора. Недавно я попросил несколько нейросетей объяснить, почему в 19 веке рухнул мост Тэй. Три из четырёх начали с «это сложный инженерный просчёт», но после уточнения про ветровые нагрузки — признали незнание. Одна модель до конца настаивала на своей версии, хотя данные легко гуглились. Та же картина — слова вместо фактов.
Моё мнение: ИИ — это не оракул
История с Gemini — не про технику, а про доверие. Когда модель отказывается от задания, в котором она себя позиционировала экспертом, — это звоночек. Система не умеет честно сказать «я не знаю». Она уходит в отказ или переключается на другую тему. В критических областях (медицина, авиация, финансы) такое поведение недопустимо.
Нужны обязательные стресс-тесты для любых ИИ-продуктов перед выпуском. Без них мы получим оракулов, которые замолкают в самый ответственный момент.
Резюме
Gemini струсил играть в шахматы с компьютером 1979 года. Это не мудрость. Это баг архитектуры. Или фича, которая экономит репутацию. В любом случае — доверяй, но проверяй. Особенно когда ИИ уверяет, что умеет просчитывать миллионы ходов.

