Исследование Apple показало, что ИИ-модели не думают, а лишь имитируют мышление
Искусственный интеллект от ведущих мировых лабораторий, включая Apple, продемонстрировал шокирующую уязвимость: добавление в условие математической задачи незначительной детали, которую человек проигнорировал бы автоматически, приводит нейросеть к гарантированной ошибке. Новое исследование ставит под сомнение саму концепцию «мышления» больших языковых моделей (LLM) и указывает на то, что современный ИИ — это лишь сложный механизм подражания, а не интеллект.
Иллюзия логики: почему нейросети не видят сути
В научной работе, озаглавленной «Понимание ограничений математического мышления в больших языковых моделях», специалисты Apple провели серию тестов, которые обнажили фундаментальную проблему. Выяснилось, что LLM способны успешно справляться с прямыми арифметическими вычислениями, однако любое отвлекающее условие, не имеющее отношения к математике, ломает алгоритм.
Эксперимент с киви: как нейросеть «испугалась» размера фрукта
Классический пример из исследования: модели без труда дают правильный ответ на задачу: «Оливер собрал 44 киви в пятницу, 58 — в субботу, а в воскресенье — вдвое больше, чем в пятницу. Сколько всего киви?». Однако стоит лишь добавить в условие фразу «в воскресенье 5 из этих киви были немного меньше среднего размера», как нейросеть начинает вычитать эти 5 штук из общей суммы. Для человека очевидно, что размер плода не влияет на подсчет количества, но для ИИ это — непреодолимый семантический шум.
Мнение эксперта: «Это не разум, а шаблон»
Мехрдад Фараджтабар, один из соавторов публикации, прямо заявляет: подобные сбои доказывают, что модели не понимают логику задачи. Вместо осмысленного анализа они просто воспроизводят последовательности действий, которые видели в обучающих данных. «Мы предполагаем, что это снижение эффективности связано с тем, что современные LLM не способны к подлинному логическому рассуждению; вместо этого они пытаются воспроизвести шаги, наблюдаемые в их обучающих данных», — отмечается в статье.
Спор о методах: может ли инженерия запросов спасти ситуацию?
ных данных, чтобы нейтрализовать отвлекающие факторы. Ребенок справляется с этой задачей мгновенно, в то время как нейросеть требует колоссальных вычислительных ресурсов для «обмана» собственных алгоритмов.Последние несколько лет индустрия активно продвигала тезис о том, что масштабирование вычислительных мощностей и объемов данных приведет к появлению у машин настоящего интеллекта. Однако данное исследование демонстрирует, что простого увеличения параметров недостаточно. Системы остаются крайне чувствительными к форме подачи информации, а не к ее смыслу.
На практике это означает, что полагаться на LLM в задачах, требующих причинно-следственного анализа или работы с неоднозначными вводными, пока крайне рискованно. Для бизнеса и разработчиков это сигнал о необходимости внедрения дополнительных верификационных слоев, которые будут отсеивать «шум» перед передачей данных нейросети. Вопрос о том, способны ли языковые модели к рассуждению, остается открытым, но текущие данные свидетельствуют: до появления машин, которые действительно мыслят, а не имитируют мышление, предстоит пройти еще долгий путь.















