ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

20 фев 2026, 21:29

Почему ваш ИИ-помощник тупеет в разговоре: разбор свежего исследования

Вы когда-нибудь замечали, что после пятого-шестого вопроса нейросеть начинает нести откровенную чушь? Учёные из Microsoft Research и Salesforce решили проверить это на серьёзных цифрах. Они проанализировали более 200 000 диалогов с GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результат оказался пугающим: все модели «теряются» в длинных разговорах. Точность падает с 90% на одиночных запросах до 65% в многоходовых диалогах. И это не случайность — это системная проблема.

Что показало исследование: сухие цифры и странные эффекты

Главный вывод: LLM не умеют держать контекст. Они используют свой первый ответ как базу для всех последующих. Если первый ответ был неверным — ошибка усиливается. Называется это premature generation — модель выдаёт ответ, не дочитав до конца ваш вопрос. У o3 и DeepSeek R1 есть дополнительные «токены мышления» (цепочка рассуждений), но и они не спасают: надёжность упала на 112% (если быть точным, количество надёжных ответов сократилось более чем вдвое).

«Представьте, что вы обсуждаете с другом рецепт борща. Он сначала говорит, что свёкла — это ягода, и все дальнейшие советы строит на этой ошибке. Примерно так ведёт себя любой современный чат-бот через 10 реплик».

Ещё один странный эффект — раздувание ответов. В длинных диалогах модель начинает писать на 20–300% больше, чем нужно. Больше слов — больше предположений. А предположения оборачиваются галлюцинациями. И вот уже «кожаный мешок» (как любят шутить инженеры) получает не ответ, а сборник абсурда.

Почему так происходит: мой взгляд изнутри

С технической точки зрения всё просто: у моделей фиксированная длина контекстного окна. Но даже если окно большое, механизм внимания (attention) размазывается по длинному диалогу. Модель «забывает» первые реплики. Недавно я заметил, что при работе с GPT-4 через 15–20 сообщений начинаются странности — раньше списывал на свою нечёткую формулировку. Теперь ясно: это не я, это архитектура.

Microsoft недавно обвинила пользователей в плохих промптах и низких инженерных навыках. Мол, задавайте вопросы правильно — и всё будет работать. Честно говоря, это похоже на попытку переложить ответственность. Да, качество промпта влияет. Но даже идеальные запросы не спасают от фундаментальной проблемы: модели не умеют возвращаться к началу диалога и перепроверять факты. Они просто дописывают продолжение к уже накопленной истории — со всеми её ошибками.

Сравнение моделей: кто теряет меньше?

Модель	Точность (одиночные запросы)	Точность (многоходовые, 10+ реплик)	Рост длины ответов
GPT-4.1	~90%	~65%	+120%
Gemini 2.5 Pro	~88%	~62%	+95%
Claude 3.7 Sonnet	~91%	~68%	+80%
OpenAI o3	~87%	~60%	+200%
DeepSeek R1	~85%	~58%	+300%
Llama 4	~82%	~55%	+150%

Данные приблизительные, основанные на опубликованных результатах и моих тестах. Но тренд очевиден.

Как не дать чат-боту «оглупеть»: три рабочих совета

Пока разработчики чинят модели, вы можете защитить себя от галлюцинаций. Вот что реально помогает:

Перезапускайте диалог каждые 5–7 сообщений. Начинайте новый чат для новой темы. Не надейтесь, что модель помнит контекст — она его искажает.
Формулируйте вопросы так, будто вы пишете запрос в поисковик. Коротко, чётко, с ключевыми словами. Избегайте длинных предысторий.
Проверяйте факты. Если ответ содержит цифры или даты — переспросите той же модели в новом окне. Сверьтесь с источниками.

Эти приёмы не решают проблему глобально, но снижают количество ошибок в вашей работе.

Резюме от автора

Исследование Microsoft и Salesforce — не просто академический интерес. Это предупреждение: доверять ИИ-ассистентам в длинных диалогах пока опасно. Модели отлично справляются с простыми задачами в один ход, но превращаются в карикатуры на себя, когда разговор затягивается. Я верю, что проблему решат — возможно, через архитектуры с внешней памятью или адаптивным контекстом. Но пока будьте бдительны. И не вините себя, если нейросеть начала нести чушь. Это не ваш плохой промпт — это её конструктивный недостаток.

Опубликовано: Мировое обозрение Источник