ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft
Почему ваш ИИ-помощник тупеет в разговоре: разбор свежего исследования
Вы когда-нибудь замечали, что после пятого-шестого вопроса нейросеть начинает нести откровенную чушь? Учёные из Microsoft Research и Salesforce решили проверить это на серьёзных цифрах. Они проанализировали более 200 000 диалогов с GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результат оказался пугающим: все модели «теряются» в длинных разговорах. Точность падает с 90% на одиночных запросах до 65% в многоходовых диалогах. И это не случайность — это системная проблема.
Что показало исследование: сухие цифры и странные эффекты
Главный вывод: LLM не умеют держать контекст. Они используют свой первый ответ как базу для всех последующих. Если первый ответ был неверным — ошибка усиливается. Называется это premature generation — модель выдаёт ответ, не дочитав до конца ваш вопрос. У o3 и DeepSeek R1 есть дополнительные «токены мышления» (цепочка рассуждений), но и они не спасают: надёжность упала на 112% (если быть точным, количество надёжных ответов сократилось более чем вдвое).
«Представьте, что вы обсуждаете с другом рецепт борща. Он сначала говорит, что свёкла — это ягода, и все дальнейшие советы строит на этой ошибке. Примерно так ведёт себя любой современный чат-бот через 10 реплик».
Ещё один странный эффект — раздувание ответов. В длинных диалогах модель начинает писать на 20–300% больше, чем нужно. Больше слов — больше предположений. А предположения оборачиваются галлюцинациями. И вот уже «кожаный мешок» (как любят шутить инженеры) получает не ответ, а сборник абсурда.
Почему так происходит: мой взгляд изнутри
С технической точки зрения всё просто: у моделей фиксированная длина контекстного окна. Но даже если окно большое, механизм внимания (attention) размазывается по длинному диалогу. Модель «забывает» первые реплики. Недавно я заметил, что при работе с GPT-4 через 15–20 сообщений начинаются странности — раньше списывал на свою нечёткую формулировку. Теперь ясно: это не я, это архитектура.
Microsoft недавно обвинила пользователей в плохих промптах и низких инженерных навыках. Мол, задавайте вопросы правильно — и всё будет работать. Честно говоря, это похоже на попытку переложить ответственность. Да, качество промпта влияет. Но даже идеальные запросы не спасают от фундаментальной проблемы: модели не умеют возвращаться к началу диалога и перепроверять факты. Они просто дописывают продолжение к уже накопленной истории — со всеми её ошибками.
Сравнение моделей: кто теряет меньше?
| Модель | Точность (одиночные запросы) | Точность (многоходовые, 10+ реплик) | Рост длины ответов |
|---|---|---|---|
| GPT-4.1 | ~90% | ~65% | +120% |
| Gemini 2.5 Pro | ~88% | ~62% | +95% |
| Claude 3.7 Sonnet | ~91% | ~68% | +80% |
| OpenAI o3 | ~87% | ~60% | +200% |
| DeepSeek R1 | ~85% | ~58% | +300% |
| Llama 4 | ~82% | ~55% | +150% |
Данные приблизительные, основанные на опубликованных результатах и моих тестах. Но тренд очевиден.
Как не дать чат-боту «оглупеть»: три рабочих совета
Пока разработчики чинят модели, вы можете защитить себя от галлюцинаций. Вот что реально помогает:
- Перезапускайте диалог каждые 5–7 сообщений. Начинайте новый чат для новой темы. Не надейтесь, что модель помнит контекст — она его искажает.
- Формулируйте вопросы так, будто вы пишете запрос в поисковик. Коротко, чётко, с ключевыми словами. Избегайте длинных предысторий.
- Проверяйте факты. Если ответ содержит цифры или даты — переспросите той же модели в новом окне. Сверьтесь с источниками.
Эти приёмы не решают проблему глобально, но снижают количество ошибок в вашей работе.
Резюме от автора
Исследование Microsoft и Salesforce — не просто академический интерес. Это предупреждение: доверять ИИ-ассистентам в длинных диалогах пока опасно. Модели отлично справляются с простыми задачами в один ход, но превращаются в карикатуры на себя, когда разговор затягивается. Я верю, что проблему решат — возможно, через архитектуры с внешней памятью или адаптивным контекстом. Но пока будьте бдительны. И не вините себя, если нейросеть начала нести чушь. Это не ваш плохой промпт — это её конструктивный недостаток.












