ИИ становится умнее — чат-бот на базе GPT-4 прошёл тест Тьюринга

18 июн 2024, 16:37

Современные нейросети перешагнули психологический барьер: более половины людей в ходе слепого тестирования не смогли отличить диалог с GPT-4 от разговора с живым человеком. Этот результат, полученный в рамках масштабного эксперимента, ставит под вопрос не только эффективность классического теста Тьюринга, но и саму природу доверия в цифровой среде.

Тест Тьюринга 2.0: как машины маскируются под людей

Исследователи из Института инженеров электротехники и электроники (IEEE) предложили 500 добровольцам сыграть в детективов. Каждый участник поочередно общался с четырьмя агентами, среди которых затесался всего один человек. Остальные три места заняли программные продукты: легендарный чат-бот ELIZA, написанный еще в 1960-х, и два современных алгоритма на базе больших языковых моделей GPT-3.5 и GPT-4.

Задача респондентов была предельно проста: после пятиминутной беседы с каждым агентом они должны были вынести вердикт — кто перед ними, машина или человек. Результаты оказались показательными. Самый продвинутый алгоритм, GPT-4, сумел одурачить 54% испытуемых. Его предшественник GPT-3.5 добился признания в 50% случаев. Архаичная ELIZA, лишенная нейросетевой архитектуры, смогла сойти за человека лишь в 22% диалогов. Для сравнения, реального человека участники опознали в 67% случаев, что оставляет значительный простор для ошибки даже при общении с себе подобными.

Почему современный ИИ кажется таким «человечным»

Секрет успеха больших языковых моделей кроется не в идеальном интеллекте, а в умелом копировании человеческих слабостей. Как отмечает один из авторов исследования, машины научились рассуждать постфактум, смешивая правдоподобные обоснования, как это свойственно людям. Они демонстрируют когнитивные предубеждения, поддаются манипуляции и становятся всё более изобретательными в обмане. Именно эти «человеческие недостатки», имплантированные в цифровую логику, делают алгоритмы убедительными собеседниками, в отличие от прежних систем, полагавшихся только на список заготовленных ответов.

В 1950 году Алан Тьюринг предложил считать тест пройденным, если машина сможет заставить человека поверить, что он беседует с другим человеком. Спустя почти 75 лет эта планка не просто взята — она превышена с запасом. Разница между 54% успеха у GPT-4 и 67% точности опознания живого человека уже не выглядит пропастью. Это скорее тонкая грань, которая с каждым новым поколением нейросетей будет стираться.

В предшествующие годы развитие чат-ботов шло по пути накопления фактов и шаблонных фраз. Сегодняшний скачок произошел за счет эмуляции самой структуры человеческого мышления, со всеми его ошибками и иррациональностью. Это меняет правила игры: теперь для проверки «цифрового сознания» понадобятся не просто вопросы на логику, а тонкие психологические и этические тесты.

Полученные данные имеют прямое влияние на сферу кибербезопасности и информационной гигиены. Если алгоритм способен имитировать человека в 54% случаев, растет риск фишинговых атак нового поколения, где жертву будет обрабатывать не скрипт, а персонифицированный ИИ-собеседник. Кроме того, стирание грани между живым и синтетическим общением ставит перед обществом сложный вопрос: насколько мы готовы делегировать машинам право вести диалог от нашего имени, и кто будет нести ответственность за слова, произнесенные таким «цифровым двойником»?

Опубликовано: Мировое обозрение Источник