Без языка человек видит мир иначе: доказано, что речь физически меняет работу зрительной коры
В когнитивной науке долго идет спор двух сторон. Одна сторона утверждает: зрение — это сугубо механический процесс, камера, передающая картинку в мозг. Другая (сторонники гипотезы Сепира-Уорфа) настаивает: язык, на котором мы говорим, меняет то, как мы видим мир.
Новое исследование, кажется, ставит точку в этом споре. Используя современные нейросети (вроде CLIP) и данные пациентов с повреждением мозга — ученые доказали: без языка мы видели бы мир совсем иначе.
Методологический прорыв: синтез искусственного и биологического интеллекта
Для изучения процессов, происходящих в мозге, исследователи использовали глубокие нейронные сети в качестве математических моделей. Искусственные нейросети достигли того уровня сложности, который позволяет использовать их как суррогатные модели для проверки гипотез о работе биологических систем. Если активность искусственной сети при просмотре изображений схожа с активностью мозга человека, это позволяет сделать выводы о принципах кодирования информации в живой ткани.
В эксперименте сравнивались три архитектуры компьютерного зрения, принципиально различающиеся алгоритмами обучения:
- MoCo (Self-supervised learning): модель, обученная без учителя. Она анализирует миллионы изображений, выявляя закономерности в пикселях, текстурах и геометрии объектов, но не имеет доступа к текстовым меткам. Эта модель имитирует чистое зрение, лишенное языкового контекста.
- ResNet (Supervised classification): стандартная модель классификации, обученная сопоставлять изображение с конкретным словом-меткой (например, «автомобиль» или «яблоко»). Это имитирует уровень категоризации объектов.
- CLIP (Vision-Language model): мультимодальная система, которая обучается на парах «изображение — текстовое описание». В отличие от ResNet, она анализирует не просто ярлыки, а сложные семантические конструкции и отношения между объектами, выраженные в естественном языке.
Этап 1: Корреляционный анализ на здоровой выборке
На первом этапе исследования ученые проанализировали данные функциональной магнитно-резонансной томографии (фМРТ) здоровых добровольцев. Участникам демонстрировали различные визуальные стимулы, фиксируя активность в вентральной затылочно-височной коре (VOTC) — ключевой зоне, отвечающей за распознавание объектов.
Результаты показали устойчивую закономерность: активность зрительной коры человека наиболее точно предсказывалась моделью CLIP. Паттерны возбуждения нейронов при просмотре объектов статистически достоверно совпадали с тем, как кодирует информацию нейросеть, обладающая знаниями о структуре языка. Модели ResNet (знающая только слова-ярлыки) и MoCo (не знающая языка вовсе) показали значительно меньшее соответствие.
Этот факт позволил выдвинуть гипотезу: человеческая зрительная система не просто пассивно регистрирует визуальные признаки, но активно использует семантическую информацию (смыслы и описания) для построения визуальных репрезентаций. Однако наличие соотношения не являлось доказательством причинно-следственной связи. Существовал риск, что CLIP показывает лучшие результаты по иным техническим причинам, например, из-за большего объема обучающей выборки.
Этап 2: Клиническая валидация через повреждения мозга
Для доказательства того, что именно языковая система модулирует зрение, авторы перешли к анализу данных пациентов с очаговыми поражениями мозга. В выборку вошли 33 пациента, перенесших ишемический инсульт.
Ключевым объектом исследования стали проводящие пути белого вещества — аксоны, физически соединяющие различные участки коры. Ученых интересовал конкретный тракт, связывающий зрительную кору (VOTC) с левой угловой извилиной (Angular Gyrus, AG). Левая угловая извилина является очень важным узлом языковой сети, отвечающим за интеграцию семантической информации и понимание сложных понятий.
Логика эксперимента была следующей: если преимущество модели CLIP в объяснении работы мозга действительно основано на взаимодействии зрения и языка, то физический разрыв связи между зрительной корой и языковым центром должен устранить этот эффект.
Результаты подтвердили гипотезу с высокой точностью:
- У пациентов, у которых структурная целостность путей между VOTC и левой угловой извилиной была сохранена, активность зрительной коры по-прежнему лучше всего описывалась моделью CLIP.
- У пациентов с повреждением этого тракта наблюдалось статистически значимое снижение соответствия модели CLIP.
- Самое важное: при нарушении связи с языковым центром активность зрительной коры начинала лучше коррелировать с моделью MoCo — алгоритмом, который опирается исключительно на визуальные характеристики низкого уровня.
Латерализация и специфичность эффекта
Исследование выявило анатомическую специфичность. Эффект наблюдался только при повреждении связей в левом полушарии. Это критически важное наблюдение, поскольку у подавляющего большинства людей языковые функции распределены именно слева. Повреждение аналогичных путей в правом полушарии, соединяющих зрительную кору с правой угловой извилиной (которая не участвует в обработке языка), никак не влияло на точность предсказаний модели CLIP.
Это исключает возможность того, что изменения в работе зрительной коры были вызваны общим снижением когнитивных способностей или неспецифическим повреждением мозга. Влияние оказывал именно разрыв коммуникации с лингвистическим модулем.
Механизм семантической модуляции
Полученные данные позволяют пересмотреть архитектуру человеческого восприятия. Результаты свидетельствуют о том, что визуальная информация в мозге не обрабатывается изолированно. В процессе восприятия зрительная кора (VOTC) постоянно взаимодействует с языковой сетью через угловую извилину.
Этот процесс можно описать как динамическую модуляцию: языковая система предоставляет зрительной коре высокоуровневые семантические шаблоны («что это может быть» и «как это связано с другим объектами»), что позволяет зрительной системе более эффективно организовывать входящий поток визуальной информации.
Когда эта связь нарушается вследствие инсульта, зрительная кора не прекращает работу, но переходит в режим автономного функционирования. В этом состоянии она обрабатывает объекты, опираясь преимущественно на их форму, текстуру и физические параметры (подобно модели MoCo), теряя доступ к богатому контекстуальному слою, который обеспечивает язык.
Значение для разработки искусственного интеллекта
Исследование полезно не только для медицины и нейробиологии, но и для сферы компьютерных наук. Оно эмпирически подтверждает, что для создания искусственного интеллекта, способного воспринимать мир подобно человеку, недостаточно увеличивать вычислительные мощности или объем визуальных данных.
Биологически правдоподобная модель компьютерного зрения должна быть мультимодальной. Обучение алгоритмов исключительно на изображениях (как в случае с MoCo) создает систему, которая эффективно различает текстуры, но фундаментально отличается от человеческого мозга в принципах организации информации. Внедрение языкового обучения в визуальные модели (как это реализовано в CLIP) приближает работу искусственных нейросетей к нейрофизиологическим стандартам.
Работа доказывает, что язык является неотъемлемым компонентом визуального опыта человека, действуя как активный участник процесса формирования зрительных образов.
Источник:arXiv












