Учёные разобрались, как мозг распознает речь в шумной обстановке
Исследователи Массачусетского технологического института создали вычислительную модель, демонстрирующую, каким образом человеческий мозг выделяет один голос из множества одновременно звучащих. Результаты опубликованы 13 марта 2026 года в журнале Nature Human Behavior.
Группа под руководством профессора Джоша Макдермотта и аспиранта Иэна Гриффита модифицировала существующую нейронную сеть, используемую для моделирования слуха, дополнив её мультипликативными коэффициентами усиления на каждом этапе обработки. При получении звукового сигнала нейроны, настроенные на характеристики целевого голоса — прежде всего высоту тона, — увеличивают частоту импульсов, тогда как нейроны, реагирующие на иные частотные диапазоны, снижают активность.
Модель прошла серию тестов: ей предъявлялся образец голоса, а затем смесь нескольких голосов, из которой требовалось распознать конкретное слово целевого говорящего. Результаты совпали с поведением людей в аналогичных экспериментах, включая типичные ошибки — например, затруднения при разделении двух голосов одного пола со схожей высотой тона.
Помимо тональных характеристик, модель самостоятельно научилась использовать пространственное расположение источников звука. Тестирование выявило ранее неизвестную закономерность: разделение голосов по горизонтали значительно облегчает фокусировку внимания, тогда как вертикальное разнесение источников даёт минимальный эффект. Эксперименты с участием добровольцев подтвердили этот вывод.
Команда планирует адаптировать модель для симуляции работы кохлеарных имплантатов с целью улучшения их конструкции и методик обучения пользователей восприятию речи в шумной среде.
Источник:MIT









