Учёные с помощью ИИ в четыре раза ускорили преобразование мыслей в речь через нейроинтерфейс
Искусственный интеллект научился «читать мысли» людей, потерявших речь, со скоростью 78 слов в минуту — это в четыре раза быстрее, чем предыдущие рекорды. Новая технология не просто переводит мозговую активность в текст, но и воспроизводит голос, мимику и даже эмоции пациента, возвращая ему возможность полноценного общения. Ученые из Калифорнийского университета в Сан-Франциско (UCSF) и Беркли совершили прорыв в области нейроинтерфейсов, который может кардинально изменить жизнь тысяч людей с тяжелыми нарушениями речи.
Как нейроинтерфейсы возвращают голос: от 18 до 78 слов в минуту
В основе технологии лежит система из 253 электродов, имплантированных непосредственно в речевую зону коры головного мозга. Датчики фиксируют активность нейронов в тот момент, когда пациент мысленно пытается произнести слова. Алгоритм машинного обучения, обученный на словаре из 1024 слов, распознает эти сигналы и преобразует их в текст. Ключевой прорыв — использование фонем, базовых единиц звука. Всего 39 фонем позволили системе быстро обучиться и затем масштабировать словарный запас пациентки до 125 тысяч слов.
Распознавание эмоций и создание аватара
Уникальность разработки не только в скорости декодирования (78 слов в минуту при уровне ошибок 25%), но и в способности ИИ распознавать эмоциональную окраску мысленной речи — горе, радость, удивление. На основе старых видеозаписей ученые синтезировали цифровой аватар пациентки, который озвучивает текст с соответствующей интонацией и мимикой. Таким образом, технология восстанавливает не просто коммуникацию, а полноценное социальное взаимодействие.
Нейродегенеративные заболевания, инсульты и травмы часто разрушают естественный канал связи между мозгом и мышцами, отвечающими за артикуляцию. Имплантируемые нейроинтерфейсы выступают в роли «мостика», обходя поврежденные участки. Алгоритм учится интерпретировать сигналы здоровых зон коры, которые все еще генерируют команды для речи, даже если мышцы лица их не выполняют.
На сегодняшний день главным ограничением остается необходимость постоянного подключения к стационарному компьютеру и длительный период обучения нейросети для каждого конкретного пациента. Однако исследователи уже работают над созданием беспроводной версии транслятора, что позволит пользователям быть мобильными и не привязанными к лабораторному оборудованию.
Попытки декодировать речь из мозговой активности предпринимаются уже более десяти лет. Ранние разработки позволяли набирать текст со скоростью около 8-10 слов в минуту, что делало общение медленным и затруднительным. Нынешний скачок до 78 слов в минуту приближает технологию к порогу комфортного диалога, хотя обычный разговорный темп в 150-160 слов в минуту пока остается недостижимым.
Создание полноценного двустороннего интерфейса «мозг-компьютер» способно не только вернуть речь парализованным пациентам, но и изменить подход к реабилитации после инсультов. Возможность передавать эмоции через аватар решает проблему деперсонализации общения, которая часто возникает при использовании синтезаторов речи. В перспективе, когда технология станет беспроводной и компактной, она может полностью интегрировать людей с тяжелыми нарушениями моторики в социальную и профессиональную среду, дав им возможность работать, учиться и поддерживать личные отношения на равных.















