Мысли прочитали с рекордной точностью
|
|
Кейси Харрелл, 47-летний активист движения за изменение климата, потерял голос из-за бокового амиотрофического склероза (БАС) 5 лет назад. Нейродегенеративное заболевание ослабило связи между моторной корой его головного мозга и мышцами, управляющими языком, губами и гортанью, в результате чего он не мог произносить внятные слова.
|
|
Но благодаря мозговому имплантату в сочетании с алгоритмом машинного обучения Харрелл теперь может “говорить” компьютеризированным голосом, генерируемым со скоростью, неотличимой от естественной речи, — намного быстрее, чем это было возможно при использовании подобных интерфейсов мозг-компьютер раньше. Система голосового протезирования, описанная сегодня в журнале Nature, даже позволяет ему выделять слова в предложении и напевать простые мелодии, приближая технологию как никогда к речи, которая звучит естественно и спонтанно.
|
|
“Это очень большой шаг вперед”, - говорит нейробиолог Мигель Ангрик из Университета Джона Хопкинса, который не принимал участия в исследовании. По словам Энгрика, до того, как он увидел результаты, он предполагал, что потребуется еще 10-15 лет, чтобы создать коммерчески доступную систему, воспроизводящую речь на основе активности мозга в режиме реального времени. “С этой работой я мог бы предположить, что мы увидим прогресс намного раньше”, - говорит он.
|
|
|
|
Исследователи десятилетиями пытаются восстановить речь, чаще всего имплантируя наборы электродов в мозг человека, когда он проходит хирургическую операцию по поводу других заболеваний. Такие устройства регистрируют нейронную активность той части мозга, которая координирует движения рта и горла, необходимые для речи. Алгоритмы машинного обучения могут быть обучены связывать паттерны нейронной активности со словами из заранее определенного словаря, когда человек говорит или пытается произнести их вслух. В более ранних исследованиях этого подхода участники, парализованные в результате инсульта или заболевания мозга, могли научиться “говорить” на основе репертуара из десятков тысяч слов.
|
|
Но эта речь звучала с задержкой, поскольку языковая модель обрабатывала каждое слово, что затрудняло естественную беседу. Поэтому нейробиологи из Калифорнийского университета в Дэвисе Сергей Ставиский, Майтрейи Вайрагкар и их коллеги попытались создать систему, которая могла бы мгновенно синтезировать речь. Харреллу, который может издавать звуки, но больше не может говорить разборчиво, во время более раннего исследования уже имплантировали набор из 256 электродов в моторную кору головного мозга. В новой работе он попытался произнести предложение, показанное на экране, в то время как алгоритм научился связывать активность его мозга с формой сигнала этого предложения, созданного компьютером.
|
|
Как только алгоритм был обучен, система смогла регистрировать активность тысяч нейронов, быстро распознавать звуки любого слова, которое Харрелл хотел произнести, и читать его вслух искусственным голосом. Этот подход позволил Харреллу произносить слова, которых алгоритм никогда не видел, бессмысленные слова и междометия, такие как “фууу” и “хм”. Исследователи обнаружили, что они также могут определять нейронную активность, связанную с другими особенностями естественной речи, такими как ударение на отдельных словах в предложении и повышение тембра голоса в конце фразы. конец вопроса. Харрелл мог даже пропеть несколько нот в простой мелодии.
|
|
Возможно, самое примечательное, что усовершенствования в алгоритме и большое количество имплантированных электродов позволили компьютеру воссоздать речь Харрелла с задержкой в 25 миллисекунд - примерно столько же времени требуется голосу человека, чтобы достичь его собственных ушей, и примерно в 40 раз меньшей задержкой, чем сообщалось ранее с другими имплантатами. (Чтобы обучить модель, он намеренно говорил медленно, чтобы повысить точность.)
|
|
Добровольцы, которых попросили оценить, насколько хорошо они понимают Харрелла, ответили, что воспринимали 60% того, что он говорил, используя интерфейс, по сравнению с 4% слов, которые он произносил без него. Это все еще далеко от точности в 98%, достигнутой с помощью системы преобразования мозга в текст, которую Харрелл использует изо дня в день, разработанной группой Ставиского и использующей большие языковые модели для анализа мозговой активности, собранные с помощью того же имплантата, для определения и произнесения каждого слова после того, как он попытается его произнести. Но такие подходы требуют, чтобы люди обменивались информацией по очереди. “Ты не можешь перебивать людей, ты не можешь возражать, ты не можешь петь”, - говорит Ставиский.
|
|
“На мой взгляд, это действительно так”, - говорит нейробиолог Кристиан Херфф из Маастрихтского университета, который не принимал участия в работе. “Мы получаем реальную беседу, а не общение, подобное WhatsApp”. Поскольку алгоритм обучен распознавать и воспроизводить звуки вместо заранее заданных английских слов, людям должно быть легко говорить на нескольких языках без переобучения модели, говорит Херфф. Это может быть особенно полезно для тональных языков, таких как китайский, в котором ударение на слоге и его высота могут кардинально изменить его значение. По словам Энгрика, это, вероятно, может даже воссоздать акцент человека.
|
|
Главный вопрос сейчас, по словам Херффа и Энгрика, заключается в том, насколько хорошо этот подход применим к другим людям с различными типами речевых нарушений, например, вызванных повреждением различных частей мозга в результате инсульта. Энгрик добавляет, что пока неизвестно, будет ли устройство продолжать работать по мере прогрессирования БАС у Харрелла и дегенерации моторной коры головного мозга.
|
|
Новое клиническое исследование, проведенное соавтором статьи в Nature Дэвидом Брэндманом из Калифорнийского университета в Дэвисе, может вскоре дать ответ на этот вопрос. Исследователи планируют имплантировать различные устройства, содержащие до 1600 электродов, людям, которые потеряли дар речи в результате инсульта или нейродегенеративного заболевания. (Стависки, Вайрагкар и Брэндман лицензировали интеллектуальную собственность, относящуюся к компаниям, работающим над нейронным протезированием.) По словам Вайрагкара, предоставление участникам дополнительных электродов может сделать их речь, генерируемую мозгом, еще более понятной, чем речь Харрелла. “Мы хотим сделать его достаточно надежным, чтобы он использовался в повседневном общении и беседах”.
|
|
Источник
|