Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера
Нейроинженеры Колумбийского университета (США) первыми в мире создали систему, которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов (mp3), синтезированных по мозговой активности.
Наблюдая за активностью в слуховой коре головного
Этот научный прорыв с использованием технологий искусственного интеллекта приближает нас к созданию эффективных нейроинтерфейсов, связывающих компьютер непосредственно с
Десятилетия исследований доказали, что, в процессе речи или даже мысленного проговаривания слов в
(А) Сверху показана оригинальная спектрограмма образца речи. Ниже приведены восстановленные слуховые спектрограммы четырёх моделей. (B) Магнитудная мощность частотных полос в течение невокализованной (t = 1,4 с) и вокализованной речи (t = 1,15 с: промежуток показан пунктирными линиями для оригинальной спектрограммы ит четырёх реконструкций)
«Это та же технология, которая используется Amazon Echo и Apple Siri для устных ответов на наши вопросы», — объясняет д-р Нима Месгарани, ведущий автор научной работы. Чтобы научить вокодер интерпретировать мозговую активность, специалисты нашли пятерых пациентов с эпилепсией, уже перенёсших операцию на головном
В результате обработки на выходе нейросети был получен голос робота, произносящий последовательность чисел. Для проверки точности распознавания людям дали прослушать звуки, синтезированные по их собственной мозговой активности: «Мы обнаружили, что люди могут понимать и повторять звуки в 75% случаев, что намного выше и превосходит любые предыдущие попытки», — сказал д-р Месгарани.
Объективные оценки для разных моделей. (A) Средний балл по стандартной оценке ESTOI по всем испытуемым для четырёх моделей. B) Охват и расположение электродов и оценка ESTOI по каждому из пяти человек. У всех оценка ESTOI вокодера DNN выше, чем других моделей.
Сейчас учёные планируют повторить эксперимент с более сложными словами и предложениями. Кроме того, те же тесты запустят для сигналов
Научная статья опубликована 29 января 2019 года в открытом доступе в журнале Scientific Reports (doi: 10.1038/s41598-018-37359-z).
Программный код для проведения фонемного анализа, расчёта высокочастотных амплитуд и восстановления слуховой спектрограммы выложен в открытый доступ.
Автор: alizar