Корреспондент «Популярной механики» побывал в лаборатории нейроробототехники Московского физико-технического института в подмосковном Долгопрудном, где команда ученых обучает нейросети читать мысли.
В лаборатории, где ученые из МФТИ создают интерфейс «мозг — компьютер», необычно выглядит только аппаратура для снятия ЭКГ: шапочки с электродами и серая коробка усилителя на столе. Вся суть работы Анатолия Бобе и его коллег — в нейросетях, то есть в обыкновенных компьютерах, поэтому показывать тут почти нечего. Это ученым интересно, что принесли с собой посетители. Большинство заходящих сюда людей на время одалживают ученым собственный
Мысленная кнопка
Лаборатория нейроробототехники сейчас занимается поиском мысленных образов, которые можно достоверно классифицировать по данным электроэнцефалограммы (ЭЭГ). Для этого ученые показывают подопытным подборки коротких видеороликов с YouTube, параллельно снимая ЭЭГ. На экране мелькают то котики, то парашютисты, то горящие дома, то работающие механизмы. Когда человек снимает шапку с электродами и уходит, начинает работать нейросеть, которая учится по данным ЭЭГ определять, на что смотрел человек.
Не все видео срабатывают одинаково хорошо. В опубликованной (пока в препринте) статье описано пять категорий видео, из которых хорошо распознавались только три. Выяснилось, например, что видео с фрактальными узорами совершенно бесполезны: по энцефалограмме, снятой во время их просмотра, нельзя сказать ничего определенного. А вот сюжеты с людьми, которые занимаются экстремальным спортом, видео, где представлены механизмы или лица крупным планом, определяются на ура. Корреспондент «ПМ» пришел спустя несколько недель после публикации, и ему достались новые видеоролики.
Обычно мы заглядываем в «историю» только затем, чтобы выяснить что-нибудь определенное, найти конкретную ссылку. Но сама эта летопись содержит куда больше интересной и, возможно, полезной информации.
Найти такие сюжеты — значит найти мысленные образы, которыми можно пользоваться как командами для будущего интерфейса «мозг — компьютер». Современные игровые интерфейсы и прототипы управляемых силой мысли протезов распознают набор команд, в основном связанных с движением: «вперед», «назад», «вправо» или «влево». Но таких команд очень мало и уж точно недостаточно для будущего нейроинтерфейса, который должен заменить традиционные устройства ввода вроде клавиатуры и мыши. В МФТИ предположили, что в качестве команд можно использовать мысленные образы, которые заменят физические и виртуальные кнопки. Мысль о котике — одна команда, о поезде — другая, о смеющемся человеке — третья: «Чтобы отправить сообщение, вообразите прыжок с парашютом». По крайней мере, так это можно представить сейчас, пока коллектив лаборатории нейроробототехники только начинает работу.
Очень личное
С корреспондента «ПМ» сняли электроды и подвели к экрану, на который вывели результаты ЭЭГ и их предварительную оценку. Оказалось, что шанс определить по электрической активности конкретного
Опыт здесь бесполезен. На каждом человеке система учится заново. Научившись понимать по ЭЭГ Михаила, что он смотрел видео с горящими домами, нейросеть не сможет проделать то же самое с энцефалограммой Ирины, и наоборот. Вероятно, эта особенность нейроинтерфейса сохранится и в более продвинутых версиях системы, в нейроинтерфейсах будущего. Даже если они станут однажды так же распространены, как сегодня интерфейсы оконные, они останутся индивидуальными. Управлять с помощью мысленных образов можно только предварительно обученным на конкретном человеке компьютером.
Ученик волшебника
Нашего корреспондента уверили, что способность нейросети разобраться в энцефалограмме никак не связана с интеллектуальными способностями человека, с которого эту энцефалограмму снимали. Но кое-что от подопытного все-таки зависит. Ведь цель всего предприятия — считывать мысленные образы, которые мы просто воображаем. Поэтому очень важно не только обучить компьютер, но и научить человека правильно воображать картинку, которая работает как нажатие кнопки. Так многие фантасты представляют себе магию — как особое ментальное усилие волшебника. Чтобы наколдовать лягушку, нужно представить себе лягушку.
Основа всякого обучения — закрепление хорошего результата. А как понять, хорош ли результат, если вы изо всех сил воображаете условную лягушку? Для того чтобы люди знали, насколько их ментальные усилия понятны компьютеру, Анатолий и его коллеги проделали очень сложную работу: они научились реконструировать изображение по данным ЭЭГ.
Сразу отметим: эта реконструкция делается не для того, чтобы извлечь из головы мысль. Поэтому фантазии о том, чтобы с помощью подобной техники прочитать мысли или сны (что было бы, конечно, здорово), придется забыть. Реконструированное изображение только отражает то, насколько удачно нейросеть смогла отнести воображаемое к одной из заранее известных категорий.
Реконструированная картинка выводится на экран, и человек получает представление о том, насколько нейросеть разобралась в том, что происходит у него в голове. Реконструкция — продукт серии сложных вычислений. Сначала видео сжимают до очень маленького набора данных. Сжимают с большими потерями, поэтому при восстановлении получается не очень похожая картинка — точнее, множество немного разных картинок, каждая из которых в целом похожа на оригинал. А потом начинается самое интересное: данные ЭЭГ приводят к такому же виду, что и сжатое видео. Анатолий Бобе объясняет: «Это похоже на песочные часы: вверху у нас большой объем данных, в самом узком месте — самый маленький».
Приведя ЭЭГ к виду, соответствующему узкому горлышку песочных часов, ученые могут восстановить его по тому же алгоритму, по которому восстанавливают видео. В результате получается одна из многих возможных для этого набора данных картинок — гораздо более размытая и схематичная, чем оригинал. Все это происходит параллельно самому процессу классификации ЭЭГ нейросетью, которая знает тип видео задолго до того, как появляется реконструированная картинка.
Предел возможностей этой технологии уже почти достигнут, и прорывов не предвидится. Совершенствовать можно только методы анализа данных, чем и занимаются в МФТИ.
Чтобы все это стало возможным, ученым пришлось решить много промежуточных задач — в частности, научить нейросеть правильно читать ЭЭГ, не обращая внимания на помехи. А помех в ЭЭГ много, они появляются при любом сокращении лицевых мышц — например, при моргании. Энцефалограмма меняется и когда человек отвлекается. Мало кто способен пятнадцать минут думать только о происходящем на экране, и Бобе и его коллеги очень гордятся тем, что их система понимает, когда человек задумался о своем и перестал обращать внимание на картинку. Кроме того, ученым удалось доказать, что их система не опирается на электрические сигналы, обусловленные сокращением глазных мышц.
Издержки методики
Пока сложно представить, насколько удобными смогут стать системы, подобные той, что разрабатывают в МФТИ. То, что происходит в лаборатории, доказывает саму возможность отдавать компьютеру мысленные приказы с помощью образов — но пока это выглядит слишком сложно. Необходимо сидеть, не шевелясь, и старательно сосредотачиваться. Процесс обработки данных нейросетью занимает заметное время. Нужно оборудование для ЭЭГ и специальный проводящий гель, похожий на тот, что используется для УЗИ. По окончании процедуры гель высыхает на голове противными белыми хлопьями.
Альтернатив ЭЭГ для нейроинтерфейсов немного. Томография дает больше данных, но она намного дороже, а оборудование для нее более громоздкое. Транскраниальные импланты (как в Neuralink Илона Маска) дают потрясающую точность, но мало кто согласен сверлить череп ради того, чтобы делиться мыслями с компьютером. Поэтому исследователи связывают развитие интерфейсов «мозг — компьютер» все-таки с электроэнцефалографией. Предел возможностей этой технологии уже почти достигнут, и прорывов не предвидится. Совершенствовать можно только методы анализа данных, чем и занимаются в МФТИ. Поэтому, хотя Анатолий и его коллеги действительно научились в некотором смысле «читать мысли», они однозначно утверждают: никто не может читать мысли против желания мыслящего субъекта, а еще невозможно читать все мысли подряд или на расстоянии. В ближайшее время — а может быть, и всегда — такие технологии смогут только реагировать на нажатие мысленных «кнопок».