Обученная многослойная фазовая маска (классификатор рукописных символов). Справа показана физическая модель оптической нейросети D²NN, напечатанная на 3D-принтере: слои 8×8 см с расстоянием 3 см друг между другом
Группа исследователей из Калифорнийского университета в Лос-Анджелесе разработала новый тип нейронной сети, которая в работе использует свет вместо электричества. В журнале Science опубликована статья с описанием идеи, рабочего устройства, его производительности и типов приложений, которые, по их авторов, хорошо вычислять в нейросети нового типа.
Полностью оптический фреймворк глубокого обучения Diffractive Deep Neural Network (D²NN), который физически сформирован из множества отражающих или прозрачных поверхностей. Эти поверхности работают сообща, выполняя произвольную функцию, усвоенную в результате обучения. В то время как получение результата и прогнозирование в физической сети организовано полностью оптически, обучающая часть с проектированием структуры отражающих поверхностей рассчитывается на компьютере.
Итак, в физической модели D²NN состоит из нескольких отражающих или прозрачных слоёв. На этих слоях каждая точка или пропускает, или отражает входящую волну. Таким образом, эта точка представляет собой искусственный нейрон, который соединён с нейронами следующих слоев через оптическую дифракцию. Структура D²NN показана на иллюстрации.
Дифракционная глубокая нейронная сеть (Diffractive Deep Neural Network, D²NN).
На иллюстрации А — схема из нескольких прозрачных/отражающих слоёв, где каждая точка представляет собой нейрон со сложным коэффициентом прозрачности или отражения. Эти коэффициенты выводятся путём глубокого обучения. После фазы обучения дизайн D²NN фиксируется — и на 3D-принтере печатаются соответствующие пластины, которые осуществляют вычисления по функции, полученной в результате предварительного обучения. В отличие от электронных компьютерных сетей, здесь вычисления осуществляются со скоростью света.
В ходе экспериментов учёные обучили и экспериментально опробовали несколько типов D²NN. На иллюстрации В показан классификатор рукописных символов, на иллюстрации С — линза (imaging lens).
В нижней части иллюстрации сравнивается работа дифракционной оптической нейросети (слева) и электронной нейросети (справа). Основываясь на когерентных волнах, D²NN работает с комплексными значениями на входе и мультипликативным смещением. Веса в D²NN основаны на дифракции в свободном пространстве и определяют когерентную интерференцию вторичных волн, которые являются фазой и/или амплитудой, смодулированной предыдущими слоями. Символ "ο" означает операцию произведения Адамара, то есть поразрядное логическое умножение соответствующих членов двух последовательностей равной длины.
Исследователи объясняют, что структура оптической нейросети организована по принципу Гюйгенса, в соответствии с которым каждый элемент волнового фронта можно рассматривать как центр вторичного возмущения, порождающего вторичные сферические волны, а результирующее световое поле в каждой точке пространства будет определяться интерференцией этих волн. Таким образом, искусственный нейрон в D²NN соединён с другими нейронами следующего слоя через вторичную волну, которая модулируется по амплитуде и фазе как входной интерференционной картиной, созданной более ранними слоями, так и локальным коэффициентом передачи/отражения в этой точке.
По аналогии со стандартными глубокими нейросетями можно рассматривать коэффициент передачи/отражения каждой точки/нейрона как мультипликативный термин «смещение» (bias), который итеративно корректируется в процессе обучения дифракционной сети, используя метод обратного распространения ошибки. После численного обучения конструкция D2NN фиксируется и определяются коэффициенты передачи/отражения нейронов всех слоев. Затем можно изготовить рассчитанные слои любым методом: 3D-печать, литография и т. д.
Учёные подчёркивают, что оптическая нейросеть выполняет функцию со скоростью света и не нуждается в энергии. Таким образом, она представляет собой эффективный и быстрый способ реализации задач машинного обучения.
Для проверки идеи исследователи сделали нейросеть, способную распознавать цифры от нуля до девяти — и сообщать результат. После обучения на 55 000 изображений чисел распечатанная семислойная нейросеть показала точность 93,39%.
В распознавании модной одежды и обуви пятислойная нейросеть показала точность 81,13%, десятислойная — 86,60%.
По мнению исследователей, нейросеть оптического типа можно использовать в специализированных устройствах, требующих высокой скорости, таких как определение конкретного лица в толпе движущихся людей.
Научная статья опубликована 26 июля 2018 года в журнале Science (doi: 10.1126/science.aat8084, pdf).
Автор: Анатолий Ализар