Главная

Чипы Intel Myriad X и их масштабируемость в инференсе нейронных сетей

2019-11-30 в 19:07, admin, рубрики: аппаратное обеспечение, инференс, искусственный интеллект, нейронные сети

Нейростики Intel NCS2, чипы Myriad X, решения сторонних производителей — компания Intel продвигает решения на базе Myriad X в самых различных вариантах.

Чем же так хороши эти ускорители? Во-первых, стоимостью одного FPS. Во-вторых, полной совместимостью с OpenVINO, где можно перенести существующие решения с CPU/GPU на стик или MyriadX без их доработки или дополнительной адаптации. Конечно же, адаптация это не особенность VPU, а, скорее, особенность OpenVINO, где каждая обученная сеть может работать на любой выбранной аппаратной платформе, будь то CPU, GPU, FPGA, VPU и выбор может быть сделан не до разработки, а после.

Рассмотрим основные показатели стиков и чипов, установленных в них, в инференсе нейронных сетей на базе топологий UNET 576x384 и Darknet19 MMR (распознавание мерок и моделей ТС):

Основные показатели Intel NCS2 в инференсе нейронных сетей UNET, Darknet19
Основные показатели Intel NCS2 в инференсе нейронных сетей UNET, Darknet19

Соответственно, при низкой стоимости мы имеем высокую эффективность применения данных устройств. А что если мы говорим об инференсе входящих видеопотоков, например, RTSP Ful HD 15 FPS H.264/H.265 в рамках серверной инфраструктуры? Стики в сервер не поставишь, все-таки это решения для дома или для экспериментов:

NSC2
Intel Neural Compute Stick

В серверном инференсе сейчас часто применяются GPU nVidia Tesla 4, Tesla V100. Но есть и вариант от Intel с Myriad X на борту – это Intel Vision Accelerator, специализированное узкопрофильное решение под PCIe или M.2 в зависимости от модификации и количества чипов на плате. Ниже представлена PCIe модификация платы:

Intel Vision Accelerator
Intel Vision Accelerator

Здесь есть три основных модификации – платы с 1, 2, 8 Myriad X на борту форматов M.2, M-PCIe или полноразмерного PCIe. Вот основные характеристики и требования:

Модификации Intel Vision Accelerator с 1, 2, 8 Myriad X на борту
Модификации Intel Vision Accelerator с 1, 2, 8 Myriad X на борту

Рассмотрим модификации плат от UP Board, например, UP Core AI. Подобные устройства часто применяются в инференсе в непосредственной близости от камеры или иных автономных малогабаритных устройствах, что позволяет значительно сэкономить драгоценные ресурсы имеющихся устройств и не требует их полной замены при дополнении имеющейся функциональности навыками искусственного интеллекта.

Up Core
Up Core

А что делать, если требуется большая плотность?

Интересное решение — с полноразмерная несущая плата PCIe x4 и 8-ю блейдами, в рамках каждого из которых установлено по 8 чипов Myriad X MA2485. Фактически, это блейд система на шине PCIe, где в рамках несущей платы может быть установлено от 1 до 8 планок по 8 ускорителей инференса на каждой. В итоге — это промышленное масштабируемое решение с высокой плотностью VPU для сегмента Enterprise.

Все блейды в системе отображаются как множество плат HDDL по 8 ускорителей на каждом. Это позволяет задействовать множество как под инференс одной задачи с множеством входящих потоков, так и под множество разных задач.

Myriad X Blade Board
Myriad X Blade Board

В решении используется PLX на 12 линий PCIe, 8 из которых идут на 8 блейдов, по одной линии на каждый, а 4 на материнскую плату. Далее, каждая линия идёт на PCIe-USB свич, где 1 порт используется для соединения, а 8 проброшены на каждый подключенный Myriad X.

Общее энергопотребление платы с 64 чипами не превышает 100 Вт, но допускается в том числе и последовательное подключение нужного числа блейдов, что пропорционально сказывается и на энергопотреблении.

Итого в рамках одной полноразмерной платы PCIe мы имеем 64 Myriad X, а в рамках серверного решения на платформе, например, от Supermicro 1029GQ-TRT, 4 платы в форм-факторе 1U, т.е. 256 чипов Myriad X для инференса на 1U.

Supermicro 1029GQ-TRT
Supermicro 1029GQ-TRT

Если сравнивать решение на базе Myriad X с nVidia Tesla T4, то разумно рассматривать топологию ResNet50, в которой VPU дает 35 FPS. Итого мы имеем 35 FPS/Myriad X * 64 штуки = 2240 FPS/плата и 8960 FPS/сервер 1U, что сравнимо с показателями batch=1 nVidia Tesla V100, при стоимости ускорителя на Myriad X значительно меньше. Не только стоимость показывает целесообразность использования Myriad X в инференсе, а в том числе, возможность параллельного инференса различных нейронных сетей, а также эффективность в части тепловыделения и энергопотребления.

Автор: Вячеслав

Источник