Говорим о новых архитектурах как крупных мировых производителей, так и стартапов — waferscale-чипах, тензорных процессорах и устройствах на базе графов.
Подборка по теме:
Фото — Jason Leung — Unsplash
Waferscale для глубокого обучения
При производстве классических процессоров кремниевую подложку делят на индивидуальные кристаллы. Но в случае с waferscale-процессорами полупроводниковую пластину не делят — она становится большим чипом. В результате компоненты оказываются ближе друг к другу, а производительность системы возрастает.
Этот подход использовали инженеры из Cerebras Systems и TSMC, разработав чип для глубокого обучения — Cerebras WSE. Его показали на конференции Hot Chips в конце лета. Устройство представляет собой квадратный кристалл со сторонами в 21,5 см. Он состоит из 1,2 трлн транзисторов, объединённых в 400 тыс. ядер. Эти ядра «общаются» между собой при помощи проприетарной системы Swarm с пропускной способностью 100 Пбит/с.
Разработчики говорят, что чип предварительно оптимизирует вычисления, отфильтровывая нулевые данные в матричных операциях — они составляют от 50 до 98% всех значений. В итоге обучение модели на Cerebras происходит в сто раз быстрее, чем на классических графических процессорах. Однако в NYTimes к подобным заявлениям отнеслись со здоровой долей скептицизма — аппаратное обеспечение пока не тестировали независимые эксперты.
Вычислительные ядра Cerebras программируемые. Их можно оптимизировать для работы с любыми нейросетями. Ожидается, что новая микросхема найдет применение в облачных системах и приложениях для машинного обучения: от беспилотников до голосовых помощников. Пока неизвестно, когда чип поступит в продажу, но ряд компаний уже тестирует его на рабочих нагрузках.
Еще один проект в сфере waferscale-устройств для МО — Silicon Interconnect Fabric (Si-IF). Его разрабатывают в лаборатории Калифорнийского университета. Si-IF представляет собой устройство, объединяющее десятки GPU на одной кремниевой пластине. Разработчики уже представили два прототипа на 24 и на 40 графических процессоров. Их производительность в 2,5 раза превышает возможности классических устройств. Систему планируют использовать в ЦОД.
Тензорные процессоры
В мае 2018 года Google анонсировали TPU v3 — третье поколение своих тензорных процессоров для работы с библиотекой машинного обучения TensorFlow. О технических характеристиках нового устройства известно немного. Продакшн-версия будет изготовлена по 12- или 16-нм техпроцессу. Тепловая расчетная мощность — 200 ватт, производительность — 105 TFLOPS при работе с bfloat 16. Это — 16-битная система представления с плавающей запятой, которую используют в глубоком обучении.
На ряде задач производительность второго поколения Google TPU превысила возможности NVIDIA Tesla V100 в пять раз. Инженеры говорят, что третье поколение в восемь раз мощнее своего предшественника. На чипы даже пришлось установить жидкостное охлаждение.
Фото — Cineca — CC BY
Корпорация планирует перевести на новые тензорные процессоры ряд своих систем: голосового помощника, сервис для обработки фотографий и алгоритм ранжирования поисковых запросов RankBrain. Также компания хочет построить на основе TPU облачные масштабируемые суперкомпьютеры и открыть к ним доступ для ученых, занимающихся исследованием систем ИИ. В конце весны сервис запустили в бета-режиме.
Чипы, работающие со сложными графами
Британский стартап Graphcore разработал чип для задач глубокого обучения — Colossus IPU (Intelligence Processing Unit). Он содержит 1200 ядер и набор специализированных трансцендентных функций. Каждое ядро обрабатывает шесть потоков. Железо работает в паре с программным обеспечением Poplar. Оно компилирует модели и строит на их основе сложные многоступенчатые алгоритмические графы, которые запускаются на IPU-процессорах. Испытания первых образцов Graphcore показали, что они обладают в сто раз большей производительностью, чем традиционные GPU.
Стартап уже поставляет полноразмерную карту PCI-E для серверов. Она имеет в своем составе два IPU-чипа, выполненные по 16-нм техпроцессу и состоящие из 24 млрд транзисторов. Вычислительная мощность такого устройства составляет 125 TFLOPS. Карты рассчитаны на работу в дата-центрах IaaS-провайдеров и автомобилях с автопилотом. Основатели стартапа говорят, что с их устройствами работает более ста клиентов, однако не называют конкретные компании.
Конкуренция в сфере аппаратных устройств для машинного обучения становится все более серьезной. На рынок выходят новые игроки, предлагающие инновационные архитектуры, а именитые компании продолжают наращивать мощности существующих решений. В любом случае это играет на руку владельцам дата-центров, data science инженерам и другим специалистам, развивающим системы искусственного интеллекта.
Партнёрская программа 1cloud.ru. Пользователи нашего облака могут получать доход и сократить расходы на аренду виртуальной инфраструктуры.
Например, мы предлагаем услугу «Частное облако». С её помощью можно развернуть IT-инфраструктуру для проектов любой сложности.
Автор: 1cloud