Вчера, 02.04.2019, корпорация Intel объявила о долгожданном обновлении процессоров семейства Intel® Xeon® Scalable Processors, представленного в середине 2017 года. Новые процессоры базируются на микроархитектуре, получившей кодовое имя Cascade Lake и построены по улучшенному 14-nm технологическому процессу.
Особенности новых процессоров
Для начала взглянем на отличия в маркировке. В предыдущей статье про Skylake-SP мы уже упоминали, что все процессоры делятся на 4 серии — Bronze, Silver, Gold и Platinum. О том, к какой серии принадлежит модель процессора говорит первая цифра номера:
- 3 — Bronze,
- 4 — Silver,
- 5, 6 — Gold,
- 8 — Platinum.
Вторая цифра сообщает о поколении процессора. В случае с семейством Intel® Xeon® Scalable Processors поколения с кодовыми именами:
- 1 — Skylake,
- 2 — Cascade Lake.
Следующие две цифры обозначают так называемый SKU (Stock Keeping Unit). По сути, это просто идентификатор CPU с конкретным набором доступных функций.
Также после номера модели могут идти индексы, обозначаемые одной или двумя буквами. Первая буква индекса обозначает особенности архитектуры или оптимизации самого процессора, а вторая — емкость памяти на сокет.
Для примера, возьмем процессор с обозначением Intel® Xeon® 6240. Расшифруем:
- 6 — процессор серии Gold,
- 2 — поколение Cascade Lake,
- 40 — SKU.
Производительность
Процессоры нового поколения спроектированы с расчетом на использование в сферах виртуализации, искусственного интеллекта, а также высокоэффективных вычислений. Первым заметным изменением стал рост тактовой частоты. Это стало вполне ожидаемо, поскольку существует большое количество серверных приложений, для которых тактовая частота важнее, чем количество процессорных ядер. Например, финансовый продукт 1С, системные требования которого явно говорят, что чем выше частота процессора, тем быстрее конечный пользователь получит результат.
В ряде случаев было увеличено и количество ядер. Для наглядности мы составили сравнительные таблицы нескольких процессоров семейства Intel® Xeon® Scalable Processors первого и второго поколения:
Intel® Xeon® Silver 4114 (10 ядер) |
Intel® Xeon® Silver 4214 (12 ядер) |
|
Тактовая частота | 2.20 GHz | 2.20 GHz |
В режиме Turbo | 3.00 GHz | 3.20 GHz |
Intel® Xeon® Gold 5118 (12 ядер) |
Intel® Xeon® Gold 5218 (16 ядер) |
|
Тактовая частота | 2.30 GHz | 2.30 GHz |
В режиме Turbo | 3.20 GHz | 3.90 GHz |
Intel® Xeon® Gold 6140 (18 ядер) |
Intel® Xeon® Gold 6240 (18 ядер) |
|
Тактовая частота | 2.30 GHz | 2.60 GHz |
В режиме Turbo | 3.70 GHz | 3.90 GHz |
Intel® Xeon® Gold 6144 (8 ядер) |
Intel® Xeon® Gold 6244 (8 ядер) |
|
Тактовая частота | 3.50 GHz | 3.60 GHz |
В режиме Turbo | 4.20 GHz | 4.40 GHz |
Рост тактовой частоты неизбежно влечет за собой повышение тепловыделения. Для флагманских процессоров серии Platinum оно может достигать 205W, что является весьма серьезным испытанием для традиционной воздушной системы охлаждения. Можно предположить, что в обозримом будущем серверные платформы потребуют жидкостного охлаждения.
Как и в предыдущем поколении Skylake SP, процессоры устанавливаются в сокет LGA3647 (Socket P), что обусловлено использованием 6-канального контроллера памяти (максимально до 2-х модулей памяти на канал). Частота памяти составляет 2666 MT/s, однако при использовании процессоров серий 6000 и 8000 можно задействовать память с частотой 2933 MT/s (не более 1 модуля на каждый канал).
Шина Ultra-Path Interconnect, успешно примененная в процессорах первого поколения Intel Xeon SP, осталась и во втором поколении, обеспечивая обмен данными между процессорами на скоростях 9.6 GT/s либо 10.4 GT/s для каждого канала. Это позволяет эффективно масштабировать аппаратную платформу до 8 физических процессоров, оптимизируя пропускную способность и энергоэффективность.
Тесты
Мы начали тестировать процессоры нового поколения с помощью набора тестов SPEC, которые имитируют нагрузку, основанную на решении наиболее насущных жизненных задач. Эти тесты представляют собой как простейшие вычисления, так и расчет различных физических процессов, например, решения задач молекулярной физики и гидродинамики.
На текущий момент у нас готовы результаты некоторых SPEC-тестов для целочисленных вычислений на примере процессоров Intel® Xeon® Gold 6140 и Intel® Xeon® Gold 6240.
Тест | Intel® Xeon® Gold 6140 | Intel® Xeon® Gold 6240 |
500.perlbench_r | 147 | 157 |
531.deepsjeng_r | 127 | 139 |
541.leela_r | 125 | 127 |
548.exchange2_r | 176 | 203 |
Тест | Intel® Xeon® Gold 6140 | Intel® Xeon® Gold 6240 |
600.perlbench_s | 5.67 | 6.33 |
602.gcc_s | 6.95 | 8.74 |
641.leela_s | 3.24 | 3.62 |
648.exchange2_s | 5.94 | 7.90 |
- perlbench_r — урезанная версия языка Perl. Тестовая нагрузка имитирует работу популярной системы защиты от спама SpamAssassin;
- deepsjeng_r — симуляция игры в шахматы. Сервер производит глубинное изучение игровых позиций с использованием алгоритма альфа-бета-отсечения;
- leela_r — симуляция игры в го. В процессе тестирования происходит анализ паттернов движения, а также выборочный поиск по дереву на основе верхних доверительных границ;
- exchange2_r — генератор нетривиальных головоломок судоку. Написанный на языке Fortran 95, он задействует большинство функций обработки массивов;
- gcc_s компилятор языка C. Тестовая нагрузка «собирает» компилятор GCC из исходных кодов для микропроцессорной архитектуры IA-32.
По результатам проведенных тестов становится ясно, что процессоры нового поколения быстрее выполняют целочисленные вычисления по сравнению с предыдущим поколением. С результатами других тестов мы поделимся в одной из следующих статей.
Поддержка Intel® Optane™ DC Persistent Memory
Ускорение работы высоконагруженных баз данных и приложений — это то, чего ожидали все заказчики от грядущего обновления. Поэтому ключевым нововведением стала поддержка памяти Intel® Optane™ DC Persistent Memory, более известной под кодовым именем Apache Pass.
Эта память призвана стать универсальным решением задачи, когда использование DRAM нужного объема экономически невыгодно, а скоростных характеристик даже флагманских SSD-накопителей недостаточно.
Ярким примером может стать размещение баз данных напрямую в памяти Intel® Optane™ DC Persistent Memory, что позволит избежать необходимости постоянного обмена данными между оперативной памятью и устройством хранения данных (особенность, присущая традиционным системам).
Новый тип памяти устанавливается непосредственно в слот DIMM и полностью с ним совместим. Доступны модули со следующим объемом:
- 128 ГБ,
- 256 ГБ,
- 512 ГБ.
Настолько существенные объемы модулей позволят гибко сконфигурировать аппаратную платформу, получив весьма емкое и очень быстрое дисковое пространство для работы высоконагруженных систем. Intel® Optane™ DC Persistent Memory обладает поистине огромным потенциалом для применения, в том числе и для целей машинного обучения.
Ускорение глубинного обучения
Помимо поддержки нового типа памяти инженеры Intel позаботились и об ускорении процесса глубинного обучения. Поскольку для сверточных нейронных сетей часто требуется многократное умножение 8-ми и 16-ти битных значений, новые процессоры получили поддержку инструкций AVX-512 VNNI (Vector Neural Network Instructions). Это позволит оптимизировать и ускорить вычисления в несколько раз.
Лучшая эффективность достигается за счет внедрения следующего набора инструкций:
- VPDPBUSB (для вычислений INT8),
- VPDPWSSD (для вычислений INT16).
Суть в том, чтобы уменьшить количество элементов, обрабатываемых за цикл. Инструкция VPDPWSSD объединяет две инструкции INT16, а также использует константу INT32, чтобы заменить две текущие инструкции PMADDWD и VPADDD. Инструкция VPDPUSB аналогично сокращает количество элементов, заменяя три существующие инструкции VPMADDUSBW, VPMADDWD и VPADDD.
Таким образом, при правильном применении нового набора инструкций можно в два-три раза сократить количество обрабатываемых элементов за цикл и увеличить скорость обработки данных. Соответствующий фреймворк для новых инструкций станет частью таких популярных программных библиотек для машинного обучения, как:
Оптимизация распределения нагрузки
Равномерная загрузка вычислительных ресурсов стала проще с технологией Intel® Speed Select Technology (на процессорах с индексом Y). Суть в том, что каждая операция начинает ассоциироваться с количеством задействованных ядер и тактовой частотой. В зависимости от выбранного профиля каждой операции выделяются ресурсы следующим образом:
- больше ядер, но с пониженной тактовой частотой;
- меньше ядер, но с повышенной тактовой частотой.
Такой подход позволяет наиболее полно утилизировать ресурсы, что особенно важно при использовании виртуализованных сред. Это позволит уменьшить затраты, оптимизировав нагрузку на хосты виртуализации.
Акселерация научных вычислений
Обработка научных данных, особенно при моделировании физических процессов на уровне частиц (например, расчет электромагнитных взаимодействий) требует колоссального количества параллельных вычислений. Эта задача может быть решена при помощи CPU, GPU или FPGA.
Многоядерные CPU универсальны за счет наличия большого количества программных средств и библиотек для обработки данных. Применение GPU для этих целей также весьма эффективно, ведь на них можно запускать тысячи параллельных потоков непосредственно на аппаратных графических ядрах. Существуют удобные для разработки фреймворки, такие как OpenCL или CUDA, позволяющие создавать приложения любой сложности с использованием вычислений на GPU.
Тем не менее, существует еще один аппаратный инструмент, о котором мы уже рассказывали в предыдущих статьях — FPGA. Возможность запрограммировать такие устройства на выполнение специфических вычислений позволяет ускорить обработку данных, частично разгрузив CPU. Подобный сценарий можно реализовать на новых процессорах Cascade Lake в связке с дискретными Intel® Stratix® 10 SX FPGA.
Несмотря на меньшую по сравнению с обычными CPU тактовую частоту, FPGA способен показать производительность в десятки раз выше. Для некоторых видов задач, таких как обработка цифровых сигналов, Intel® Stratix® 10 SX способна показать результаты до 10 TFLOPS (tera floating-point operations per second).
Масштабирование платформ
Ведение бизнеса в реальном времени подразумевает не только стабильность, но и возможность масштабирования on-demand. Хорошим примером может послужить высокопроизводительная платформа SAP HANA, используемая для хранения и обработки данных. Физическое развертывание этой платформы требует весьма мощных аппаратных ресурсов.
Процессоры Intel® Xeon® Scalable созданы таким образом, чтобы превратить многосокетные системы в базовые элементы IT-инфраструктуры, обеспечивая масштабирование для удовлетворения требований бизнес-приложений.
Реализовано это в виде поддержки внешних Node-контроллеров, что позволяет создать конфигурации более высокого уровня, чем может обеспечить одна отдельно взятая платформа. Например, можно создать конфигурацию из 32 физических процессоров, объединив ресурсы нескольких многосокетных платформ в единое целое.
Заключение
Увеличение рабочих частот и процессорных ядер, увеличение производительности, поддержка памяти Intel® Optane™ DC Persistent Memory— все эти улучшения значительно повышают вычислительную мощность каждой платформы, сокращая затраты на количество используемого оборудования и повышая эффективность обработки данных. Принцип масштабируемости, заложенный на уровне архитектуры, позволяет выстраивать IT-инфраструктуру любой сложности и достигать высоких показателей производительности и энергоэффективности.
Поскольку Selectel является партнером Intel уровня Platinum — нашим клиентам уже сейчас доступны для заказа процессоры Intel® Xeon® Scalable нового поколения в серверах произвольной конфигурации.
Если же вам интересно принять участие в тестировании самых новейших технологий, то присоединяйтесь к нашей лаборатории Selectel Lab.
Мы будет рады услышать ваши вопросы и предложения в комментариях.
Автор: Николай Рубанов