Рубрика «simd» - 3

Ускоряем неускоряемое или знакомимся с SIMD

2019-02-17 в 9:17, admin, рубрики: C, c++, simd, sse, высокая производительность, Процессоры

Есть класс задач, которые нельзя ускорить за счёт оптимизации алгоритмов, а ускорить надо. В этой практически тупиковой ситуации к нам на помощь приходят разработчики процессоров, которые сделали команды, позволяющие выполнять операции на большим количеством данных за одну операцию. В случае x86 процессоров это инструкции сделанные в расширениях MMX, SSE, SSE2, SSE3, SSE4, SSE4.1, SSE4.2, AVX, AVX2, AVX512.
В качестве «подопытного кролика» я взял следующую задачу:

Есть неупорядоченный массив arr с числами типа uint16_t. Необходимо найти количество вхождений числа v в массив arr.

Классическое решение, работающее за линейное время выглядит так:

int64_t cnt = 0;
for (int i = 0; i < ARR_SIZE; ++i)
    if (arr[i] == v)
        ++cnt;

В таком виде бенчмарк показывает следующие результаты:

------------------------------------------------------------
Benchmark                     Time           CPU Iterations
------------------------------------------------------------
BM_Count                   2084 ns       2084 ns     333079

Под катом я покажу как его ускорить в 5+ раз.
Читать полностью »

Небольшой обзор SIMD в .NET-C#

2019-01-12 в 16:30, admin, рубрики: .net, C#, simd, Алгоритмы, векторизация

Вашему вниманию предлагается небольшой обзор возможностей векторизации алгоритмов в .NET Framework и .NETCORE. Цель статьи познакомить с этими приёмами тех, кто их вообще не знал и показать, что .NET не сильно отстаёт от "настоящих, компилируемых" языков для нативной
разработки.

Читать полностью »

Почти все, что вы хотели знать про плавающую точку в ARM, но боялись спросить

2018-07-26 в 9:53, admin, рубрики: C, embox, fpu, neon, simd, STM32F4Discovery, stm32f7discovery, vfp, Блог компании Embox, плавающая точка, системное программирование

Почти все, что вы хотели знать про плавающую точку в ARM, но боялись спросить - 1 Привет! В этой статье я хочу рассказать про работу с плавающей точкой для процессоров с архитектурой ARM. Думаю, эта статья будет полезна прежде всего тем, кто портирует свою ОС на ARM-архитектуру и при этом им нужна поддержка аппаратной плавающей точки (что мы и делали для Embox, в котором до этого использовалась программная реализация операций с плавающей точкой).

Итак, приступим.
Читать полностью »

Ускоряем умножение матриц float 4×4 с помощью SIMD

2018-07-25 в 17:17, admin, рубрики: c++, simd, vectormath

Уже немало лет прошло, как я познакомился с инструкциями MMX, SSE, а позже и AVX на процессорах Intel. В своё время они казались какой-то магией на фоне x86 ассемблера, который уже давно стал чем-то обыденным. Они меня настолько зацепили, что пару лет назад у меня появилась идея написать свой собственный софт рендерер для одной известной игры. Сподвигло меня на это то, какую производительность обещали эти инструкции. В какой-то момент я даже думал об этом написать. Но писать текст оказалось куда сложнее кода.

В то время я хотел избежать проблем с поддержкой на разных процессорах. Хотелось иметь возможность проверить мой рендерер на максимально доступном количестве. У меня до сих пор остались знакомые со старыми AMD процессорами, и их потолок был SSE3. Поэтому на тот момент я решил ограничиться максимум SSE3. Так появилась векторная математическая библиотека, чуть менее, чем полностью реализованная на SSE, с редким включением до SSE3. Однако в какой-то момент мне стало интересно, какую максимальную производительность я смогу выжать из процессора для ряда критичных операций векторной математики. Одной из таких операций является умножение матриц float 4 на 4.

Ускоряем умножение матриц float 4x4 с помощью SIMD - 1

Читать полностью »

Технология MIPS SIMD и процессор Байкал-Т1

2017-05-15 в 12:26, admin, рубрики: mips, MIPS SIMD, simd, Анализ и проектирование систем, Байкал электроникс, Байкал-Т1, высокая производительность, Компиляторы, математика, системное программирование

Коллеги из Байкал Электроникс предложили поработать с процессором Байкал-Т1 [L1] и написать о своих впечатлениях. Для них это способ рассказать разработчикам о возможностях и особенностях своего процессора. Для меня — шанс поближе познакомиться с системой на современном процессорном ядре и в будущем изобретать поменьше "велосипедов", добавляя, к примеру, новую функциональность в проект MIPSfpga-plus [L2]. Ну и обычное инженерное любопытство, опять же...

Сегодня речь пойдет о векторном расширении архитектуры MIPS SIMD, которое доступно в ядрах MIPS Warrior P-class P5600 [L3], а значит присутствует и в процессоре Байкал-Т1. Статья ориентирована на начинающих разработчиков.

Технология MIPS SIMD и процессор Байкал-Т1 - 1

Читать полностью »

Как я сделал самый быстрый ресайз изображений. Часть 0

2017-02-14 в 8:17, admin, рубрики: avx, pillow, pillow-simd, python, simd, sse, uploadcare, высокая производительность, обработка изображений, оптимизация, производительность, ресайз

Здравствуйте, меня зовут Саша, я написал самый быстрый ресайз изображений для современных х86 процессоров. Я так утверждаю, поскольку все остальные библиотеки, которые я сумел найти и протестировать, оказались медленнее. Я занялся этой задачей, когда работал над оптимизацией ресайза картинок на лету в Uploadcare. Мы решили открыть код и в результате появился проект Pillow-SIMD. Любой желающий с легкостью может использовать его в приложении на языке Python.

Любой код выполняется на конкретном железе и хорошей оптимизации можно добиться, только понимая его архитектуру. Всего я планирую выпустить 4 или 5 статей, в которых расскажу как применять знание архитектуры железа для оптимизации реальной задачи. Своим примером я хочу побудить вас оптимизировать другие прикладные задачи. Первые две статьи выйдут в течение недели, остальные — по мере готовности.

Читать полностью »

Векторные вычисления в JS, есть ли смысл, когда и как можно использовать SIMD в браузере

2016-08-28 в 21:11, admin, рубрики: asm, C, javascript, JS, simd, Алгоритмы, векторные исчисления, второй раз прошу не плюсовать, перезалив

Все больше и больше область применения языка программирования javascript отходит от движения кнопочками в браузере да перекраски фона в сторону сложных и объемных веб-приложений. Уже во всю по миру шагает технология WebGL, позволяющая отображать трехмерные сцены в браузере прямо на языке js, а вместе с ней и усложняются задачи.

Производительность пользовательских машин продолжает расти, а вместе с ней и язык обзаводится новыми выразительными средствами, позволяющими ускорять вычисления. И пока WebAssembly где-то там в далеком и светлом будущем, asm.js застрял в болоте и свернул с пути, в ближайшее время изначально как часть es2015, ныне как отдельный стандарт выходит поддержка векторных операций в JS.

Все, кому интересно, что такое SIMD и векторные исчисления, как ими пользоваться в js, а так же что дает их использование — прошу под кат.

Читать полностью »

SIMD инструкции в JS. Что, где, когда и зачем?

2016-08-21 в 22:40, admin, рубрики: es2017, javascript, JS, simd

Представьте себе будущее, когда тяжелые математические пакеты будут написаны на js, при этом не будут уступать по производительности нативным. Красивые динамичные игры прямо в браузере, при этом держат стабильные 60 fps, сложная арифметика, сайты на реакте, в конце концов, перестанут тормозить. Чтобы это стало возможным, языку приходится динамично развиваться и включать в себя достаточно неожиданные вещи, как недавно нашумевший web-assembly, asm.js, typed arrays, так и одна технология, о которой пойдет речь в этой статье.

ES2017 обещает много интересного, но большинство из этого имеют пометку draft, каждый день придумывают что-то новое и отказываются от чего-то старого. Однако, похоже, одна экспериментальная спецификация все таки дорастет до стандарта и позволит делать быстрые математические расчеты на js. Встречайте — SIMD — single instruction multi data. Кому интересно что это такое, как оно себя ведет сейчас и что это технология обещает — добро пожаловать под кат!Читать полностью »

Векторизация кода преобразования координат в пространстве на Intel® Xeon Phi™ с помощью низкоуровневых инструкций

2016-07-13 в 7:35, admin, рубрики: AVX-512, KNC, simd, Алгоритмы, Блог компании Intel, Блог компании Singularis, векторизация, высокая производительность, интринсики, матрицы преобразований, сопроцессор

Введение

При решении задач моделирования движения объектов в трехмерном пространстве практически всегда требуется использование операций пространственных преобразований, связанных с умножением матриц преобразований и векторов. Для задачи N тел эта операция используется многократно для задания поворота и смещения тела относительно начала координат. Матрица пространственного преобразования имеет размерность 4х4, а размерность вектора, к которому применяется преобразование, соответственно 4x1. Рассмотрим оптимизацию выполнения такой операции с большим числом матриц и векторов под архитектуру Intel® Xeon Phi™.

Читать полностью »

Pillow-SIMD

2016-05-24 в 10:00, admin, рубрики: AVX2, gaussian blur, image processing, image resize, imagemagick, pillow, pillow-simd, python, simd, SSE4, высокая производительность, обработка изображений

Ускорение операций в 2.5 раза по сравнению с Pillow и в 10 по сравнению с ImageMagick

Pillow-SIMD - 1

Pillow-SIMD — это «форк-последователь» библиотеки работы с изображениями Pillow (которая сама является форком библиотеки PIL, ныне покойной). «Последователь» означает, что проект не становится самостоятельным, а будет обновляться вместе с Pillow и иметь ту же нумерацию версий, только с суффиксом. Я надеюсь более-менее оперативно выпускать версии Pillow-SIMD сразу после выхода версий Pillow.

Почему SIMD

Есть несколько способов улучшения производительности обработки изображений (да и всех остальных вещей, наверное, тоже).

Можно использовать более хорошие алгоритмы, которые дают такой же результат.
Можно сделать более быструю реализацию существующего алгоритма.
Можно подключить больше вычислительных ресурсов для решения той же задачи: дополнительные ядра CPU, GPU.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «simd» - 3

Ускоряем неускоряемое или знакомимся с SIMD

Небольшой обзор SIMD в .NET-C#

Почти все, что вы хотели знать про плавающую точку в ARM, но боялись спросить

Ускоряем умножение матриц float 4×4 с помощью SIMD

Технология MIPS SIMD и процессор Байкал-Т1

Как я сделал самый быстрый ресайз изображений. Часть 0

Векторные вычисления в JS, есть ли смысл, когда и как можно использовать SIMD в браузере

SIMD инструкции в JS. Что, где, когда и зачем?

Векторизация кода преобразования координат в пространстве на Intel® Xeon Phi™ с помощью низкоуровневых инструкций

Введение

Pillow-SIMD

Ускорение операций в 2.5 раза по сравнению с Pillow и в 10 по сравнению с ImageMagick

Почему SIMD

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «simd» - 3

Введение

Ускорение операций в 2.5 раза по сравнению с Pillow и в 10 по сравнению с ImageMagick

Почему SIMD

Новости

Актуальные темы

Архив