Рубрика «sse»

Деление беззнаковых 8-битных чисел

2024-12-24 в 11:06, admin, рубрики: amd, intel, ryzen, sse, деление

Введение

Деление — достаточно затратная операция. Например, на CPU Cannon Lake задержки 32-битного деления находятся в интервале 10-15 тактов, а на Zen4 — 9-14 тактов. Задержки 32-битного умножения на обоих CPU составляют 3-4 такта.

Ни в одном из популярных ISA SIMD (SSE, AVX, AVX-512, ARM Neon, ARM SVE) нет целочисленного деления, оно есть только в RISC-V Vector Extension. Однако во всех этих ISA есть деление с плавающей запятой.

В этой статье мы представим два подхода к реализации SIMD-деления 8-битных беззнаковых чисел:

с помощью деления с плавающей запятой,
с помощью алгоритма деления столбиком.

Читать полностью »

Неизвестная Windows 11 23H2 сборки 10.0. 25398.1 на базе Windows Server 23H2. Для геймеров и на старое железо

2024-08-14 в 8:05, admin, рубрики: 23H2, 25398, microsoft, reconstruction, sse, timeweb_статьи, windows 11, операционные системы, реконструкция

Сегодня я буду рассказывать кратко о странной версии Windows (рука не поднимается сказать «Windows 11», так как это не совсем правда) – релизе zn_release на базе сборки 10.0.25398.1, на которой выходил лишь Windows Server 23H2 (только Core) и Azure Stack HCI 23H2 (тоже только Core).

Итак, для начала благодарности за данный материал форуму MyDigitalLife, где активно обсуждаются варианты вивисекции ОС Microsoft, и особенно xinsoЧитать полностью »

Обзор инструкций ARM NEON для тех, кто знаком с MMX-SSE-AVX

2021-03-31 в 7:16, admin, рубрики: avx, AVX2, neon, sse, x86, высокая производительность, обработка изображений

Мир изменился. Я чувствую это в воде, чувствую это в земле, ощущаю в воздухе.

«Властелин колец», Джон Рональд Руэл Толкин

Читать полностью »

SSEGWSW: Server-Sent Events Gateway by Service Workers

2019-10-16 в 10:01, admin, рубрики: Google Chrome, http, javascript, server-sent events, service worker, sse, stream api, WebSocket, Блог компании Tinkoff.ru

Привет!

Меня зовут Саша и я работаю архитектором в Тинькофф Бизнес.

В этой статье хочу рассказать о том, как преодолеть ограничение браузеров на количество открытых долгоживущих HTTP-соединений в рамках одного домена при помощи service worker.

Если хотите — смело пропускайте предысторию, описание проблемы, поиск решения и сразу переходите к результату.

SSEGWSW
Читать полностью »

Разновидности SIMD

2019-02-24 в 17:05, admin, рубрики: avx, AVX2, meshoptimizer, simd, sse, параллельное программирование, Проектирование и рефакторинг, Работа с векторной графикой

Разновидности SIMD - 1 Во время разработки meshoptimizer частенько возникает вопрос: «А может этому алгоритму использовать SIMD?»

Библиотека ориентирована на производительность, но SIMD не всегда обеспечивает значительные преимущества по скорости. К сожалению, SIMD может сделать код менее переносимым и менее ремонтопригодным. Поэтому в каждом конкретном случае приходится искать компромисс. Когда первостепенное значение имеет производительность, приходится разрабатывать и поддерживать отдельные реализации SIMD для наборов инструкций SSE и NEON. В других случаях нужно понять, каков эффект от применения SIMD. Сегодня мы попытаемся ускорить меш-рационализатор (sloppy mesh simplifier) — новый алгоритм, недавно добавленный в библиотеку — используя наборы инструкций SSEn/AVXn.
Читать полностью »

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

2019-02-18 в 15:21, admin, рубрики: avx, AVX2, C, c++, simd, sse, высокая производительность, Процессоры

Предыдущая часть вызвала бурную дискуссию, в ходе которой выяснилось, что AVX/AVX2 на самом деле есть в десктопных CPU, нет только AVX512. Поэтому продолжаем знакомиться с SIMD, но уже с современной его частью — AVX. А так же разберём некоторые комментарии:

медленнее ли _mm256_load_si256, чем прямое обращение к памяти?
влияет ли на скорость использование AVX команд над SSE регистрами?
действительно ли так плохо использовать _popcnt?Читать полностью »

Ускоряем неускоряемое или знакомимся с SIMD

2019-02-17 в 9:17, admin, рубрики: C, c++, simd, sse, высокая производительность, Процессоры

Есть класс задач, которые нельзя ускорить за счёт оптимизации алгоритмов, а ускорить надо. В этой практически тупиковой ситуации к нам на помощь приходят разработчики процессоров, которые сделали команды, позволяющие выполнять операции на большим количеством данных за одну операцию. В случае x86 процессоров это инструкции сделанные в расширениях MMX, SSE, SSE2, SSE3, SSE4, SSE4.1, SSE4.2, AVX, AVX2, AVX512.
В качестве «подопытного кролика» я взял следующую задачу:

Есть неупорядоченный массив arr с числами типа uint16_t. Необходимо найти количество вхождений числа v в массив arr.

Классическое решение, работающее за линейное время выглядит так:

int64_t cnt = 0;
for (int i = 0; i < ARR_SIZE; ++i)
    if (arr[i] == v)
        ++cnt;

В таком виде бенчмарк показывает следующие результаты:

------------------------------------------------------------
Benchmark                     Time           CPU Iterations
------------------------------------------------------------
BM_Count                   2084 ns       2084 ns     333079

Под катом я покажу как его ускорить в 5+ раз.
Читать полностью »

Как у меня сломался String.getBytes(UTF_8) и что я с этим делал

2018-06-19 в 15:23, admin, рубрики: java, sse, детектив, Процессоры

(спойлер) дебажил, дизасемблил и пришел к выводу что проблема в SSE инструкциях

Привет!

Все началось с того что я писал Load тест на Java для внутреннего компонента системы над которой сейчас работаю. Тест создавал несколько потоков и пытался что-то выполнить очень много раз. В процессе выполнения иногда появлялись java.lang.ArrayIndexOutOfBoundsException: 0 ошибки на строчке очень похожей на эту:

"test".getBytes(StandardCharsets.UTF_8)

Читать полностью »

Вдвое мощней за те же деньги! Intel Xeon E5 против E3-серии

2018-03-16 в 5:33, admin, рубрики: 1230v6, 1650v2, 2650v2, 2680v2, 3dmark, 7-zip, avx, cinebench, ddr3, ddr4, EX120.3-008LF, EX127.3-008LH, EX140.3-008LH, intel, MBD-X11SSH-F, MBD-X9SRL-F, PerformanceTest, sse, STSS Flagman, stss.ru, xeon, xeon e3, xeon e5, Блог компании STSS, бюджетный сервер, высокая производительность, купить сервер, производительность процессоров, процессоры intel, сервер, Серверная оптимизация, Системы Флагман, сравнение производительности, Тестирование IT-систем, тестирование процессоров

Вдвое мощней за те же деньги! Intel Xeon E5 против E3-серии - 1 Не так давно мы публиковали статью Сравнение производительности процессоров Intel разных поколений, в которой представлены результаты тестирования 8-ядерных процессоров Intel Xeon E5. С тех пор, по акции, было продано несколько сотен серверов на базе процессоров V1/V2, которые стали достойным аналогом E5-2620V4/2630V3 в таких задачах как: сервер баз данных, терминальный сервер, видеонаблюдение и пр. Но, к сожалению, модельный ряд был ограничен только 2-процессорными платформами, что накладывало дополнительную финансовую нагрузку при использовании 1-процессорных конфигураций. Большое количество запросов побудило нас разработать бюджетную модель 1-процессорного сервера/рабочей станции, которая должна существенно выигрывать по производительности у платформ на базе Xeon E3/Core i7, и при этом конкурировать с ними по цене.
Читать полностью »

Как работает JS: WebSocket и HTTP-2+SSE. Что выбрать?

2017-11-14 в 10:49, admin, рубрики: http, javascript, sse, WebSocket, Блог компании RUVDS.com, разработка, Разработка веб-сайтов

Перед вами — перевод пятого материала из серии, посвящённой особенностям JS-разработки. В предыдущих статьях мы рассматривали основные элементы экосистемы JavaScript, возможностями которых пользуются разработчики серверного и клиентского кода. В этих материалах, после изложения основ тех или иных аспектов JS, даются рекомендации по их использованию. Автор статьи говорит, что эти принципы применяются в ходе разработки приложения SessionStack. Современный пользователь библиотек и фреймворков может выбирать из множества возможностей, поэтому любому проекту, для того, чтобы достойно смотреться в конкурентной борьбе, приходится выжимать из технологий, на которых он построен, всё, что можно.

Как работает JS: WebSocket и HTTP-2+SSE. Что выбрать? - 1

В этот раз мы поговорим о коммуникационных протоколах, сопоставим и обсудим их особенности и составные части. Тут мы займёмся технологиями WebSocket и HTTP/2, в частности, поговорим о безопасности и поделимся советами, касающимися выбора подходящих протоколов в различных ситуациях.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «sse»

Деление беззнаковых 8-битных чисел

Введение

Неизвестная Windows 11 23H2 сборки 10.0. 25398.1 на базе Windows Server 23H2. Для геймеров и на старое железо

Обзор инструкций ARM NEON для тех, кто знаком с MMX-SSE-AVX

SSEGWSW: Server-Sent Events Gateway by Service Workers

Разновидности SIMD

Ускоряем неускоряемое или знакомимся с SIMD, часть 2 — AVX

Ускоряем неускоряемое или знакомимся с SIMD

Как у меня сломался String.getBytes(UTF_8) и что я с этим делал

Вдвое мощней за те же деньги! Intel Xeon E5 против E3-серии

Как работает JS: WebSocket и HTTP-2+SSE. Что выбрать?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «sse»

Введение

Новости

Актуальные темы

Архив