Рубрика «simd»

Разгон Мандельброта: SIMD с бубнами, OpenMP и CUDA

2025-03-22 в 10:16, admin, рубрики: c++, CUDA, openmp, simd, мандельброт, оптимизация

Построение множества Мандельброта — классический пример чрезвычайно параллельной задачи (embarrassingly parallel problem).

Вначале мы разберем наивную реализацию, поиграемся с интринсиками (intrinsics) и, не теряя переносимости, заставим компилятор генерировать нам SIMD-инструкции. Далее добавим многопоточность и в заключение обесценим все наши старания несколькими строчками на CUDA.

Разгон Мандельброта: SIMD с бубнами, OpenMP и CUDA - 1

Читать полностью »

Векторизация в RISC-V. Основы

2025-03-21 в 11:00, admin, рубрики: asic, risc-v, simd, SystemVerilog, векторизация

Многие современные вычислительные задачи, в частности повсеместная обработка изображений и звука или работа с матрицами для ИИ, хорошо поддаются параллелизации на уровне данных. Входные данные таких задач представлены в виде большого вектора данных, элементы которого можно обрабатывать независимо. Чтобы ускорить вычисления с векторами, производители процессоров добавили в архитектуры специальные Single Instruction, Multiple Data инструкции, которые позволяют работать за одну инструкцию сразу с несколькими элементами.

Читать полностью »

О новых алгоритмах хеш-таблиц

2025-03-01 в 13:07, admin, рубрики: simd, swisstable, хеш-таблицы

Хотелось бы прокомментировать публикацию Ильи Кабанова в Медузе по поводу новых разработок в алгоритмах хеширования: "Optimal Bounds for Open Addressing Without Reordering" (Farach-Colton, Krapivin, and Kuszmaul, 2025) и последующую "The Bathroom Model: A Realistic Approach to Hash Table Algorithm Optimization" (Wang, 2025). И особенно кликбейтное: "в перспективе метод Крапивина и его коллег может ускорить многие процессы в интернете."

Я около 7 лет очень плотно занимался темой хеш-таблиц и написал много их вариантов: Читать полностью »

C++26 — встреча ISO в Хагенберге

2025-02-19 в 8:13, admin, рубрики: byte, c++, c++26, c++29, constexpr, contracts, embed, exception, Hive, memory, object pool, reflection, relocation, safety, security, simd, undefined behavior, С++, с++26, с++29

В середине февраля в Хагенберге состоялась встреча международного комитета по стандартизации языка программирования C++.

В этот раз прорабатывались следующие большие темы:

std::hive
Constexpr, ещё больше constexpr
Безопасность, контракты, hardening, профили, UB и std::launder
Relocate
#embed

Читать полностью »

Японские суперкомпьютеры: 40 лет семейству NEC SX

2025-01-22 в 9:00, admin, рубрики: ACOS, cray, GCOS, NEC, NEC SX-1, NEC SX-2, simd, SUPER-UX, sx, SX-ACE, SX-Aurora, SX-OS, Vector Engine, veos

Широко известно, что японцы изобрели аниме, суши и Годзиллу, а также выпустили на рынок большое число популярных ноутбуков настольных ПК. Однако родиной суперкомпьютеров считаются Соединенные Штаты Америки: именно там собирали самые мощные вычислительные машины. Тем не менее, в Японии тоже существовали свои суперкомпьютеры, самыми известными из которых считаются машины линейки NEC SX, появившиеся на свет 40 лет назад.
Читать полностью »

ISO C++ — встреча международного комитета в Польше

2024-11-26 в 7:00, admin, рубрики: byte, c++, c++26, consteval, constexpr, exception, memory, reflection, safety, security, simd, undefined behavior, С++, с++26

В конце ноября состоялась встреча международного комитета по стандартизации языка программирования C++.

ISO C++ — встреча международного комитета в Польше - 1

В этот раз без внимания не остались темы:

Рефлексия времени компиляции и оператор «монобровь»
Constexpr, много constexpr
SIMD
Structured bindings as a pack
Безопасность, контракты, libc++ hardening, профили, UB и std::launder
Сколько бит в байте?

Читать полностью »

Я ускорил генерацию blurhash в 3̶6̶ 8̶7̶ 128 раз

2024-10-11 в 21:44, admin, рубрики: blurhash, clang, compilers, gcc, pillow, simd

Старую собаку новым трюкам не обучишь, вот и я взялся за старое. Blurhash — это компактный способ представления размытой превьюшки изображения в виде ASCII-строки. Разработан финской компанией Wolt (аналог Delivery Club). Давно хотелось внедрить такое к себе в API, чтобы любой клиент мог более плавно и изящно делать загрузку контент на своем сайте. Но сколько я на него смотрел — всегда не давала покоя скорость работы, уж больно медленно и «в лоб» он был написан. Но вот время пришло наконец-то разобраться, что же он так медленно работает.

Читать полностью »

Я написал одну из самых быстрых библиотек датафреймов

2023-05-26 в 14:01, admin, рубрики: CockroachDB, Decode, DuckDB, execute, fetch, Groupby, mysql, postgresql, python, Rust, simd, timeweb_статьи_перевод, Блог компании Timeweb Cloud, Программирование, СУБД

❯ 1. Вступление

У меня в портфолио есть несколько готовых пет-проектов на Rust, и я заметил, что позиция «а у нас уже получилась DataFrame?» нисколько меня не устраивает. Поэтому я подумал, не сделать ли мне элементарный контейнер, который решал бы мою конкретную задачу. Но этот проект вышел из-под контроля.

Год спустя, написав немало кода, я создал одну из самых быстрых библиотек датафреймов, применимую в Rust и Python. Вот мой первый официальный «Hello World» на polars, размещённый у меня в блоге. Надеюсь, что с помощью этого поста я смогу пояснить читателю некоторые решения, которые мне довелось принять при проектировании, и вам станет понятнее, как Polars работает под капотом.
Читать полностью »

Как я разогнал fail2ban* в тысячу раз с помощью SIMD

2022-06-02 в 9:08, admin, рубрики: ddos-защита, fail2ban, nginx, Rust, simd, высокая производительность, конечные автоматы, ненормальное программирование, Регулярные выражения

Fail2ban — утилита чрезвычайно полезная во многих случаях. Думаю, многие используют её для того, чтобы в автоматическом режиме блокировать особенно назойливых «посетителей». К сожалению, если входящий поток становится слишком большим, fail2ban теряет все свои полезные свойства, потому что разбор лога безнадёжно отстаёт от реальности.

Вот, например, лог nginx из 100 тысяч строчек fail2ban при самых простых настройках (failregex='^<ADDR>') разбирает порядка 45 секунд:

$ fail2ban-regex nginx.log '^<ADDR>'

Running tests
=============

Use   failregex line : ^<ADDR>Читать полностью »

Используем клиентский процессор по максимуму. Часть 2: SIMD + мультипоточность

2022-05-24 в 9:00, admin, рубрики: Rust, ruvds_статьи, simd, webassembly, Блог компании RUVDS.com, высокая производительность, мультипоточность, Программирование, фракталы

Снова поговорим об ускорении работы клиентской стороны веб-приложения и о том, как для этого задействовать все вычислительные ресурсы процессора.

В предыдущей части мы нарисовали фрактал Ньютона с помощью WebAssembly на Rust. В этой части мы задействуем SIMD команды и параллельные вычисления, чтобы добиться ещё большей производительности.

Вживую увидеть прирост скорости можно на онлайн-демо. На моём компьютере она составляет ~900% по сравнению с обычной реализацией на wasm.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «simd»

Разгон Мандельброта: SIMD с бубнами, OpenMP и CUDA

Читать полностью »

Векторизация в RISC-V. Основы

О новых алгоритмах хеш-таблиц

C++26 — встреча ISO в Хагенберге

Японские суперкомпьютеры: 40 лет семейству NEC SX

ISO C++ — встреча международного комитета в Польше

Я ускорил генерацию blurhash в 3̶6̶ 8̶7̶ 128 раз

Я написал одну из самых быстрых библиотек датафреймов

❯ 1. Вступление

Как я разогнал fail2ban* в тысячу раз с помощью SIMD

Используем клиентский процессор по максимуму. Часть 2: SIMD + мультипоточность

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «simd»

❯ 1. Вступление

Новости

Актуальные темы

Архив