Рубрика «gpgpu» - 7

Параллельное программирование с CUDA. Часть 2: Аппаратное обеспечение GPU и шаблоны параллельной коммуникации

2014-12-10 в 15:15, admin, рубрики: CUDA, gpgpu, Udacity, Блог компании EPAM Systems, параллельное программирование

Содержание

Часть 1: Введение.
Часть 2: Аппаратное обеспечение GPU и шаблоны параллельной коммуникации.
Часть 3: Фундаментальные алгоритмы GPU: свертка (reduce), сканирование (scan) и гистограмма (histogram).
Часть 4: Фундаментальные алгоритмы GPU: уплотнение (compact), сегментированное сканирование (segmented scan), сортировка. Практическое применение некоторых алгоритмов.
Часть 5: Оптимизация GPU программ.
Часть 6: Примеры параллелизации последовательных алгоритмов.
Часть 7: Дополнительные темы параллельного программирования, динамический параллелизм.
Читать полностью »

Параллельное программирование с CUDA. Часть 1: Введение

2014-12-10 в 12:22, admin, рубрики: CUDA, gpgpu, Udacity, Блог компании EPAM Systems, параллельное программирование

Еще одна статья о CUDA — зачем?

На Хабре было уже немало хороших статей по CUDA — раз, два и другие. Однако, поиск комбинации «CUDA scan» выдал всего 2 статьи никак не связанные с, собственно, алгоритмом scan на GPU — а это один из самых базовых алгоритмов. Поэтому, вдохновившись только что просмотренным курсом на Udacity — Intro to Parallel Programming, я и решился написать более полную серию статей о CUDA. Сразу скажу, что серия будет основываться именно на этом курсе, и если у вас есть время — намного полезнее будет пройти его.
Читать полностью »

OpenCL 2.0 и драйверы от AMD и Intel

2014-09-29 в 4:25, admin, рубрики: atomic, compare and set, enterprise software development, gpgpu, opencl, pipe, высокая производительность

Незамеченной на хабре прошла новость о появлении OpenCL 2.0 драйверов от AMD и Intel.

Многим кажется, что подобный API просто очередной маркетинговый buzzword. Отчасти это так, потому что почти все современные аппаратные продукты выходят с пунктом «OpenCL» в списке поддерживаемых технологий и рекламе: последние CPU, GPU, APU (CPU+GPU), FPGA, CPU+FPGA. И многим из области разработки enterprise ПО хочется откреститься от этих «модных» названий, но и это скоро станет невозможно стараниями Oracle и AMD.

Массовый параллелизм аппаратного обеспечения уже давно присутствует в серверах, пресональных компьютерах, телефонах и планшетах, специализированных аппаратных ускорителях. OpenCL в области FPGA рассматривается как способ упростить, удешевить и популяризовать разработку. При этом использование преимуществ, предоставляемых аппаратурой, пока требует от программиста использовать таких API как OpenCL, CUDA, OpenMP. Но появляются попытки скрыть эту сложность от прикладных программистов, например Project Sumatra и ScalaCL.

Читать полностью »

Что делать с пыльным GPU, если ты — пентестер. Часть 1: Legacy ATI-AMD RADEON

2014-09-23 в 6:07, admin, рубрики: amd, ati, gpgpu, PSK, radeon, Ubuntu, Беспроводные технологии, информационная безопасность

Привет! Закончилось лето, деревья роняют свои листья на холодную землю, в Новосибирске идет первый снег, а я в это время хочу рассказать небольшую историю о настройке платформы для перебора паролей WPA/WPA2 на базе устаревшей на сегодняшний день видеокарты RADEON HD4890.
Читать полностью »

Параллелим непараллельное или поиск простых чисел на GPU

2014-07-18 в 17:46, admin, рубрики: gpgpu, gpgpu (nvidia cuda), Алгоритмы, параллельное программирование

Одним замечательным летним вечером, я в пылу спора имел глупость заметить, что можно написать быстро работающее решето Эратосфена на CUDA. N = 1000000000 (девять нулей) как цель. And the legend has begun…

Не буду опускаться в подробности алгоритма, о нем можно почитать, например, тут и сразу покажу код, которым я располагал на тот момент:

#include <iostream>
#include <math.h>

using namespace std;

int main()
{
	double number = 1000000000;
	bool* a = new bool[int(number/2)];
	int i,j,result;

	for (i=0; i<number/2; i++)
		a[i] = true;

	for (i=3; i<=floor(sqrt(number)); i+=2)
		if (a[i/2])
			for (j=i*i; j<=number; j+=i*2)
				a[j/2]=false;

	result = 0;
	for (i=0; i<number/2; i++)
		if (a[i]) result++;

	cout << result << endl;

	delete[] a;

	return 0;
}

Однопоточный немного оптимизированный код, который работает на 14-15 секунд на Core i3 330M и затрачивает большое количество памяти. С него и начнем.
Читать полностью »

Нет времени объяснять, придумайте реально сложный пароль к Скайпу

2014-07-12 в 17:58, admin, рубрики: bcrypt, bruteforce, gpgpu, hashcat, md5, microsoft, oclhashcat, scrypt, skype, информационная безопасность

Потому что он хранится в виде хеша типа MD5(user,"nskypern",pass).
В следующей версии утилиты для взлома хешей с использованием GPGPU oclHashcat появится возможность взламывать такие хеши(впрочем это можно делать уже сейчас), скорость перебора таких хешей, а следовательно и ваших паролей, составляет сейчас около 4 GHash/s(млрд.паролей в сек) одной AMD R9 290X.
Читать полностью »

Intel собирается выпустить серверные процессоры Xeon со встроенной FPGA

2014-06-21 в 8:11, admin, рубрики: fpga, gpgpu, intel xeon, высокая производительность, Железо, Процессоры, метки: fpga, gpgpu, intel xeon

Intel собирается выпустить серверные процессоры Xeon со встроенной FPGA
Восьмиядерный процессор Xeon

Корпорация Intel планирует включить в состав своих чипов Xeon программируемую пользователем вентильную матрицу (FPGA). FPGA позволяет пользователю переконфигурировать логику работы интегральной схемы, оптимизировав её под решение конкретной задачи. Это позволяет ускорить некоторые вычисления на порядок, или намного снизить энергопотребление. Другими словами, это позволит каждому пользователю создавать на кристалле Xeon собственный сопроцессор, заточенный под конкретные задачи.
Читать полностью »

Особенности выделения памяти в OpenCL

2014-03-11 в 17:23, admin, рубрики: gpgpu, opencl, метки: gpgpu, opencl

Введение

Здравствуйте, дорогие читатели.

В данном посте я постараюсь рассмотреть особенности выделения памяти для объектов OpenCL.

OpenCL является кросс-платформенным стандартом гетерогенных вычислений. Не секрет, что на нём пишут программы тогда, когда от них требуется скорость выполнения. Как правило, подобный код нуждается во всесторонней оптимизации. Всякий GPGPU-разработчик знает, что операции с памятью зачастую являются самым слабым звеном в скорости работы программы. Так как в природе существует великое множество аппаратных платформ, поддерживающих OpenCL, то вопрос организации объектов памяти зачастую становится головной болью. То, что хорошо работает на Nvidia Tesla, оснащённых локальной памятью и соединённых широкой шиной с глобальной, отказывается показывать приемлемую производительность на SoC, имеющих совершенно иную архитектуру.

Об особенностях выделения памяти для систем с общей памятью CPU и GPU и пойдёт речь в данном посте. Использование типов памяти Image оставим в стороне и сосредоточимся на наиболее общеупотребительном типе Buffer. В качестве стандарта будем рассматривать версию 1.1, как наиболее распространённую. В начале проведём краткий теоретический курс, а затем рассмотрим несколько примеров.

Читать полностью »

Реализация алгоритма BFS на GPU

2014-03-07 в 9:01, admin, рубрики: bfs, CUDA, gpgpu, gpu, Kepler, Nvidia, параллельное программирование, метки: bfs, CUDA, gpgpu, gpu, Kepler, Nvidia

Аннотация

В данной статье хочу рассказать как можно эффективно распараллелить алгоритм BFS — поиск в ширину в графе с использованием графических ускорителей. В статье будет приведен подробный анализ полученного алгоритма. Вычисления выполнялись на одном GPU GTX Titan архитектуры Kepler.

Введение

В последнее время все большую роль играют графические ускорители (GPU) в не графических вычислениях. Потребность их использования обусловлена их относительно высокой производительностью и более низкой стоимостью. Как известно, на GPU хорошо решаются задачи на структурных сетках, где параллелизм так или иначе легко выделяется. Но есть задачи, которые требуют больших мощностей и используют неструктурные сетки. Примером такой задачи является Single Shortest Source Path problem (SSSP) – задача поиска кратчайших путей от заданной вершины до всех остальных во взвешенном графе. Решение данной задачи рассмотрено мной в этой статье. Вторым примером задачи на неструктурных сетках является задача Breadth First Search (BFS) — поиска в ширину в неориентированном графе. Данная задача является основной в ряде алгоритмов на графах. Также она немного проще, чем поиск кратчайшего пути. На данный момент алгоритм BFS используется как основной тест для рейтинга Graph500. Далее рассмотрим, как можно использовать идеи решения задачи SSSP в задаче BFS. Про архитектуру GPU компании Nvidia и об упомянутых алгоритмах уже много написано, поэтому в этой статье я не стану дополнительно писать про это. Так же, надеюсь, что понятия warp, cuda блок, SMX, и прочие базовые вещи, связанные с CUDA читателю знакомы.
Читать полностью »

Реализация алгоритма SSSP на GPU

2014-03-03 в 16:00, admin, рубрики: CUDA, gpgpu, intel, Kepler, Nvidia, метки: CUDA, gpgpu, intel, Kepler, Nvidia

Аннотация

В данной статье хочу рассказать как можно эффективно распараллелить алгоритм SSSP — поиска кратчайшего пути в графе с использованием графических ускорителей. В качестве графического ускорителя будет рассмотрена карта GTX Titan архитектуры Kepler.

Информация

Комментарии

Рекомендуем

Рубрика «gpgpu» - 7

Параллельное программирование с CUDA. Часть 2: Аппаратное обеспечение GPU и шаблоны параллельной коммуникации

Содержание

Параллельное программирование с CUDA. Часть 1: Введение

Еще одна статья о CUDA — зачем?

OpenCL 2.0 и драйверы от AMD и Intel

Что делать с пыльным GPU, если ты — пентестер. Часть 1: Legacy ATI-AMD RADEON

Параллелим непараллельное или поиск простых чисел на GPU

Нет времени объяснять, придумайте реально сложный пароль к Скайпу

Intel собирается выпустить серверные процессоры Xeon со встроенной FPGA

Особенности выделения памяти в OpenCL

Введение

Реализация алгоритма BFS на GPU

Аннотация

Введение

Реализация алгоритма SSSP на GPU

Аннотация

Введение