Рубрика «анализ больших данных»

Привет! Наборы данных для Big Data и машинного обучения экспоненциально растут и надо успевать их обрабатывать. Наш пост о еще одной инновационной технологии в области высокопроизводительных вычислений (HPC, High Performance Computing), показанной на стенде Kingston на Supercomputing-2019. Это применение Hi-End систем хранения данных (СХД) в серверах с графическими процессорами (GPU) и технологией шины GPUDirect Storage. Благодаря прямому обмену данными между СХД и GPU, минуя CPU, на порядок ускоряется загрузка данных в GPU-ускорители, поэтому приложения Big Data выполняются на максимуме производительности, которую обеспечивают GPU. В свою очередь, разработчиков HPC-систем интересуют достижения в области СХД с высочайшей скоростью ввода/вывода — таких, какие выпускает Kingston.

5.8 млн IOPS: зачем так много? - 1
Читать полностью »

Представьте, что вы запускаете инновационный медицинский бизнес — индивидуальный подбор лекарств на основе анализа генома человека. У каждого пациента 3 миллиарда пар генов, и обычному серверу на процессорах х86 потребуется несколько дней на расчеты. Вы знаете, что ускорить процесс можно на сервере с процессором FPGA, который распараллеливает вычисления на тысячи потоков. Он выполнит расчет генома примерно за час. Такие серверы можно взять в аренду в Amazon Web Services (AWS). Но вот незадача — заказчик в лице госпиталя категорически против помещения генетических данных в облако провайдера. Как быть? Kingston и облачный стартап показали на выставке Supercomputing-2019 архитектуру Private MultiCloud Storage (PMCS), которая решает такую задачу.

[Supercomputing 2019]. Мультиоблачное хранилище как сфера применения новых накопителей Kingston DC1000M - 1
Читать полностью »

Компания «Яндекс» заключила контракт с Магнитогорским металлургическим комбинатом (ММК) по созданию проекта «Снайпер», оптимизирующего процессы плавки стали. Оптимизацией займется подразделение Yandex Data Factory занимающееся внедрением технологий анализа больших данных (big data).

Эти технологии используют, чтобы определить оптимальное количество ферросплавов и добавок при производстве стали, исходя из данных по исходному составу и массе и заданных характеристик конечного продукта. Впоследствии решения о составе добавок будут приниматься на основе рекомендаций созданной системы анализа.Читать полностью »

Огромное количество неструктурированной информации — это проблема для eBay, грамотное решение которой позволит персонализировать контент, найти мошенников и повысить прибыль. Поэтому инженеры компании создали новый инструмент для обработки больших данных Pulsar.

Инструмент доступен для всех по опенсорсной лицензии, прямо сейчас он есть на GitHub.

image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js