Рубрика «BigData» - 8

Рецепт «Быстрых данных» на основе решения для больших данных

2015-01-13 в 6:51, admin, рубрики: big data, BigData, EMC, Hadoop, high performance, Isilon, Блог компании EMC², высокая производительность, производительность, разработка, системы хранения данных, СХД, хранение данных

source: http://searchsoa.techtarget.com/photostory/2240203721/Five-potential-big-data-problems-and-solutions/5/Velocity-Catch-it-Capture-fast-moving-data-and-use-it

^{Источник изображения}

При обсуждении работы с большими данными, чаще всего затрагиваются вопросы аналитики и проблемы организации процесса вычислений. Нам с коллегами выпала возможность поработать над задачами другого рода – ускорением доступа к данным и балансированием нагрузки на систему хранения. Ниже я расскажу о том, как мы с этим справились.

Свой «рецепт» мы смастерили из уже существующих «ингредиентов»: железки и программного инструмента. Сначала я расскажу, каким образом перед нами возникла задача ускорения доступа. Затем рассмотрим железку и программный инструмент. В заключение поговорим о двух проблемах, с которыми нам пришлось столкнуться в ходе работы.
Читать полностью »

О Nutanix, Web-Scale, конвергентных платформах и смене парадигм построения IT инфраструктур

2014-10-19 в 21:45, admin, рубрики: acropolis, azure, azure pack, big data, BigData, ESXi, hyper-v, hyperv, kvm, openstack, rest api, vcloud, vdi, vSphere, акрополис, Блог компании Nutanix, виртуализация, катастрофоустойчивость

Возможно, вы уже слышали достаточно новый для рынка не_онлайн проектов термин — Web-Scale IT, который по мнению Gartner в 2017 году займет не менее 50% рынка корпоративного IT.

В этом году — это один из основных модных терминов.

Ситуация на корпоративных рынках сейчас активно напоминает фразу про подростковый секс — все говорят что имели (= умеют), но реально — дела обстоят невесело.

Буквально каждый вендор рассказывает про BigData, конвергентные решения, перспективы и прочее.

Мы в свою очередь смеем надеяться, что у нас с этим реально все весьма неплохо, но тут всегда виднее со стороны и ваше мнение может не совпадать с нашим.

Все же попробуем рассказать о том, как мы пытаемся изменить рынок, который в ближайшее время будет составлять десятки миллиардов долларов ежегодно и почему мы считаем что время традиционных решений для хранения и обработки данных подходит к своему закату.

Читать полностью »

Базы данных и NoSQL (Гл. 4 книги «Масштабируемые и высокопроизводительные веб-приложения»)

2014-08-18 в 21:24, admin, рубрики: BigData, nosql, sql, Модель данных, транзакции

В этой главе мы обсуждаем базы данных, реляционные и NoSQL, которые работают на одной машине. Именно этот режим работы будет являться тем кирпичиком, на котором строятся распределенные базы данных.

Читать полностью »

IT — плохая наука

2014-08-06 в 16:23, admin, рубрики: BigData, highload, высокая производительность, идиоты, Программирование, производительность

Мы заворачиваем бинарные данные в base64 чтобы гонять их по текстовым протоколам…

Читать полностью »

Работа с геолокациями в режиме highload

2014-07-01 в 18:05, admin, рубрики: big data, BigData, geo, highload, postgis, postgresql, Алгоритмы, Геоинформационные сервисы, метки: BigData, geo, highload, postgis, postgresql, Алгоритмы

При разработке ПО часто возникают интересные задачи. Одна из таких: работа с гео-координатами пользователей. Если вашим сервисом пользуются миллионы пользователей и запросы к РСУБД происходят часто, то выбор алгоритма играет важную роль. О том как оптимально обрабатывать большое количество запросов и искать ближайшие гео-позиции рассказано под катом.

Читать полностью »

Грань между карго-культом и эволюцией в обучении успеху

2014-06-23 в 8:01, admin, рубрики: BigData, growth hacking, gtd, истории неуспеха, истории успеха, обучение, стартапы, управление проектами, успех, эволюция, метки: BigData, истории неуспеха, истории успеха, обучение, стартапы, успех, эволюция

Предприниматели с большим энтузиазмом берут на вооружение инструменты верификации будущей прибыли. Идея A/B-тестирования упала в благодатную почву. Больше нет необходимости ломать голову над цветом кнопки, можно сразу же тестировать и выбирать лучшее.

Напомню как это делается: вы создаете две страницы, разница которых будет заключаться только в цвете кнопки “оформления заказа”. Затем вы, случайным образом, половине посетителей сайта показываете страницу №1, а другой половине — страницу №2. В результате, на одной из страниц, пользователи нажмут кнопку оформления заказа больше, чем тоже самое количество других пользователей на другой странице.

Следует ли из этого, что цвет кнопки влияет на количество оформленных заказов? Давайте проведём мысленный эксперимент. У нас будет две команды, по пять человек в каждой. Одна команда будет в красных футболках, другая — в синих. Каждый член команды будет подбрасывать монетку и записывать что выпало: орёл или решка. Пусть каждый подбросит монетку, скажем, три раза. После, посчитаем количество полученных “орлов” для каждой из команд.

Мы увидим, что одна из команд набрала больше “орлов” чем другая. Можно ли сделать вывод, что цвет футболки определил победителя? Следует ли нам одевать красную (синию) футболку, когда мы собираемся зарабатывать больше “орлов”?
Читать полностью »

Google Photon. Обработка данных со скоростью света*

2013-12-26 в 22:00, admin, рубрики: big data, BigData, Google, photon, Realtime, высокая производительность, метки: BigData, Google, photon, Realtime

Photon – масштабируемая, отказоустойчивая и географически распределенная система обработки потоковых данных в режиме реального времени. Система является внутренним продуктом Google и используется в Google Advertising System. Research paper [5], описывающие базовые принципы и архитектуру Photon, был представлен на научной конференции ACM SIGMOD в 2013 году.

В paper [5] заявлено, что пиковая нагрузка на систему может составлять миллионы событий в минуту со средней end-to-end задержкой менее 10 секунд.
* 'Скорость света' в заголовке — ~~наглая ложь~~ гипербола.

Google Photon. Обработка данных со скоростью света*
Читать полностью »

Dremel. Как Google считает в real-time?

2013-12-25 в 20:46, admin, рубрики: big data, BigData, Google, Realtime, высокая производительность, метки: BigData, Google, Realtime

Dremel – масштабируемая система обработки запросов в режиме близком к режиму реального времени (near-real-time), предназначенная для анализа неизменяемых данных [4].

Авторы research paper [4] (среди которых, судя по всему, и наши соотечественники — Сергей Мельник и Андрей Губарев), в котором описываются базовые принципы и архитектура Dremel, заявляют, что система в силах:

выполнять агрегирующие запросы над боле чем над триллионом строк за секунды;
масштабируется на тысячи CPU;
предназначена для работы с петабайтами данных;
имеет тысячи пользователей внутри Google (дословно «at Google» [4]).

Dremel. Как Google считает в real time?
Читать полностью »

ETL-процесс с использованием веб-сервисов в Integration Services 2012

2013-10-19 в 20:13, admin, рубрики: big data, BigData, Business Intelligence, c#.net, data mining, datamining, etl, MS Sql Server, SSIS, XML, метки: BigData, Business Intelligence, c#.net, datamining, etl, MS Sql Server, SSIS, XML

Запасаем впрок

Иногда в процессе работы бывают нужны данные из веб-сервисов, тем более SOAP соединения сегодня практически стандарт.

ETL-процесс (Extract — Transform — Load) это термин из Business Intelligence и описывает процесс сбора и трансформации данных для создания аналитической базы данных (например хранилища данных).

SOAP протокол обмена данных и веб-сервисы описываемые WSDL — распространенные окна в мир практически всех ERP систем, многих онлайн порталов и финансовых организаций.

Попробую описать пошагово ETL процесс с помощью одного из мощнейших инструментов в классе — MS Integration Services.

Итак, рассмотрим тестовую задачу.

Задача

Необходимо собрать данные о курсах валют по отношению к рублю на каждую дату прошлого года и загрузить их в таблицу для последующего анализа. Центробанк России предоставляет историчекие данные — в виде веб сервисов с неплохим описанием.
Похоже это и есть решение.
Читать полностью »

Данные в MarkLogic Server [Part2]

2013-09-27 в 12:12, admin, рубрики: big data, BigData, data mining, nosql, XML, метки: BigData, data mining, nosql, XML

Еще немного о том как MarkLogic Server хранит данные.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «BigData» - 8

Рецепт «Быстрых данных» на основе решения для больших данных

О Nutanix, Web-Scale, конвергентных платформах и смене парадигм построения IT инфраструктур

Базы данных и NoSQL (Гл. 4 книги «Масштабируемые и высокопроизводительные веб-приложения»)

IT — плохая наука

Работа с геолокациями в режиме highload

Грань между карго-культом и эволюцией в обучении успеху

Google Photon. Обработка данных со скоростью света*

Dremel. Как Google считает в real-time?

ETL-процесс с использованием веб-сервисов в Integration Services 2012

Запасаем впрок

Задача

Данные в MarkLogic Server [Part2]

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «BigData» - 8

Запасаем впрок

Задача

Новости

Актуальные темы

Архив