Сериал: Big Data — как мечта. 4-я серия. Революция мозгов

2015-04-05 в 16:41, admin, рубрики: big data, Hadoop, hana, аналитика, Блог компании Brand Analytics, Блог компании PalitrumLab, веб-аналитика, Исследования и прогнозы в IT, Карьера в IT-индустрии, метки: big data

В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A.

В мире есть множество самых великих книг, которые пережили столетия и даже тысячелетия. Заложенные в этих книгах знания — универсальны. Китайские военные стратегмы, Библия, индийская Махабхарата содержат в том числе шаблоны и каноны, которые могут быть применимы к взаимоотношениям людей и в I, и в XI, и в XXI с XXXI веках. Но промышленной революции XIX-XXI веков (паровозы-космос-компьютеры-интернет) нужна была своя философия.

Уже свыше 100 лет мы используем законы Диалектического материализма (гениальная троица Маркс-Энгельс-Ленин не только свержение монархий, но и были самыми великими мыслителями конца II тысячелетия). Законы отрицания отрицания, борьбы и единства противоречий, перехода количества в качество, цикличность развития — это все и про Big Data тоже.

На рубеже тысячелетий (пафосно, правда? можно проще — в конце 90-х) поисковые машины были простыми — один сервер. Если совсем было денег некуда девать, то два сервера. Раз в полгода-год, с ростом Интернета (тогда было принято писать с заглавной) поисковая машина переносилась на более новую (с 64 Мб памяти и 128Гб дисков на 128/256). Аппорт и Яндекс размещались в нескольких юнитах на Красноказарменной и Смоленке, а самый крутой мировой поисковик Altavista представлял из себя настоящего монстра — 2 сервера от DEC, изделия которых, собственно, и рекламировал поисковик.

Через несколько лет наступил технологический кризис: количество данных уже не помещалось на 1-2 сервера — закономерно сработал «Закон перехода количества в качество» и (очень-очень упрощенно до примитивизма) voila! — на смену старой парадигмы «надо новый крутой сервер (желательно от DEC или Sun)» пришел Google с идеей «много дешевых железок».

Данная парадигма существует и хорошо живет, данных становится все больше, подсистемы становятся системами, но данных еще и еще больше! Закон перехода количества в качество полакомившись «железом» (hard) отрастил новые клыки и вонзил зубки в «мягкое» (soft). Возникали модные OS и языки, новые операционки Гугла или переписанный Яндексом FreeBSD уже не помогали решать новые задачи обработки Big Data, — на лицо очередная революционная ситуация, разродившаяся «детским слоном» Hadoop: много дешевых «железок» дополнились распределенным по всем железкам «мозгами».

Мечта технократа — максимальная децентрализация! Больше данных — просто будет больше «узлов» решетки. Еще больше данных? — Добавим еще железа с «мозгами». Смена задачи для других данных? Просто зальем новые «мысли» в железные мозги. Поскольку каждый узел решетки решает простейшие задачи, то новые «мысли» из стандартных элементов-нейронов сделать быстро и просто.

Уверен, что вы уже продолжили дальше цепочку диалектических законов мироздания. Но в сериале приходится ориентироваться на всех читателей, а не только на Шерлоках Холмсах, так что зафиксируем: материя — это единство пространства и времени, даже термин такой есть — пространство-время. А чтобы человечеству было жить не скучно, то есть ограничение — скорость света. Чем больше данных в решетке Hadoop, тем больше точат зубы Законы диамата.

Самый юморной диалектический закон — Закон отрицания отрицания. Только очередная молодая научная поросль победила прежних стариков-супостатов и отрастила бороды, как приходят внуки и громят отцов — причем, в чем и заложен юмор, под лозунгами дедов!

Hadoop-денцентрализатор не справляется с временнЫм-измерением материи пространства-времени для задач rtBD&A (real-time Big Data & Analytics), в которых появляется такая сущность («гнусность») данных, как временнАя ценность: последние данные имеют важность значительно большую, чем предыдущих.

Следуя цикличности развития появилось централизованное решение — технология IMC (In-Memory Computing): один дорогущий компьютер, в котором, фактически, есть только быстрая память — формально дисковые накопители (самые медленные узлы в цепочке потоков данных) присутствуют, но на 30-х ролях. Все последние (самые важные) данные присутствуют в быстрой памяти, аналитические мозги работают с данными «со скоростью света».

В качестве примера реальной полезности IMC разработки на базе SAP HANA по популярной теме последних лет – интеллектуальные электроэнергетические системы. Основная задача – оптимизация генерации и потребления, и, как следствие – сокращение затрат на электроэнергию. А также оперативный мониторинг и прогнозирование. Каждый дом оснащен «умным счетчиком». Замеры показаний ведутся каждые несколько минут и обрабатываются аналитической системой больших данных, интегрированную с ГИС. В системе можно увидеть общую картину энергопотребления и получить подробную информацию по каждому району и дому: как меняется энергопотребление в зависимости от погодных условий, времени года и суток. И на основе этих реальных и точных данных можно планировать энергоснабжение одного из самых оживленных и энергоемких районов.

Нужен калькулятор с большим количеством нулей, чтобы посчитать выгоду в таких масштабных проектах размером с Манхэтен или Бразилиа. Но текущая стоимость IMC решений (сотни тысяч $) отсекает 99% желающих, значит пока это не массовое решение и поиск продолжается.

Куда пойдем дальше? Ждет ли нас «помесь» Hadoop-IMC, или динамические «гибридные облака» с наборно-изменяемыми «узлами», или переход на молекулярно-химические компьютеры (не зря же природа выбрала такой подход)? Жизнь покажет.

Вот как проходил процесс разработки Платформы rtBD в нашем случае:
1. Первые 3-4 месяца (весна-лето 2012) — облако, подбирались оптимальные наборы «ядра-память». Стоимость размещения данных в облаке на тот период была очень высокая (первый ТБ), а финансов — как у всех всегда, то есть мало.
2. Следующий год (2013) — разовая закупка разнокалиберных серверов (HP) для основных подсистем по результатам облачных экспериментов. Ужимались по дискам, брали немного быстрых, но основные массивы — медленные SATA (10 ТБ).
3. В 2014 году ускорялись и масштабировались — покупка дешевых (по сравнению с HP) серверов с быстрыми дисками. С нашими партнерами апробировали в параллель с основной веткой и ветку на SAP HANA — выигрыш был по скорости до 5 раз, но клиентам был достаточен наш SaaS или более дешевые, чем HANA, облака.
4. 2014-15 год — гибридная распределенная схема, включая клиентский «одна система — один сервер» в распределенной сети потоков данных.
5. Отрицание-отрицания (к п.1): теперь десятки ТБ архивных данных хранятся в супер-дешевых облаках :-)

В следующих сериях поговорим о более насущных для сегодняшнего дня вещах, но в продолжение сказанного: NoSQL или колоночные СУБД, куда плывет «Голубой гигант», откуда растут ноги у слуха, что «данные кончаются».

Big Data — как мечта. 1-я серия
2-я серия: Big Data негатива или позитива?
3-я серия: «Кнопка Обамы»

Автор: OzzyTech

Источник