В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В новой серии впервые упомянем о новом E-ngine — воплощении мечт IBM, Google и др.
Только ленивый (включая и сценаристов нашего сериала) уже не высказался со своим мнением по поводу «Who is Big Data?» Сегодня давайте порассуждаем не про объемы, а на скорострельность потоков данных. Англоязычное слово Bolt имеет так много смыслов, что легко можно подобрать другой смысл для двухбуквия BD вместо Big Data — Bolt Data, в том числе: удар молнии, вылетать, выболтать, говорить быстро и невнятно.
Модное поветрие обращать внимание только на объемы (Big) уже привело к массовому разочарованию обычного населения. Вот выступает на очередной конференции очередной представитель очередного портала, скажем, с базой данных резюме: «У нас настоящая огромная Биг Дата! 20 миллионов резюме! В прошлом месяце мы переехали на новый 8-64-192-ядерный сервер с 4-8-32 ТБ памяти!»
Дышим ровно и представляем картинку Древнего Египта: 20 000 рабов перетаскивают огромные каменные блоки и возводят очередную, 105-ую, Пирамиду Хеопса. Поскольку ЗАДАЧА определяет решение, а не РЕШЕНИЕ придумывает себе задачу, то для местного Тутанхамона и «древне-египетского портала резюме» такой объем данных (20 миллионов карточек) — плюнуть и растереть.
Представим картинку: почесывая толстое брюшко выходит утром на балкон МантесумХеопс-XXI и повелевает: «Найти мне к вечеру 5 новых омывательниц ног, вчерашних пришлось скормить львам». Поворачивается и уходит, и работа закипает: каждый из 20 000 рабов бросают каменные блоки, хватают по 1 000 резюме, быстренько просматривают каждое за 20 секунд, и к обеду у Главного Евнуха уже 20-30 резюме для собеседования. МантесумХеопс-XXI и его голодные львы — довольны, сыты и счастливы. И рабы тоже передохнули от таскания террабайт камней («ядер»).
Как видим, результат достигнут ВОВРЕМЯ и без лишних умных слов. А назовет ли кто-то сей процесс Big Data или нет — древним египтянам по папирусу. Так что когда вы видите очередное клише, то расслабьтесь, и подумайте о Древнем Египте :-)
Сегодня прошла очередная Прямая линия с В.В. Путиным. Задачка с технологической точки зрения куда более интересная (мы уже обсуждали в прошлой серии про «Кнопку Обамы»), чем пирамида резюме, в том ключе, что для подрастающего научно-технического поколения и для интересующихся ново-египтян позволяет на реальном примере обсудить Bolt Data и поговорить о лингвистике.
Вот график реакции (см. выше один из переводов слова Bolt — говорить быстро и невнятно) сотен тысяч русскоязычных пользователей соцмедиа: журналистов, политических деятелей, экономистов, мам, пап, бабушек и внуков:
Возможно ли обработать подобный «поток сознания» с помощью 20 000 древне-египетских рабов? Не получается. Ведь только 2-3% обсуждений/комментариев происходит в широко-публичных местах (крупные группы в ВК или ФБ, текстовых трансляцих федеральных агентств и СМИ), остальные «народные выкрики» происходят в рупоры личных аккаунтов для друзей, подруг. Смотреть за каждым из миллиарда аккаунтов Твиттера, Фейсбука или ВКонтакте — на Земле народа не хватит.
Вот такие задачки мы и именуем rtBD&A — real-time Big Data & Analytics (по-русски, типа: аналитика неструктурированных данных больших объемов в реальном времени). С "rt" — понятно, с BD (Big/Bolt Data) — тоже понятно, всего-то введен фактор ограничения по времени (в радиотехники есть соответствующий термин «скважность»), давайте чуть раскроем A — Analytics. Оставим в стороне проблематику «слУшать» миллионы и миллиарды публичных сообщений (про эти системы мы говорили в предыдущей серии), поговорим о проблеме «слЫшать», а также о необходимости «понимать» язык птиц, зверей и людей.
Вот здесь нам и пригодится крутая система модулей E-ngine (название у системы конечно другое, но до публичного объявления пока остановимся на таком, для нашего сериала это не принципиально): по «живому потоку» данных, генерируеммому миллионами людей, нужно:
— Определить язык сообщения;
— Провести лингвистическую обработку текста;
— Определить, что текст о «Путине», а не о «путИне» (если кто не в курсе — это время промыслового лова рыбы);
— Классифицировать сообщение (определить существующую тематику или предложить новую);
— Выявить объекты NER (именованные сущности — фамилии, населенные пункты, названия заводов и пр.), причем не-словарными методами (ну не было в словарях и Википедии объекта «Челябинский метеорит» до катастрофы);
— Определить тональность высказывания (позитив-нейтральность-негатив), причем важная объектная тональность, а не просто «как обычно делается»;
— и еще всякое по мелочи…
— На сладкое: грамотность и пунктуация наших текстов в соцмедиа — ну вы сами знаете :-)
Чтобы усилить представление, давайте прикинем на пальцах: за 4 часа (время Прямой линии) в публичных популярных соцмедиа (микроблоги, соцсети, новости и комментарии, форумы, блоги, видео, обзоры, отзывы) пользователями генерится порядка 8-10 млн русскоязычных (кириллических) сообщений (наша публичная реал-тайм статистика по соцмедиа). Т.е. для обработки «на лету» нужно успевать обрабатывать до 1.000 неструктурированных сообщений В СЕКУНДУ и «молотить» такой поток модулями E-ngine.
Средняя «по больнице» длина сообщений в русскоязычном интернете ~1 Кб. Оценить скорости работы E-ngine вы можете самостоятельно. Для оценки можно использовать презентационные данные системы Compreno (разработка наших друзей и замечательной команды Abbyy) — очень сильный и прекрасный инструмент, на разработку которого потрачено тысячи человеко-лет: для обработки 1 Кб текста понадобится 5-10 секунд, но и качество обработки «книжного языка» — очень высокое.
Итак, краткое содержание серии:
1. Не ловимся на уже избитый и местами даже «убитый» термин Big Data — термин явно ждет судьба гордого термина 90-х «Портал», которое можно встретить в названии везде и всюду, типа «Портал вечернего клуба танцев в селе Подосиновики».
2. Сквозь прищур оцениваем великолепную длину ног новой PR-щицы, щебещущей про «наши петабайты» никому не нужных данных. Данные нужны нужные.
3. И вОвремя.
4. Интеллектуальные решения, методы и алгоритмы имеют тем бОльшую ценность, чем выше скорость решений, методов и алгоритмов. Не все задачи можно растащить на 20 000 древне-египетских рабов.
А между сериями можно порассуждать на досуге про новый путь «Голубого гиганта»: IBM продал Lenovo подразделение ПК, задружился с Twitter, направил 10 000 сотрудников на переобучение в Data Scientist, и на днях купил AlchemyAPI (замечательный движок типа E-ngine для нескольких западных языков).
На фоне долгожителя и «вечно молодого» IBM (выбрасывает старое, быстроменяется на новое) совсем не удивляет скоротечная жизнь великого когда-то и амбициозного Sun Microsystems (замечательные серверы были, кстати, и Java живее всех живых), а теперь и новая новость, что когда-то мировой финский лидер мобильного мира Nokia (приобретенный недавно Microsoft'ом) решил прикарманить «непотопляемых и вечных» Lucent/Alcatel, которые даже в паре не смогли противостоять китайцам.
Не останавливайтесь надолго под красивыми знаками, как бы Big Data их не звали — это всего лишь красивые раскрученные названия. Двигайтесь — решайте задачи, а не заучивайте решения. Желаем постоянно меняться и открывать новые дороги — это так интересно давать новым решениям новые имена.
P.S. У вашей компании есть понимание как решать задачи типа приведенных выше «не-египетским путем»? Вы чувствуете в себе задатки Data Scientist и примерно понимаете, как «опознать» ситуацию с «Челябинским метеоритом» за 3 минуты, а не 3 часа (как среагировала пресса)? Вы способны алгоритмизировать выявление новых методик спам-ботов Твиттера? Тогда вы находитесь на одном из многих, но точно верном пути — у вас прекрасное будущее.
В следующих сериях: NoSQL или колоночные СУБД, откуда растут ноги у слуха, что «данные кончаются», человечество — как всемирный мусорщик.
1-я серия. Big Data — как мечта
2-я серия: Big Data негатива или позитива?
3-я серия: «Кнопка Обамы»
4-я серия. Революция мозгов
5-я серия: Большая игра. Частное мнение
Автор: OzzyTech