Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?
- Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
- Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
- Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.
Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.
Программа мероприятия:
11:00 Регистрация и welcome coffee.
12:00 Алексей Филановский (Cloudera Certified Developer for Apache Hadoop, старший консультант отдела продаж, Oracle) расскажет о новых интересных возможностях Hadoop v2. Конечно, это не будет сухим перечислением с краткими описаниями, Алексей также разберёт разные сценарии использования этих возможностей, а заодно расскажет о некоторых примерах из практики.
Hadoop-экосистема набирает популярность семимильными шагами, все больше и больше пользователей начинают использовать ее не только для синтетических тестов, для удовлетворения собственного любопытства, но и в продуктивной среде предприятия. Данный факт объясняет бурное развитие продукта. Больше пользователей, больше пожеланий для разработчиков. В рамках данного доклада будут освещены основные возможности, появившиеся в Hadoop v2.
13:00 Никита Макеев (Data Team lead, IponWeb) поведает собравшимся особые знания о том, как можно расширить возможности Hadoop Streaming при работе с современными форматами данных Avro и Parquet.
Map-Reduce, Avro и Parquet без Java. Ну почти. Hadoop Streaming — отличный способ оседлать Hadoop в частности и пакетную обработку больших объемов данных вообще. Почти не нужно знать Java, а только примерно представлять, как работает MapReduce, и уметь писать на каком-нибудь языке программирования, который может обрабатывать строчки текста. Практически любая задача, которая может быть решена при помощи MapReduce, может быть также решена и при помощи Hadoop Streaming. Преимущества очевидны — простота разработки, нет проблем с кадрами, невысокие затраты на вхождение.
Одно из наиболее распространенных применений Hadoop Streaming — обработка текстовых логов или других данных, представленных в виде текста. Однако популярность стремительно завоевывают более сложные, чем просто текст, форматы. Можно ли сохранить возможность обрабатывать данные при помощи скриптовых языков и при этом использовать все преимущества, которыми обладают современные форматы данных, такие как Avro и Parquet?
Мы справляемся с этой задачей, используя некоторое количество Java-кода и JSON как связующее звено. Как водится, везде есть нюансы, особенности, а зачастую и особые уникальные «грабли» о которых и будет рассказано.
14:00 Максим Лапань (ведущий программист проекта Поиск, Mail.Ru Group) расскажет увлекательную историю о том, как в Mail.Ru Group осуществляется управление кластерами Hadoop. Докладчик не обойдёт стороной и те трудности, которые вставали на пути команды разработчиков по мере развития и расширения системы. Доклад будет посвящен практической стороне эксплуатации кластера Hadoop/HBase, на протяжении последних трех лет используемого в проекте Поиск Mail.Ru. За это время система выросла с 30 до 400 серверов, объем хранилища с 400ТБ до 9ПБ. Темы, которые планируется затронуть:
- как мы изобрели свой bigtop: структура и логика наших сборок rpm-пакетов, поддержка нескольких кластеров, работа пользователей, особенности конфигурации компонентов Hadoop;
- мониторинг и анализ производительности кластера: как мы следим за работой кластеров, какие метрики используем;
- проблемы администрирования большой инсталляции Hadoop/HBase.
15:00 Обед. Война войной, а обед по расписанию.
С 15:45 до 17:45 в формате World Cafe все желающие смогут принять участие в совместном определении и обсуждении наиболее животрепещущих вопросов эксплуатации Hadoop.
В 18:00 Алексей Грищенко (Pivotal Enterprise Architect, EMC Corporation) выступит с докладом о том, какие особенности и нюансы характерны для архитектурного решения Pivotal HAWQ, а также расскажет о его взаимодействии с Hadoop. В рамках доклада будут освещены следующие темы:
- Текущее положение на рынке решений, реализующих SQL-интерфейс для работы с данными в HDFS. В последнее время эта тема крайне активно набирают популярность, что по большей части связано с популяризацией Hadoop в корпоративном секторе. Я кратко освещу основные существующие на текущий момент решения и принципиальные проблемы, с которыми сталкиваются все подобные системы.
- Компоненты решения Pivotal HAWQ и их взаимодействие с HDFS. Здесь я детально расскажу о том, из каких компонент состоит наша СУБД, как они располагаются на кластере, каким образом они связаны с HDFS и как они хранят данные
- Детальный разбор процесса выполнения запроса. В качестве примера будет дан несложный запрос, процесс его выполнения будет расписан по шагам от поступления запроса в систему до возвращения данных клиентскому приложению. Также здесь я кратко расскажу о отличительных особенностях обработки запросов в HAWQ по сравнению с другими системами.
- Возможности организации доступа к кастомизированным форматам хранения данных на HDFS, а также к различным внешним системам. Здесь я расскажу о фреймворке PXF и возможности его расширения, приведу пример реализованного мной компонента
- Прочие возможности HAWQ и направление дальнейшего развития. Я расскажу о возможностях использования HAWQ для решения задачи интеллектуального анализа данных, а также освещу направление, в котором наша платформа развивается и каких изменений стоит ждать.
Обязательно возьмите с собой документ, удостоверяющий личность, у нас строгая охрана. Также вам необходимо будет зарегистрироваться.
Автор: TeamMRG