Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».
Генеральный партнер олимпиады «Я — профессионал» по направлениям Университета ИТМО — «Компьютерные науки», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.
Christoph Scholz / Flickr / CC BY-SA
Пара слов об олимпиаде «Я — профессионал»
Олимпиада проводится для студентов самых разных специальностей.
В этом году зарегистрированы 54 направления: есть математика, искусственный интеллект, программная инженерия, интернет вещей, фотоника и многие другие.
Зачем участвовать. Победители получают возможность поступить в российские вузы без экзаменов и пройти стажировку в крупных компаниях-партнерах олимпиады: Яндексе, Сбербанке, MRG и так далее. Студенты, которые покажут хорошие результаты, получат возможность посетить зимние школы. Там можно будет познакомиться с экспертами индустрии.
Формат участия. Регистрация — до 22 ноября. С 24 ноября по 9 декабря в режиме онлайн состоится отборочный тур. Его могут пропустить те, кто прошел не менее двух онлайн-курсов из утвержденного организаторами списка. В феврале 2019 года начнутся заключительные этапы.
Они пройдут очно в разных университетах страны. Университет ИТМО курирует сразу пять направлений олимпиады. О некоторых из них, в частности, о «Робототехнике», мы рассказывали ранее. Сегодня представим направление «Большие данные». Это — новинка олимпиады этого года.
Направление «Большие данные»: что нужно знать
В мире проводится множество мероприятий и семинаров, посвященных Big Data.
Стоит упомянуть международные конференции SIGMOD, SIGKDD или ICML. Все больше подобных событий проходит и в нашей стране. Например, DataFest, Big Data Conference от Rusbase и многочисленные митапы по технологиям управления и анализа Big Data.
Университет ИТМО также участвует в различных мероприятиях и проводит собственные. Такие как серия конференций YSC (Young Science Conference), лекция Германа Грефа и недавний закрытый воркшоп, прошедший в MRG. Большие данные занимают важное место в разработке новых IT-систем и решений в других сферах деятельности. В Университете ИТМО идет активная работа с применением и развитием технологий Big Data во всех плоскостях.
Например, сотрудники кафедры высокопроизводительных вычислений Университета ИТМО создали семантическое распределенное хранилище данных Exarch. Оно обеспечивает быстрый доступ к данным, оптимизирует процессы их обработки. Exarch позволяет в два раза сократить время выполнения простых задач, по сравнению с инструментами вроде HDFS и Cassandra.
Учитывая опыт и научные интересы вуза в области работы с большими данными, мы не могли упустить возможность открыть такое направление в рамках проекта «Я — профессионал». Курирует этот трек олимпиады Александр Валерьевич Бухановский, доктор технических наук, директор мегафакультета трансляционных информационных технологий Университета ИТМО. Сейчас он с командой, в которую входят и аспиранты вуза, занимается подготовкой заданий.
В направление «Большие данные» входит Анализ данных, статистика и машинное обучение плюс Технологии распределенных вычислений и систем. Первое поднаправление связано с математикой и подходами к обработке больших объемов данных. Второе — строится вокруг программирования и высокопроизводительных вычислений, направленных на оптимизацию аналитических процессов.
Участники будут использовать платформу Яндекс.Контест и самые популярные языки программирования для работы с Big Data. Речь идет о Java, Scala и Python.
Java и Scala в большей мере используются специалистами, которых называют Data Engineer, для ETL и ELT и реализации базовых алгоритмов. Python же чаще выступает инструментом в руках тех, кого называют Data Scientist. При этом все указанные языки поддерживаются самым распространенным и популярным на сегодняшний момент решением для обработки больших данных Apache Spark.
Отметим, что на заочном этапе задачи по программированию предлагаться не будут. Это связано с некоторыми ограничениями площадки Яндекс.Контест — пока нет возможности подключить реальные массивы данных для обработки. К очному этапу состязания этот момент будет разрешен.
Подготовка к олимпиаде
Для участников подготовлена специальная программа, которая включает три вебинара по профильному направлению. Лекции читают преподаватели ведущих вузов, объясняя и разбирая примеры олимпиадных заданий.
Большой массив разных растровых фотоизображений в 64-битном формате bmp равномерно распределен по 1000 независимым узлам хранения в единой локальной сети. Для выделения изображений лиц на этих файлах задействован кластер, имеющий 100 вычислительных узлов.
При однократном запуске процесса обработки на всех узлах, по сравнению с одним узлом получено ускорение обработки всего в 52 раза. Значит ли это что:
- А. Кластер слишком маленький, нужно больше вычислительных узлов, чтобы повысить эффективность;
- Б. Размеры изображений разные, и из-за этого объективно не удается достичь большей эффективности;
- А. Коммуникационный канал между хранилищем и кластером слишком слабый;
- Г. Пока непонятно. Нужно провести серию дополнительных экспериментов в различных конфигурациях.
Ответ: Г. На основе одного измерения причину установить невозможно, так как в зависимости от условий может быть как вариант А, так и В.
Лекция, которую читает Александр Бухановский:
Вторая лекция — о технологических аспектах обработки больших данных. Провел старший научный сотрудник НИИ НКТ Университета ИТМО Александр Вишератин:
В целом для решения заданий олимпиады, необходимо изучить типичные механизмы, лежащие в основе базовых операций обработки Big Data. Речь идет о паттернах во фреймворках Apache Spark и Apache Flink (например, операциях shuffle или broadcast). Неплохо будет изучить работу итеративных алгоритмов, использующихся для машинного обучения на больших данных, таких как Expectation — Maximization. Не помешает и знание структур данных и принципов организации хранения данных, применяемых в современных хранилищах Cassandra или Clickhouse.
Также рекомендуем обратить внимание на курсы от «Яндекса», посвящённые обработке Big Data:
- «Большие данные для инженеров»
- «Машинное обучение: углублённый уровень»
- «Машинное обучение и анализ данных»
Кстати, прохождение двух из этих курсов позволит миновать отборочный тур по направлению «Большие данные» и попасть сразу на очный этап олимпиады.
Автор: itmo