16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.
В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.
Data Scientist: аналитик, математик, программист
Профессия Data scientist — относительно новая, причем не только для России, но и для всего мира. Само собой, не все задачи из сферы профессиональных интересов современного специалиста по работе с данными появились в последние годы — какие-то из них ранее решали программисты, специалисты по статистике, бизнес-аналитики.
Более того, вопрос о том, что именно должен знать и уметь Data scientist остается открытым: например, на сайте Американской статистической ассоциации еще недавно велись дебаты о том, принесет ли появление «науки о данных» смерть статистике (и насколько тесно связаны эти дисциплины) и что общего у тех, кто работает на позициях Business scientist, Data scientist, Data analyst и Statistician.
Безусловно, большое количество различных терминов и названий должностей порождает определенную путаницу. Например, Винсент Грэнвилл (Vincent Granville), предприниматель и исследователь, развивавший аналитическое направление в Visa, Microsoft, eBay и NBC, выделяет целых 16 различных дисциплин и профессий, так или иначе пересекающихся с тематикой Data science — от таких направлений как искусственный интеллект и предсказательное моделирование до профессий вроде актуариев (в страховании) и квантов (в высокочастотном трейдинге). С одной стороны, такое многообразие может запутать новичка, с другой — это явный признак, что без работы будущий специалист в Data science точно не останется.
Вне зависимости от того, как будет называться та или иная должность, от специалиста по работе с данными ожидается, что он будет обладать знаниями сразу в нескольких дисциплинах. Среди наиболее важных Андрей Созыкин, выступая на лекции в Университете ИТМО, отметил:
- Знание математики, прикладной статистики и теории вероятностей
- Умение программировать (в частности на Python) и работать с библиотеками для анализа данных
- Понимание актуальных методов машинного обучения (к которым относится не только глубокое обучение)
Для того, чтобы «влиться» в эту сферу, Андрей Созыкин рекомендует, в частности, следующие курсы:
- Machine Learning (Coursera, курс от Эндрю Ына)
- Neural Networks for Machine Learning (Coursera, курс от Джефри Хинтона)
- Data Analyst (Udacity, курс подготовлен совместно с Facebook)
- Machine Learning Engineer (Udacity, курс подготовлен совместно с Kaggle)
Мы также рекомендуем наш недавний дайджест, полностью посвященный теме Data science
Освоить теорию, по словам Андрея Созыкина, можно примерно за год — в особенности, если вы уже обучаетесь на специальности с уклоном в статистику или IT. Медицинский или естественнонаучный бекграунд, опыт работы в банковском секторе или страховании, тоже могут быть как нельзя кстати.
Андрей подчеркивает, что будущему специалисту важно обладать не только фундаментальными, инженерными знаниями, но и разбираться в предметной области, в которой будет идти работа. В конце концов, одна из проблем, с которой сейчас сталкиваются крупные компании, работающие с Большими данными, — невозможность эффективного применить на практике полученные результаты исследований.
Разумеется, человек с таким набором знаний – большая редкость. Поэтому и Data science, как правило, — дисциплина не одиночная, а «командная»:
Это принципиально мультидисциплинарное направление. […] допустим, кто-то отлично программирует, кто-то на очень высоком уровне знает математику, а кто-то разбирается в тех же банках, а все вместе они выдают результат
— Андрей Созыкин
«Аналитический урбанизм»
Необычный пример такого мультидисциплинарного подхода – работа специалиста по Большим данным и Data science Клаудио Сильвы, профессора Политехнического института и Центра городских исследований и прогресса Нью-Йоркского университета. В 2015 году он впервые посетил Университет ИТМО и дал интервью о том, как Data science может быть связана с урбанистикой.
Клаудио воспринимает информацию, которая генерируется в городах, как «безотходное производство»: Большие данные, создающиеся в процессе работы многочисленных городских служб и предприятий, могут послужить городу во благо. Например, специалисты по работе с данными в Нью-Йорке разработали продукт, позволяющий инженерам городских путей эффективно использовать информацию о передвижении нью-йоркских такси.
Нам важно, чтобы все решения, принимаемые городскими управленцами, инженерами, архитекторами, следовали логике данных, чтобы они не были спонтанными или плохо взвешенными. У нас есть возможность более широко смотреть на то, как должен развиваться город, и нужно пользоваться ею
— Клаудио Сильва
По словам Андрея Созыкина, основные направления для развития сферы Data science — разработка аппаратного обеспечения для ускорения обучения, создание более сложных и точных алгоритмов обучения и построения сетей. Не менее важная задача — научиться лучше понимать, как «думает» сеть — от этого зависит то, насколько широко будут применяться разработки специалистов по Data science в сферах, непосредственно связанных с жизнью человека:
Для нас она [сеть] работает в так называемом режиме black box — «черного ящика». Мы не понимаем, что у нее происходит внутри и почему она предлагает именно такие варианты. В медицине это неприемлемо, ведь в этой области мы должны четко объяснить и аргументировать каждое действие
—Андрей Созыкин
Отметим, что в Университете ИТМО работой в направлении Data science занимается, в частности, Институт наукоемких компьютерных технологий (НИИ НКТ). О том, как сотрудники Института создают модели развития событий в местах массового скопления людей, анализируют настроение толпы и оценивают общественное мнение по данным социальных сетей, мы рассказывали в этом материале.
P.S. Уже в эту среду в американском Rapid City состоится финал чемпионата мира по спортивному программированию ACM ICPC 2017 (Университет ИТМО – один из лидеров чемпионата). Смотрите прямую трансляцию чемпионата 24 мая и поддержите нашу команду!
Автор: Университет ИТМО