Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью

2018-08-31 в 14:00, admin, рубрики: big data, data mining, data science, data scientist, Wirex, анализ данных, Блог компании Wirex, глубинное обучение, искусственный интеллект, машинное обучение, наука о данных

Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью - 1

Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.

И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.

Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.

Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb. Последний пример озвучил Роберт Ченг, специалист по анализу данных Airbnb. Когда он работал в Twitter, компания была сосредоточена на росте. Теперь в Airbnb Ченг разрабатывает массовые модели машинного обучения.

Подходы к применению теории анализа и обработки данных могут быть самыми разными, и выбор того или иного решения зависит не только от отрасли, но и от типа бизнеса и его задач.

Однако, несмотря на многообразие, во всех интервью четко прослеживается ряд общих тем.

Что делают эксперты по data science?

Мы знаем, как работает наука о данных, по крайней мере, в технологической отрасли. Сначала исследователи закладывают прочный фундамент в виде собранной информации, чтобы провести основательную аналитическую работу. На следующем этапе они в числе прочего используют онлайн-эксперименты для устойчивого продвижения в решении задачи. В итоге создаются методы машинного обучения и специализированные продукты, обрабатывающие данные, которые нужны для лучшего понимания своего бизнеса и принятия более оптимальных решений. То есть суть методов обработки данных в сфере технологий сводится к построению инфраструктуры, проведению тестов и машинному обучению для принятия решений и создания информационных продуктов.

Большие шаги делаются и в других отраслях, не связанных с технологиями

На одной из встреч мы с Беном Скраинкой, специалистом по обработке данных в компании Convoy, рассмотрели эффективное использование методов обработки информации для внедрения инноваций в североамериканской отрасли грузовых перевозок. А Сэнди Грифит из Flatiron Health рассказала о важной роли, которую анализ данных играет в изучении рака. Вместе с Дрю Конвейем мы обсудили его компанию Alluvium, которая «использует искусственный интеллект и машинное обучение для выявления полезных закономерностей на основе масштабных потоков данных, генерируемых в ходе эксплуатации промышленных систем». Майк Тамир, нынешний глава отдела автономного вождения в Uber, рассказал про работу в Takt, где Тамир помогал компаниям из Fortune 500 вводить методы обработки и анализа данных. В числе прочего он поделился опытом разработки системы рекомендаций для Starbucks.

Анализ данных — это не только перспектива появления автономных автомобилей и искусственного интеллекта

Многие гости моего подкаста скептически отнеслись к фетишизации ИИ общей направленности со стороны популярных СМИ (пример: статья VentureBeat’s «К 2042 году будет создан ИИ-бог, который напишет свою библию. Будете ли вы поклонятся ему?») и к шумихе вокруг машинного и глубинного обучения. Конечно, оба этих направления — это мощные подходы с важными примерами практических приложений. Но к подобному ажиотажу всегда следует относится с долей здорового скептицизма. Почти все мои гости отметили, что реальные исследователи в этих областях зарабатывают себе на жизнь, собирая и фильтруя данные, создавая панели управления и отчетов, занимаясь визуализацией данных и статистическим анализом. Кроме того, им необходимо уметь донести суть полученных результатов до ключевых игроков и убеждать людей, принимающих решения.

Набор навыков, востребованных в профессии Data scientist, постоянно меняется и пополняется (и наличие опыта работы с глубинным обучением — не главное требование)

В беседе с Джонатаном Нолисом, одним из передовых специалистов в области анализа данных из Сиэтла, который работает с компаниями из Fortune 500, мы обсудили такой вопрос: «Какой из двух навыков более важен для специалиста, работающего с данными, — способность пользоваться сложными моделями глубинного обучения или умение рисовать хорошие слайды в PowerPoint?». Нолис привел аргументы в пользу второго, считая, что доступное разъяснение результатов анализа остается ключевым элементом работы с информацией.

Еще одна популярная тема — вариабельность набора основных навыков. Востребованность некоторых из них может измениться в обозримом будущем. Стремительное развитие коммерческих и открытых инструментов анализа данных привело к тому, что сейчас мы наблюдаем массовый переход к автоматизации многих рутинных задач, таких как очистка данных и их первичная подготовка. До сих пор обычным делом была ситуация, когда 80% ценного времени исследователя уходило на простой поиск, отсеивание и структуризацию данных, а только 20% — на их анализ. Но такое положение вещей едва ли сохранится. Сегодня автоматизация добралась даже до процессов машинного и глубинного обучения. В частности, в отдельном подкасте, который целиком посвящен таким вопросам, об этом рассказывал Рэндал Олсон, ведущий специалист по анализу и обработке данных в Life Epigenetics.

По итогам интервью подавляющее большинство моих гостей считают, что умение создавать и пользоваться инфраструктурами глубинного обучения вовсе не является ключевым. Вместо этого они указывают на способность учится на лету и умение грамотно объяснять сложные аналитические выкладки ключевым участникам процесса, далеким от технических вопросов. Поэтому целеустремленным специалистам в области обработки и анализа данных следует уделять чуть больше внимания правильной подаче материала, нежели способам обработки информации. Новые методы приходят и уходят, но критическое мышление и численно измеримые профессиональные навыки будут актуальны всегда.

Специализация становится все важнее

Несмотря на отсутствие четкой схемы карьерного роста и недостаточную поддержку начинающих специалистов, мы уже наблюдаем за появлением некоторых направлений специализации. Эмили Робинсон описала разницу между учеными типа А и Б. По ее словам, к типу А относятся аналитики, деятельность которых близка к традиционной статистике, а вот представители типа Б занимаются преимущественно созданием моделей машинного обучения.

Джонатан Нолис подразделяет науку о данных на три компонента. Первый компонент — бизнес-аналитика, которая сводится к тому, чтобы «взять имеющиеся у компании данные и предоставить их нужным людям» в форме информационных панелей, отчетов, электронных писем. Второй — теория принятия решений, которая нацелена на то, чтобы «взять данные и помочь компании принять оптимальное решение с их помощью». Третий компонент — машинное обучение, где специалисты стремятся ответить на вопрос «Как мы можем осознанно применить информационно-аналитические модели в условиях реального проекта?» Несмотря на то, что многие передовые специалисты в своей деятельности охватывают все три направления, уже начали формироваться конкретные карьерные траектории, как это происходит в случае с инженерами-специалистами машинного обучения.

Вопросы этики и морали — серьезный вызов

Вы наверняка догадываетесь, что представители аналитической профессии встречают на своем пути немалое количество неопределенностей. Когда я спросил у Хиллари Мейсон в первом эпизоде нашей беседы, есть ли какие-либо другие трудности, с которыми сталкивается профессиональное сообщество, она ответила: «Неужели вы считаете, что нам недостаточно отсутствия моральных ориентиров, стандартных практик и упорядоченной терминологии на данном этапе развития?»

Все три момента действительно важны, а две первые проблемы вызывают обеспокоенность практически у всех гостей подкаста DataFramed. Какую роль отведут морали в условиях, когда алгоритмы, разработанные информационными аналитиками, будут диктовать нам способы взаимодействия с окружающим миром?

Как сказал в интервью Омоджу Миллер, главный специалист по машинному обучению GitHub:

Нужно сформулировать понимание базовых моральных ценностей, разработать схему подготовки специалистов и составить что-то вроде клятвы Гиппократа. И нам необходимы самые настоящие лицензии, позволяющие наказать или лишить права практики специалиста, который вышел за рамки этики. Надо четко дать понять, что мы как отрасль выступаем против подобных поступков. И, конечно, необходимо как-то помогать исправиться тем, кто совершил тяжкие нарушения, и тем, кто отступил от правил по незнанию, поскольку не прошел необходимой подготовки.

Актуальная тема — серьезные, вредоносные и аморальные последствия использования науки о данных, как это произошло в случае с рейтингом риска рецидивизма COMPAS, «который использовался для прогнозирования и выявления будущих преступников», и, по данным ProPublica, оказался «настроен предвзято по отношению к темнокожим американцам».

Мы постепенно приходим к соглашению по поводу того, что этические стандарты должны зародится внутри самого сообщества профессионалов-аналитиков, а также получить поддержку со стороны законодателей, общественных движений и других заинтересованных лиц. Отчасти особый акцент в этом ставится на интерпретируемость моделей в противовес современным решениям, работающим по принципу черного ящика. То есть необходимо создать модели, которые могут растолковать, почему они сделали тот или иной прогноз. Глубинное обучение отлично справляется со многими задачами, но славится своей необъяснимостью. Преданные своему делу исследователи, разработчики и специалисты по анализу данных добиваются прогресса в этом направлении благодаря таким проектам, как Lime, направленным на объяснение принципов работы моделей машинного обучения.

Масштабная революция анализа данных в отраслях человеческой деятельности и обществе только началась. Пока неясно, останется ли профессия специалиста по анализу данных самой привлекательной работой XXI века, станет ли она более узконаправленной или просто превратится в набор навыков, которым должны будут обладать исследователи. Как сказала Хилари Мейсон: «А будет ли наука о данных существовать через 10 лет? Я помню мир, в котором ее не было, и не удивлюсь, если эту профессию ждет та же участь, что постигла профессию веб-мастера».