Куда расти Data Scientist и какие навыки для этого нужны

в 12:00, , рубрики: big data, data science, карьера ИТ-специалиста, Учебный процесс в IT

Привет! Меня зовут Никита Зелинский, я Chief Data Scientist МТС, руководитель центра компетенций Data Science и ML-платформ МТС Big Data. На конференциях я часто слышу один и тот же вопрос от начинающих дата-сайентистов: как развиваться в своей сфере и прийти к успеху? Тут сразу напрашивается одно сравнение — рост в профессии напоминает тренировки в качалке. Чтобы добиться результата, нужен четкий план: что конкретно и когда прокачивать. Вот и в работе важно понимать, какие навыки развивать и как составить стратегию роста — от стажера до ведущего специалиста или Chief Data Scientist.

Сегодня будем разбираться, как выстроить этот путь. Расскажу, как работа дата-сайентистов устроена в МТС и какие есть направления развития для DS в целом. А еще поделюсь своим видением роли дата-сайентиста — оно не во всем совпадает с общепринятым, так что можете поспорить со мной в комментариях. Поехали!

Куда расти Data Scientist и какие навыки для этого нужны - 1

Дата-сайентисты в МТС: что и как тут устроено

В нашей компании работа дата-сайентистов организована по принципу продуктовых вертикалей. Каждая занимается конкретными направлениями. Например, в телеком-вертикали специалисты придумывают, как разместить базовые станции, чтобы дать оптимальное покрытие, снизить затраты и поддерживать качество связи. Еще здесь работают над классическими задачами: предотвращением оттока, созданием лучших предложений, управлением скидками и расчетом CLTV (англ. customer lifetime value, пожизненная ценность клиента, или предсказание чистого дохода от взаимодействия с ним).

Отдельное направление — рекламная платформа. Она включает DSP-площадки, открутку рекламы, SMS-рассылки, цифровые баннеры, динамический ретаргетинг и другие инструменты. Тут задачи связаны с закупкой и продажей рекламы, выполнением медиапланов и управлением рекламными потоками.

Еще часть специалистов занимается задачами для МТС Банка, страхового направления и других вертикалей — у нас 10+ таких направлений. Кто-то борется со спамом и мошенниками, кто-то просчитывает риски, другие улучшают пользовательский опыт. У каждого своя специфика, но подход к работе вписывается в общие процессы.

В продуктовой команде роль дата-сайентиста связана не только с технической экспертизой, но и со взаимодействием с бизнесом. Структура выглядит так: в бизнесе есть заказчик, владелец продукта, который приносит доход. В Big Data за решение задач от него отвечает CPO (Chief Product Officer) и его команда: PO (Product Owner), инженеры, разработчики, аналитики и дата-сайентисты.

Бизнес-заказчик предоставляет ресурсы и ставит задачи, согласовывая их с командой. При этом только два человека из всей структуры несут ответственность за отчет перед заказчиком: CPO и дата-сайентист. Последний всегда участвует во встречах с бизнесом. Только он может детально объяснить, как была построена модель и почему она сработала именно так. А еще — ответить на сложные вопросы, например почему конкретному клиенту не одобрили кредит.

Куда расти Data Scientist и какие навыки для этого нужны - 2

Это приводит к важному выводу: дата-сайентист в продуктовой команде неизбежно становится коммуникатором. Он напрямую взаимодействует с бизнесом наравне с руководителями высокого уровня. Часто джуниоры или мидлы участвуют во встречах с вице-президентами, чтобы представить результаты своей работы и ответить на вопросы. С одной стороны, это дополнительная нагрузка, так как уровень ответственности высокий. С другой — новые возможности: взаимодействие с топами и возможность видеть, как твоя работа влияет на то, как эти бизнес-решения вообще принимаются.

В МТС есть платформенный трек, который объединяет часто повторяющиеся технологичные задачи в универсальные решения. Пример — рекомендации и поиск объединяются в платформы, которые используются в продуктах компании: KION, МТС Музыка, Travel и другие. Еще в пределах платформенного трека реализовано динамическое и персонализированное ценообразование, которое применяется в РТК, интернет-магазине МТС и Телекоме.

Еще одно направление — Scoring. Эта платформа предоставляет результаты моделей на внешний рынок, сотрудничает со страховыми компаниями, микрофинансовыми организациями (МФО), банками и маркетплейсами. В поиске жертв социальной инженерии скоринг помогает идентифицировать случаи мошенничества в реальном времени и уведомлять банки о попытках обмана клиентов. Все эти решения платформизированы для удобного и масштабируемого использования.

Куда расти Data Scientist и какие навыки для этого нужны - 3

Пара слов о том, как устроены платформы. Есть команда, которая разрабатывает ядро, и в этом ядре обычно нет ни дата-сайентистов, ни дата-аналитиков. Там работают MLE (Machine Learning Engineer) — их роль ближе к разработчикам. И это уже совсем другой карьерный трек. Дата-сайентисты работают в продуктовых командах, ориентированных на свой домен. Например, одни команды занимаются контентными рекомендациями, другие — товарными.

Куда расти Data Scientist и какие навыки для этого нужны - 4

Дата-сайентист, разработавший рекомендательную или поисковую модель, всегда коммуницирует с клиентом, как и Product Owner. Бывает, что Product Owner не может быстро ответить на вопрос. Тогда, как я уже говорил выше, на передний план выходит дата-сайентист, который «в теме».

Ключевой вывод: дата-сайентист — это коммуникатор.

Куда расти Data Scientist и какие навыки для этого нужны - 5

Какие навыки нужны дата-сайентисту, чтобы быть востребованным

Из всего, что я описал выше, можно накидать список ключевых навыков, которыми обладает хороший DS:

  • Управление требованиями. Дата-сайентист должен уметь быстро понять запрос и прийти к соглашению с заказчиком. Важно определить условия, при которых модель будет работать, как ее результаты будут использоваться, на какой выборке клиентов и возможно ли применять ее ко всем данным или только к их части. К тому же нужно согласовать допустимую погрешность, понять, как она будет оцениваться, что делать в случае ошибки и какова цена этой ошибки. Тут требуется четкое понимание, где модель может ошибаться и насколько это критично.

  • Презентация результатов (Storytelling). Результаты работы важно презентовать так, чтобы их воспринял топ-менеджер, который уже избалован вниманием и отдизайненным визуалом. В условиях, когда за день он видит десятки презентаций, нужно выделиться и донести свою идею понятно и убедительно.

  • Exploratory Data Analysis (EDA). Несмотря на популярность нейросетей, анализ данных по-прежнему остается ключевым инструментом. Чтобы доказать эффективность модели, бывает недостаточно метрик или A/B-тестов — требуется показать яркий и значимый инсайт. Это повышает доверие к эксперту.

  • Доменная экспертиза. Умение говорить на языке бизнеса — неотъемлемый навык. Если специалисту сложно разобраться, например, в терминологии проектного финансирования или BNPL, ему пока рано заниматься задачами в сфере кредитования. Без понимания принципов рекомендаций вроде «с этим товаром покупают» или «похожие специально для вас» будет сложно работать с контентными системами. Доменная экспертиза очень важна.

  • Кейс-менеджмент. Ситуации, когда нужно быстро принять решение, в работе — обычное дело. Специалиста могут спросить: «А как вы поступите в этом случае?». Или ему придется разбираться, почему модель дала неожиданный результат. Такие навыки — половина успеха в системах антифрода, где работа часто сводится к анализу кейсов с офицерами безопасности: почему мошенника пропустили или, наоборот, почему был заблокирован добросовестный клиент. Умение быстро разобраться, обобщить выводы и предложить решение — основа кейс-менеджмента.

Все перечисленные навыки продиктованы структурой компании. В бигтехе или AI-компании, создающей конкретный продукт, требования будут другими. Но в организациях, где Data Science используется как инструмент повышения эффективности core-бизнеса, например для увеличения выручки или прибыли на 10–15%, без перечисленных скилов никак.

Так кто такой дата-сайентист?

Дальше поделюсь своим видением профессии. Оно не всегда совпадает с общепринятым, и вы, конечно, можете с ним поспорить. Я придерживаюсь нескольких аксиом, или ключевых требований:

Куда расти Data Scientist и какие навыки для этого нужны - 6

Теперь — подробнее.

Дата-сайентист может выполнить задачи дата-аналитика, но наоборот — не сработает. Если речь идет о расчете A/B-тестов, их ускорении или более корректной постановке, дата-сайентист лучше понимает данные, глубже разбирается в клиенте и задаче. Почему так? Когда трава была зеленее, DS еще называли advanced analytics, или предиктивной аналитикой. Когда аналитик смотрит в зеркало заднего вида и формулирует объяснение, почему так произошло, выводы DS на данных будут проверяться будущими событиями. Даже название advanced analytics намекает, не правда ли? А если нужно взаимодействовать с заказчиком, объяснить инсайты и результаты, дата-сайентист снова впереди.

Дата-сайентист учитывает больше аспектов, чем дата-архитектор. На практике я часто видел архитектуры данных, в которых полностью игнорировалась задержка обновления источников. Например, в TimeSeriesSplit есть параметр gap, который позволяет учитывать временные разрывы. Мы понимаем, что если сегодня 2 декабря, а данные обновились только 25 ноября, то при создании dataset или написании select-запросов нужно учитывать эту задержку. Дата-сайентист это знает и строит поток данных с учетом таких нюансов: задержки обновлений, консистентности данных между источниками и их актуальности. Дата-архитекторы же часто сосредотачиваются на создании абстракций: нарисуют реал-тайм-поток, добавят Kafka, Spark Streaming или горячее хранилище, а задержки и консистентности оставят за скобками. Мы, как дата-сайентисты, подходим к этим вопросам иначе. Если нет актуальных данных, мы предложим поток, который обходит хранилища, работает в онлайне и сохраняет данные для инференса. В расчеты закладываем даже время на подготовку батча, размер этого батча и вычитку из нужного топика.

Дата-сайентист не уступает Product Owner. Дата-сайентист может не только взять на себя коммуникацию с бизнесом, но иногда сделать это даже лучше. Как и писал выше, он глубже понимает задачу и может предложить решения. Давайте пример. Ситуация: продакт попросил сделать модель рекомендаций похожих видео. В ответ DS спрашивает, в каком месте экрана рекомендуемые видео будут выводиться. Выяснилось, что глубоко внизу. В итоге, пока ждали дизайнеров и цикл разработки, модель все-таки вывели, но A/B она не прокрасила, как и предупреждал DS. А вот когда рекомендации стали показывать справа от видео, как в YouTube, TimeSpent пошел вверх. DS вынужден думать о таких вещах, иначе ему придется слушать что-то в духе: «Твоя модель не работает!».

Дата-сайентист работает на результат, а не выполняет задачу по ТЗ. Он отвечает за бизнес-метрику. Можно сколько угодно говорить, что задача выполнена по запросу, но если на A/B-тесте нет роста метрики раз за разом, последствия неизбежны. DS всегда предугадывает риски и думает, как обеспечить результат.

Как мы в МТС нанимаем дата-сайентистов

Пример: на первом этапе с кандидатом связывается рекрутер. Он проводит блиц-интервью, задает десять вопросов. Ответы записываются без оценок «правильно» или «неправильно» и передаются вместе с резюме мне, в центр Data Science, дальше резюме и ответы будет просматривать команда. Кандидат сможет пройти дальше, даже если ответил правильно всего на два-три вопроса.

Второй этап зависит от выбранного трека. MLE сразу переходят к проверке базовых знаний Python и SQL, решают задачи уровня LeetCode Easy. ML-собеседование для DS предполагает три возможных сценария: ML в RecSys, ценообразование и Classic ML. Для относительно редких для нас направлений, например чистого NLP, этап адаптируется под специфику.

Третий этап для дата-сайентистов — встреча с Product Owner, Chief Product Officer и тимлидом. На ней обсуждаются кейсы из практики — результаты A/B-тестов, способы интерпретации данных. Важно, чтобы кандидат быстро понимал ситуацию и мог предложить решения. MLE на этом этапе встречаются с техлидом. Тут мы проверяем знания системного дизайна, архитектурных принципов и инженерных навыков. Важно, чтобы кандидат понимал, как работают векторные базы данных, и владел методами ускорения обучения и инференса нейронных сетей.

В реальной жизни процесс собеседования короче и проще, чем может показаться по описанию вакансий. Чему-то можно научить уже в процессе работы.

Куда расти Data Scientist и какие навыки для этого нужны - 7

На иллюстрации выше я обобщил основные моменты, но роль MLE частично пересекается с Data Engineering. Это задачи, связанные с real time, near real time, кодингом и пониманием архитектуры систем. У дата-сайентистов акцент больше смещен в сторону аналитики, классического машинного обучения и базового кодинга. Технические навыки можно описать всего тремя пунктами, дополнив их доменными кейсами.

Если добавить навыки, связанные с коммуникацией, общая картина становится еще проще. На самом деле доменных и коммуникационных навыков у дата-сайентиста больше, чем технических. Вы же помните, что дата-сайентист — это в первую очередь коммуникатор? Именно это делает DS ключевым звеном между технической командой и бизнесом.

Развитие специалистов в компании

Реальность в том, что карьерный трек для дата-сайентиста действительно разнообразный, у него много развилок. Начальный этап — это обычно стажерская позиция, потом — уровень джуна, а уже дальше карьера начинает развиваться по нескольким направлениям.

Куда расти Data Scientist и какие навыки для этого нужны - 8

Один из вариантов — продолжить работать в доменном направлении, ориентируясь на бизнес-метрики, и двигаться в сторону мидла. Этот путь предполагает погружение в бизнес-задачи, взаимодействие с заказчиками и ответственность за результаты. Но есть и другой путь — уйти в разработку, став MLE. Здесь меньше взаимодействия с бизнесом, а больше внимания уделяется системному дизайну, высоконагруженным сервисам и разработке алгоритмов.

На следующем этапе, независимо от выбранного направления, снова возникает вопрос: куда двигаться дальше? Можно перейти в роль лида. Для MLE это техлид продукта, а для DS — лид команды DS. Можно уйти в продуктовую сторону, став Product Owner, поскольку роли DS и PO в некоторых аспектах взаимозаменяемы.

Еще одна возможность — перейти в ресерч. Это выбор для тех, кто хочет меньше кодить, больше заниматься математикой, исследовать новые методы и работать с академическими датасетами. В ресече можно вырасти до уровня лидера исследований, а потом, к примеру, до академической должности.

Для более опытных специалистов доступны позиции высокого уровня — CPO крупного продукта или продуктового направления или техлид платформы. Здесь предстоит руководить крупными командами из 50–100 человек, то есть управлять уже не только техническими аспектами, но и организовывать работу сотрудников.

Куда расти Data Scientist и какие навыки для этого нужны - 9

В МТС мы инвестируем в развитие дата-сайентистов до и после найма. До найма — это различные образовательные инициативы: программы ШАД, курсы по анализу данных, магистратуры, кафедры и факультеты. Мы сотрудничаем с ВШЭ — например, сейчас будущие специалисты по ИИ учатся в магистратуре «Исследования и предпринимательство в искусственном интеллекте». Проводим ML-тренировки с ВШЭ, организуем соревнования и конференции, публикуем результаты своей работы и делимся наработками в формате open-source. Это позволяет потенциальным сотрудникам познакомиться с нашим стеком технологий и подходом к решению задач.

После найма развитие продолжается уже внутри компании. Мы приглашаем внешних спикеров из разных компаний по всему миру для выступлений, делимся опытом внутри центра и регулярно синхронизируемся. Когда в одном месте работают 70 специалистов, у них всегда есть что обсудить, будь то подходы к задачам или используемые методы. Мы практикуем кросс-ревью, где специалисты обмениваются обратной связью, анализируют работу друг друга — это помогает не только повышать качество решений, но и обогащать опыт команды.

Еще мы развиваем менторство: если кто-то хочет попробовать себя в роли руководителя, это отличный старт. Сотрудник учится давать корректную обратную связь, помогать другим становиться лучше и управлять процессами — как раз можно почувствовать, насколько это твое.

Теперь подытожу: карьера дата-сайентиста не линейная, как, например, в McDonald’s, когда двигаешься от кассира до старшего кассира и выше. Здесь все зависит от ваших навыков, интересов и направлений, которые вы выберете. Если интересна разработка и системный дизайн — путь в сторону MLE. Если больше привлекает бизнес, насмотренность и широкий охват доменов — это лид DS или PO. А если близка математика и академическая среда — добро пожаловать в ресерч. Так что закончу банальной, но работающей идеей: слушайте себя и двигайтесь к цели.

Если остались вопросы по теме, пишите в комментариях. Постараюсь на все ответить!

Автор: oksmoron

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js