Рубрика «data scientist»

Привет! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м - 1

Читать полностью »

image

11 апреля 2006

В город приезжает молодой человек. Он хорошо выглядит и имеет немного денег в кармане, ему легко найти общий язык с женщинами.

Он мало говорит о своем прошлом, но очевидно, что он провел много времени в бездушной большой компании.

Он разумеется дружелюбный и общительный, спокойный и уверенный в себе, не заносчив. Поэтому легко может взять небольшую работу с доски объявлений в местном Кафе для программистов. Но быстро теряет интерес к проектам баз данных страхования, веб-страницам для домохозяек и движкам для финансовых расчетов.

Спустя год он подсчитал, что накопил достаточно денег для того, чтобы оплатить свои скромные расходы за год. Поэтому, посоветовавшись со своей верной немецкой овчаркой, он ставит компьютер в залитой солнцем комнате, арендованной квартиры и устанавливает тщательно подобранные инструменты для работы.

И он садится писать код.
Читать полностью »

Как узнать наверняка, что внутри у колобка?
Может, ты его проглотишь, а внутри него река?
© Таня Задорожная

Что такое Data Science сегодня, кажется, знают уже не только дети, но и домашние животные. Спроси любого котика, и он скажет: статистика, Python, R, BigData, машинное обучение, визуализация и много других слов, в зависимости от квалификации. Но не все котики, а также те, кто хочет стать специалистом по Data Science, знают, как именно устроен Data Science-проект, из каких этапов он состоит и как каждый из них влияет на конечный результат, насколько ресурсоемким является каждый из этапов проекта. Для ответа на эти вопросы как правило служит методология. Однако бОльшая часть обучающих курсов, посвященных Data Science, ничего не говорит о методологии, а просто более или менее последовательно раскрывает суть упомянутых выше технологий, а уж со структурой проекта каждый начинающий Data Scientist знакомится на собственном опыте (и граблях). Но лично я люблю ходить в лес с картой и компасом и мне нравится заранее представлять план маршрута, которым двигаешься. После некоторых поисков неплохую методологию мне удалось найти у IBM — известного производителя гайдов и методик по управлению чем угодно.
Читать полностью »

Сообщество ML-REPA приглашает на открытый митап по вопросам воспроизводимости и управлению экспериментами в computer vision, который пройдет 15 августа в офисе Райффайзенбанк в Нагатино.

На митапе будем разбираться с особенностями обеспечения воспроизводимости экспериментов в Computer Vision, автоматизации пайплайнов и версионирование моделей. Где может пригодиться DVC или MLFlow? А где лучше написать свой “велосипед“? Также глубже посмотрим на реализацию Catalyst и его применение.

Data and Models Version control in Computer Vision meetup - 1
Читать полностью »

Всем привет. Открыт набор на новый курс от Otus — "Прикладная аналитика на R", который стартует уже в конце этого месяца. В связи с этим хочу поделиться переводом публикации о разнице между аналитиком по данным и статистиком, который в свою очередь использует R на практике.

Введение

За последние десять лет объемы данных и скорость их появления росли по экспоненте. Если верить отчетам, каждый день появляется более 3 квинтиллионов байтов данных! Неудивительно, что для работы с ними появилась новая профессия исследователя данных (data scientist) — разностороннего специалиста по анализу и обработке данных. Однако люди занимались статистикой и до появления цифровых средств обработки данных. В чем же различия этих двух профессий: исследователь данных и статистик?

Давайте разберемся.

Читать полностью »

Data Science — сфера не новая. Обработкой данных занимаются уже более 50 лет, что не мешает сфере оставаться на пике популярности: аналитики данных и Data Scientist сегодня очень востребованы среди работодателей. Редакция Нетологии решила расспросить у экспертов рынка — агентства New.HR, которое специализируется на направлении Data Science, и ведущих IT-компаний — о реальном положении дел в области работы с данными.

Сколько получают специалисты разного уровня? Как повысить свою ценность в глазах работодателя? Где компании ищут себе сотрудников? На что HR смотрят в первую очередь при выборе кандидата?
Читать полностью »

image
HIROSHI WATANABE/GETTY IMAGES

В книге «Богатство народов» Адам Смит показывает, как разделение труда становится главным источником повышения производительности. Примером выступает линия сборки завода по производству булавок: «Один рабочий тянет проволоку, другой выпрямляет её, третий обрезает, четвертый заостряет конец, пятый обтачивает другой конец для насаживания головки». Благодаря специализации, ориентированной на определенные функции, каждый работник становится высококвалифицированным специалистом в своей узкой задаче, которая приводит к повышению эффективности процесса. Выпуск на одного работника увеличивается во много раз, а завод становится более эффективным в производстве булавок.

Такое разделение труда по функциональности настолько укоренилось в наших умах даже сегодня, что мы быстро организовали наши команды соответствующим образом. Data Science не является исключением. Комплексные алгоритмические бизнес-возможности требуют множества трудовых функций, поэтому компании обычно создают группы специалистов: исследователей, инженеров по анализу данных, инженеров машинного обучения, ученых, занимающихся причинно-следственными связями, и так далее. Работа специалистов координируется менеджером по продукту с передачей функций таким образом, который напоминает фабрику булавок: «один человек получает данные, другой моделирует их, третий выполняет их, четвертый измеряет» и так далее,
Читать полностью »

Почему data scientist — это не data engineer? - 1

«Ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру». Гордон Линдсей Глегг, «Дизайн дизайна» (1969)

Несколько месяцев назад я писал о различиях между специалистами по теории и методам анализа данных (data scientist) и специалистами по обработке данных (data engineer). Я говорил об их навыках и общих отправных точках. Произошло кое-что интересное: data scientist'ы начали наступать, утверждая, что они на самом деле так же компетентны в области инженерии данных, как и специалисты по обработке данных. Это было интересно, потому что специалисты по обработке данных не высказывали возражений и не говорили, что они являются специалистами по теории анализа данных.

Поэтому последние несколько месяцев я занимался сбором информации и наблюдением за поведением специалистов по теории анализа данных в их естественной рабочей среде. В этом посте я подробнее расскажу о том, почему data scientist не является data engineer'ом.
Читать полностью »

И снова привет!

В декабре у нас стартует обучение очередной группы «Data scientist», поэтому открытых уроков и прочих активностей становится всё больше. Например, буквально на днях прошёл вебинар под длинным названием «Feature Engineering на примере классического датасета Титаника». Его провёл Александр Сизов — опытный разработчик, кандидат технических наук, эксперт по Machine/Deep learning и участник различных коммерческих международных проектов, связанных с искусственным интеллектом и анализом данных.

Открытый урок занял около полутора часов. В ходе вебинара преподаватель рассказал про подбор признаков, преобразование исходных данных (кодирование, масштабирование), настройку параметров, обучение модели и много чего ещё. В процессе проведения урока участникам показывалась тетрадь Jupyter Notebook. Для работы использовались открытые данные с платформы Kaggle (классический датасет про «Титаник», с которого многие начинают знакомство с Data Science). Ниже предлагаем видео и транскрипт прошедшего мероприятия, а тут можно забрать презентацию и коды в юпитеровском ноутбуке.

Читать полностью »

Мы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.

— Яна, расскажи немного о себе и своем бэкграунде.

— Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js