Перед вами перевод статьи Genevieve Hayes, Data Scientist с 15-летним опытом работы. Автор рассказывает о том, какие навыки стоит развивать, чтобы значительно увеличить шансы найти работу в Data Science. Чтобы определить эти навыки, она проанализировала 100 вакансий, размещенных работодателями из Австралии, Канады, Великобритании и США.
Рубрика «data science» - 15
Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень
2019-08-26 в 14:38, admin, рубрики: big data, data engineering, data mining, data science, mashine learning, Блог компании Plarium, Карьера в IT-индустрии, карьера в ИТ, машинное обучение, навыки и умения, прокачка, статистическое моделированиеMoscow Data Science Major August 2019: программа и регистрация
2019-08-26 в 12:43, admin, рубрики: big data, data science, DS, machine learning, mail.ru group, ml, pydata, Блог компании Mail.Ru Group, искусственный интеллект, конференции, машинное обучение31 августа 2019г. Mail.ru Group и сообщество Open Data Science приглашают на Moscow Data Science Major. Это как Data Fest, только мини. Событие состоит из 8 тематических блоков докладов, 1 ML-тренировки и 8 часов ударной порции нетворкинга и знакомств. Знакомьтесь с программой и регистрируйтесь! Вход на событие бесплатный, по одобренной регистрации. Регистрация закрывается в 29 августа в 12:00.
Читать полностью »
Хороший инструмент + наличие навыков работы с ним, что достигается путем практики, позволяет легко и элегантно решать множество различных «как бы» нетипичных задач. Ниже пара подобных примеров. Уверен, что многие могут этот список расширить.
Является продолжением предыдущих публикаций.Читать полностью »
Нынешнее образование в школе все более и более редуцируется. А в оставшейся части акцент все более и более ставится на внешний эффект. «Проектная работа», презентации, вау-эффекты и пр. мишура. Причем зачастую непонятно, кому раздают все эти упражнения — ребенку или родителям? Следствием всего этого является необходимость дополнительных занятий в различных кружках, в рамках школы или же альтернативно, если есть цель дать ребенку полноценное образование.
В случае с математикой или физикой можно попытаться поймать двух зайцев (ну или зайца и зайчонка). Совместить решение задач из доп. занятий (школьная программа для этого не пригодна) с параллельным воспитанием культуры работы с данными и обучению алгоритмическим подходам. Речь идет не про чат-ботов в три строки, а о применении компьютера в рамках изначальной цели — проведение вычислений, проведение численных экспериментов, моделировании и выявлению скрытых зависимостей, на основании которых можно строить новые гипотезы.
Сразу отмечу, что тема будет интересна далеко не всем. Кому это неактуально — проходите мимо. У кого будут доп. идеи, было бы интересно тоже ознакомиться. Далее будет ряд задачек, которые были позаимствованы с курсов «Меташколы», математика 3-ий класс. Естественно, что сначала задача решается логическими рассуждениями, потом обсуждается способ решения с применением компьютера. В качестве инструмента использовался R.
Является продолжением предыдущих публикаций.Читать полностью »
Создаем конвейер потоковой обработки данных. Часть 2
2019-08-05 в 14:52, admin, рубрики: big data, data science, Google Cloud Platform, programming, python, Towards Data Science, Блог компании OTUS. Онлайн-образование, хранение данныхВсем привет. Делимся переводом заключительной части статьи, подготовленной специально для студентов курса «Data Engineer». С первой частью можно ознакомиться тут.
Apache Beam и DataFlow для конвейеров реального времени
Настройка Google Cloud
Примечание: Для запуска конвейера и публикации данных пользовательского лога я использовал Google Cloud Shell, поскольку у меня возникли проблемы с запуском конвейера на Python 3. Google Cloud Shell использует Python 2, который лучше согласуется с Apache Beam.
Чтобы запустить конвейер, нам нужно немного покопаться в настройках. Тем из вас, кто раньше не пользовался GCP, необходимо выполнить следующие 6 шагов, приведенных на этой странице.Читать полностью »
Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам
2019-08-04 в 19:47, admin, рубрики: big data, data mining, data science, R, параллельное программированиеПараллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навыками проведения параллельных вычислений, да и задача должна быть приведена к разделяемому на части виду, если таковой существует. Но при грамотном подходе можно весьма ускорить решение задачи однопоточным R, если у вас под руками есть хотя бы многоядерный процессор (а он есть сейчас почти у всех), с поправкой на теоретическую границу ускорения, определяемую законом Амдала. Однако, в ряде случаев даже его можно обойти.
Является продолжением предыдущих публикаций.Читать полностью »
«Как ставить сети на начинающих аналитиков» или обзор на онлайн курс «Старт в Data Science»
2019-08-04 в 16:07, admin, рубрики: data science, анализ данных, курсы, обучение онлайн, Учебный процесс в ITВот уже «тысячу лет» ничего не писал, но вдруг неожиданно появился повод сдуть пыль с мини-цикла публикаций по «обучению Data Science с нуля». В контекстной рекламе одной из соцсетей, а также на любимом «Хабре», я наткнулся на информацию о курсе «Старт в Data Science». Стоил он сущие копейки, описание курса было красочное и многообещающее. «Почему бы не восстановить, запылившиеся от ненадобности навыки пройдя очередной курс?» — подумал я. Также свою роль сыграло любопытство, давно хотелось посмотреть, как устроена организация обучения у этой конторы.
Сразу предупрежу, я никак не аффилирован с разработками курса или их конкурентами. Весь материал статьи — мое субъективное оценочное суждение с легким налетом иронии.
Итак, вы все еще не знаете куда стоит вложить свои кровные 990 рублей? Тогда милости прошу под кат.
Иерархическая кластеризация категориальных данных в R
2019-07-29 в 13:35, admin, рубрики: big data, clustering, data science, R, segmentation, visualization, Блог компании OTUS. Онлайн-образованиеПеревод подготовлен для студентов курса «Прикладная аналитика на R».
Это была моя первая попытка выполнить кластеризацию клиентов на основе реальных данных, и она дала мне ценный опыт. В Интернете есть множество статей о кластеризации с использованием численных переменных, однако найти решения для категориальных данных, работа с которыми несколько сложнее, оказалось не так просто. Методы кластеризации категориальных данных еще только разрабатываются, и в другом посте я собираюсь попробовать еще один.
Читать полностью »
Извлечение данных при машинном обучении
2019-07-19 в 12:15, admin, рубрики: big data, BigData, data mining, data science, jupyter notebook, mashine learning, python, Блог компании Plarium, дата-майнинг, машинное обучение, наука о данных, новичкам, сбор данныхХотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.
Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »
ok.tech: Data Толк #2
2019-07-17 в 9:17, admin, рубрики: big data, data mining, data science, анализ данных, Блог компании Одноклассники, образование в ит7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2, в этот раз мероприятие будет посвящено образованию в Data Science. Ни для кого не секрет, что сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области датасаенса. Кто-то считает, что без университетского образования стать датасаентистом – невозмножно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции что хороший датасаентист это – практика и разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему. Мероприятие пройдет в формате дискусси между спикерами, в этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, Digital October) и Виктор Кантор (Mail.ru Group). Мы приглашаем всех, кому интересна тема образования в DataScience присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах, приходите и расскажите что это вам дало, считаете, что без PHD в анализе данных нельзя, приходите и расскажите почему, считаете, что датасентист должен уметь писать в прод, приходите – обсудим.
Под катом мнения экспертов и расписание.
Читать полностью »