Рубрика «data science» - 15

Перед вами перевод статьи Genevieve Hayes, Data Scientist с 15-летним опытом работы. Автор рассказывает о том, какие навыки стоит развивать, чтобы значительно увеличить шансы найти работу в Data Science. Чтобы определить эти навыки, она проанализировала 100 вакансий, размещенных работодателями из Австралии, Канады, Великобритании и США.

Шесть навыков, которые выведут вашу карьеру в Data Science на новый уровень - 1Читать полностью »

image

31 августа 2019г. Mail.ru Group и сообщество Open Data Science приглашают на Moscow Data Science Major. Это как Data Fest, только мини. Событие состоит из 8 тематических блоков докладов, 1 ML-тренировки и 8 часов ударной порции нетворкинга и знакомств. Знакомьтесь с программой и регистрируйтесь! Вход на событие бесплатный, по одобренной регистрации. Регистрация закрывается в 29 августа в 12:00.
Читать полностью »

Хороший инструмент + наличие навыков работы с ним, что достигается путем практики, позволяет легко и элегантно решать множество различных «как бы» нетипичных задач. Ниже пара подобных примеров. Уверен, что многие могут этот список расширить.

Является продолжением предыдущих публикаций.Читать полностью »

Нынешнее образование в школе все более и более редуцируется. А в оставшейся части акцент все более и более ставится на внешний эффект. «Проектная работа», презентации, вау-эффекты и пр. мишура. Причем зачастую непонятно, кому раздают все эти упражнения — ребенку или родителям? Следствием всего этого является необходимость дополнительных занятий в различных кружках, в рамках школы или же альтернативно, если есть цель дать ребенку полноценное образование.

В случае с математикой или физикой можно попытаться поймать двух зайцев (ну или зайца и зайчонка). Совместить решение задач из доп. занятий (школьная программа для этого не пригодна) с параллельным воспитанием культуры работы с данными и обучению алгоритмическим подходам. Речь идет не про чат-ботов в три строки, а о применении компьютера в рамках изначальной цели — проведение вычислений, проведение численных экспериментов, моделировании и выявлению скрытых зависимостей, на основании которых можно строить новые гипотезы.

Сразу отмечу, что тема будет интересна далеко не всем. Кому это неактуально — проходите мимо. У кого будут доп. идеи, было бы интересно тоже ознакомиться. Далее будет ряд задачек, которые были позаимствованы с курсов «Меташколы», математика 3-ий класс. Естественно, что сначала задача решается логическими рассуждениями, потом обсуждается способ решения с применением компьютера. В качестве инструмента использовался R.

Является продолжением предыдущих публикаций.Читать полностью »

Всем привет. Делимся переводом заключительной части статьи, подготовленной специально для студентов курса «Data Engineer». С первой частью можно ознакомиться тут.

Apache Beam и DataFlow для конвейеров реального времени

Создаем конвейер потоковой обработки данных. Часть 2 - 1

Настройка Google Cloud

Примечание: Для запуска конвейера и публикации данных пользовательского лога я использовал Google Cloud Shell, поскольку у меня возникли проблемы с запуском конвейера на Python 3. Google Cloud Shell использует Python 2, который лучше согласуется с Apache Beam.

Чтобы запустить конвейер, нам нужно немного покопаться в настройках. Тем из вас, кто раньше не пользовался GCP, необходимо выполнить следующие 6 шагов, приведенных на этой странице.Читать полностью »

Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навыками проведения параллельных вычислений, да и задача должна быть приведена к разделяемому на части виду, если таковой существует. Но при грамотном подходе можно весьма ускорить решение задачи однопоточным R, если у вас под руками есть хотя бы многоядерный процессор (а он есть сейчас почти у всех), с поправкой на теоретическую границу ускорения, определяемую законом Амдала. Однако, в ряде случаев даже его можно обойти.

Является продолжением предыдущих публикаций.Читать полностью »

Вот уже «тысячу лет» ничего не писал, но вдруг неожиданно появился повод сдуть пыль с мини-цикла публикаций по «обучению Data Science с нуля». В контекстной рекламе одной из соцсетей, а также на любимом «Хабре», я наткнулся на информацию о курсе «Старт в Data Science». Стоил он сущие копейки, описание курса было красочное и многообещающее. «Почему бы не восстановить, запылившиеся от ненадобности навыки пройдя очередной курс?» — подумал я. Также свою роль сыграло любопытство, давно хотелось посмотреть, как устроена организация обучения у этой конторы.

Сразу предупрежу, я никак не аффилирован с разработками курса или их конкурентами. Весь материал статьи — мое субъективное оценочное суждение с легким налетом иронии.
Итак, вы все еще не знаете куда стоит вложить свои кровные 990 рублей? Тогда милости прошу под кат.

«Как ставить сети на начинающих аналитиков» или обзор на онлайн курс «Старт в Data Science» - 1
Читать полностью »

Перевод подготовлен для студентов курса «Прикладная аналитика на R».

Иерархическая кластеризация категориальных данных в R - 1


Это была моя первая попытка выполнить кластеризацию клиентов на основе реальных данных, и она дала мне ценный опыт. В Интернете есть множество статей о кластеризации с использованием численных переменных, однако найти решения для категориальных данных, работа с которыми несколько сложнее, оказалось не так просто. Методы кластеризации категориальных данных еще только разрабатываются, и в другом посте я собираюсь попробовать еще один.
Читать полностью »

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »

ok.tech: Data Толк #2 - 1

7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2, в этот раз мероприятие будет посвящено образованию в Data Science. Ни для кого не секрет, что сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области датасаенса. Кто-то считает, что без университетского образования стать датасаентистом – невозмножно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции что хороший датасаентист это – практика и разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему. Мероприятие пройдет в формате дискусси между спикерами, в этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, Digital October) и Виктор Кантор (Mail.ru Group). Мы приглашаем всех, кому интересна тема образования в DataScience присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах, приходите и расскажите что это вам дало, считаете, что без PHD в анализе данных нельзя, приходите и расскажите почему, считаете, что датасентист должен уметь писать в прод, приходите – обсудим.

→ Регистрация на меропритие

Под катом мнения экспертов и расписание.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js