Рубрика «data science» - 37

Анализируем как успешное трудоустройство и зарплата зависят от вуза, специальности и региона - 1

Привет!

В 2014 году мы совместно с несколькими министерствами и ведомствами дали старт мониторингу трудоустройства российских вузов, результаты которого были опубликованы в 2015 году на портале http://graduate.edu.ru/.

Мониторинг проводился среди выпускников 2013 года (у них было достаточно времени, чтобы найти работу). Сейчас идет работа над мониторингом выпускников 2014 года и мы решили рассказать вам о целях и результатах прошлогоднего проекта. Если вам интересно узнать, как размер зарплаты и успех трудоустройства зависит от вуза, специальности и региона, добро пожаловать под кат.
Читать полностью »

Команда Retail Rocket использует узкоспециализированный стек технологий Hadoop + Spark для вычислительного кластера, о котором мы уже писали обзорный материал в самом первом посте нашего инженерного блога на Хабре.

Готовых специалистов для таких технологий найти довольно сложно, особенно, если учесть, что программируем мы исключительно на Scala. Поэтому я стараюсь найти не готовых специалистов, а людей, имеющих минимальный опыт работы, но обладающих большим потенциалом. Мы берем даже людей с частичной занятостью, чтобы было удобно совмещать учебу и работу, если кандидат — студент последних курсов.

Курс молодого бойца для Spark-Scala - 1

Читать полностью »

С 2014 года в МГУ им. М. В. Ломоносова действует образовательная программа в области Data Mining и информационного поиска от Mail.Ru Group. Ее студенты изучают различные дисциплины в данной сфере и стажируются в соответствующих подразделениях компании, а также в лаборатории при МГУ, которую мы открыли осенью 2014 года. Мы уже писали про Техносферу тут и тут, а в этой статье хотим поподробнее рассказать о программе обучения, ее результатах, о деятельности лаборатории в стенах университета, а также взять небольшое интервью у стажеров программы.

Техносфера Mail.Ru: проекты студентов, лаборатория и чемпионаты по Data Science - 1
Читать полностью »

Пропущенные значения в данных — обычное в реальных задачах явление. Нужно знать, как эффективно работать с ними, если цель — уменьшить погрешность и построить точную модель. Давайте рассмотрим разные варианты обработки пропущенных значений и их реализацию.
Читать полностью »

Здравствуйте, уважаемыее!

В настоящее время мы всерьез намерены в обозримом будущем порадовать вас серьезной книгой по машинному или глубинному обучению. Среди книг, вызвавших у нас наибольший интерес, особого упоминания заслуживает работа Себастьяна Рашки "Python Machine Learning"

Как я писал книгу 'Python Machine Learning' - 1

Предлагаем почитать, что сам автор рассказывает об этой книге. Мы позволили себе сократить статью практически вдвое, так как вся ее вторая часть посвящена тонкостям писательского труда и оформления книги, а тематические тонкости и актуальность темы рассмотрены в самом начале. Надеемся, что вам понравится текст, а нам — результаты опроса.
Читать полностью »

Microsoft DevCon 2016 — компьютерное зрение, SQL Server 2016, Data Science и не только - 1

Друзья, с удовольствием делюсь с вами анонсами сразу нескольких мастер-классов, которые ожидают участников в первый день конференции DevCon 2016!

Новый формат конференции предлагает вам окунуться не просто в атмосферу технологий Microsoft, а с помощью наших экспертов затронуть самые актуальные темы разработки под Windows, использования сервисов Azure, особенностей нового выпуска SQL Server 2016 и аналитики данных.

Мы рады представить вам темы мастер-классов и познакомить с экспертами:
Читать полностью »

В новом выпуске «Черной археологии датамайнинга» мы немного поиграемся в шпионов. Увидим, что может узнать обычный Data Specialist на основе открытых в сети данных.

Всё началось со статьи на хабре, о том, что некий анинимный хакер делился слитыми в сеть данными агентов ФБР. Я получил эти данные, и стал смотреть, что с ними можно сделать? В данных есть только фамилия, имя, и служебные мейлы и телефон – немного информации.

Fbi Detected: Как я обнаружил агентов ФБР - 1

Получив эти данные, я увидел, что они заканчиваются буквой J. То есть, датасет не полон. Интресено, каков его полный размер? Чтобы узнать его, надо построить статистику частоты встречаемости фамилий.

Для этого я начал искать наборы американских фамилий, и тут меня ждало открытие – в Америке можно найти открытые данные по, скажем, избирателям штата – как я понял, совершенно легально. Например, я за полчаса без проблем получаю данные всех избирателей штата Юта.

Читать полностью »

image

BuzzFeed специализируется на виральном контенте и при подготовке своих публикаций активно использует анализ данных. Этим в компании занимается специальный отдел, которым руководит 41-летняя Дао Нгуйен. Ее должность в Buzzfeed официально звучит, как «издатель» (publisher), но в прессе ее уже прозвали «царицей данных».

Дао Нгуйен не отвечает за распространение и продажи. Она руководит в Buzzfeed всеми работниками, которые не связаны напрямую с подготовкой контента и рекламы. Речь идет о технической части, работе с данными и всем, что так или иначе связано с издательской платформой. А это, ни много ни мало – более 100 человек, что составляет около шестой части всего коллектива Buzzfeed. 

Благодаря работе аналитического отдела трафик Buzzfeed увеличился в 5 раз.

Об особенностях своей работы издатель Buzzfeed рассказала в интервью FastCompany. Мы перевели самые интересные моменты.
Читать полностью »

6 дней назад около полуночи мы, команда «EC.Dota2» из четырех человек, начали работать над онлайн частью хакатона «Dota Science». Никто из нас ничего не знал об игре Dota2.

Сначала, хронологически, о первой, «онлайн» части. Есть сетка игр мирового финала «The Shanghai Major 2016». Нужно до матча предсказать его исход. Как показало время (но не описание конкурса), предсказывать нужно было матчи за 3, 4, 5 марта. Для обучения были даны исторические данные о матчах в Dota2 по разным прошлым турнирам с агрегированной информацией о каждом матче. Со среды пришлось начать недосыпать, т.к. все днем работают. Для онлайн этапа были разработаны две модели.

В качестве показателя качества прогноза использовалась следующая метрика: score=log2(p_winner)+1, где p_winner — предсказанная до начала матча вероятность победы команды, которая в результате победила.

Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2» - 1

Тут стоит сказать несколько слов о целях хакатона. Цель формальная — получить самую высокую относительно других оценку качества прогнозов. Цель, соответствующая смыслу Data Fest — построить самую лучшую, относительно других, модель для прогнозирования исхода матча методами машинного обучения.

Один выступающий в последний день Data Fest 2 (Nuker?) верно заметил, что «задачу машинного обучения всегда можно решить и без машинного обучения» (своими собственными нейронными сетями в голове). Кто использовал модели, кто использовал экспертный опыт, кто просто случайно играл? Неизвестно.

Финальная оценка первого этапа – среднее всех значений метрики качества для предсказанных вероятностей. Как показывает турнирная таблица первого этапа Хакатона, количество предсказаний на «команду» разнилось в 10-20 раз. Читать полностью »

Приглашаем на Data Fest 5 и 6 марта - 1

5 и 6 марта в московском офисе компании Mail.Ru Group состоится Data Fest2 — двухдневная серия митапов российских Data Science-сообществ Moscow Data Fest и Moscow Data Science. Data Fest2 — это конференция, на которой участникам представится возможность познакомиться с разными направлениями в современном анализе данных: от сугубо практических вопросов внедрения результатов исследований до самых последних теоретических разработок в анализе текстов и глубоком обучении.

В рамках конференции также пройдут два мероприятия, где все участники смогут проявить себя: хакатон для желающих посоревноваться друг с другом в предсказании исхода турнира по Dota 2 и питч-постер сессия для исследователей, где можно будет представить результаты своих исследований и разработок.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js