Цель статьи — познакомить широкую аудиторию с соревнованиями по анализу данных на Kaggle. Я расскажу о своем подходе к участию на примере Outbrain click prediction соревнования, в котором я принимал участие и занял 4ое место из 979 команд, закончив первым из выступающих в одиночку.
Для понимания материала желательны знания о машинном обучении, но не обязательны.
Читать полностью »
Рубрика «data science» - 33
No free lunch. Введение в участие в соревнованиях по анализу данных на платформе Kaggle
2017-03-14 в 16:46, admin, рубрики: click prediction, data science, kaggle, machine learning, машинное обучениеОткрытый курс машинного обучения. Тема 2: Визуализация данных c Python
2017-03-06 в 12:58, admin, рубрики: data mining, data science, mlcourse_open, ods, plotly, python, seaborn, tsne, visualization, анализ данных, Блог компании Open Data Science, визуализация данных, машинное обучение
Привет всем, кто начал проходить курс! Новые участники, добро пожаловать! Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE.
Напомним, что к курсу еще можно подключиться, дедлайн по 1 домашнему заданию – 6 марта 23:59.
Сейчас статья уже будет существенно длиннее. Готовы? Поехали!
Superjob Data Science Meetup. Прямая трансляция
2017-03-02 в 15:58, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, Программирование, прямая трансляция, разработка, Сбербанк-Технологии, события, события IT профессионалов, трансляцияСпециально для тех, кто не успел зарегистрироваться на Superjob Data Science Meetup, мы организуем прямую трансляцию события на Youtube или Facebook.
Начало в 19:00 по московскому времени.
Читать полностью »
Тонкости R. Как минута час экономит
2017-03-01 в 6:18, admin, рубрики: big data, data mining, data science, RДовольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct
. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.
Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.
Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas
2017-02-28 в 9:45, admin, рубрики: churn rate, data analysis, data mining, data science, mlcourse_open, ods, pandas, pivot tables, python, seaborn, Блог компании Open Data Science, визуализация данных, машинное обучение, уроки pythonСтарт открытого курса OpenDataScience
Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению!
Первая статья посвящена первичному анализу данных с Pandas.
Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями.
Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas.
Будут ли data scientist’ы в ближайшее время заменены автоматизированными алгоритмами и искусственным интеллектом?
2017-02-22 в 13:24, admin, рубрики: big data, data mining, data science, data scientist, Блог компании New Professions Lab, глубокое обучение, машинное обучениеВ современном машинном обучении и науке о данных можно выделить несколько трендов. Прежде всего, это глубокое обучение: распознавание изображений, аудио и видео, обработка текстов на естественных языках. Еще одним трендом становится обучение с подкреплением — reinforcement learning, позволяющее алгоритмам успешно играть в компьютерные и настольные игры, и дающее возможность постоянно улучшать построенные модели на основе отклика внешней среды.
Есть и еще один тренд, менее заметный, так как его результаты для внешних наблюдателей выглядят не так впечатляюще, но не менее важный — автоматизация машинного обучения. В связи с его стремительным развитием вновь актуальным становится вопрос о том, не будут ли data scientist’ы в конце концов автоматизированы и вытеснены искусственным интеллектом.
Читать полностью »
Базовые принципы машинного обучения на примере линейной регрессии
2017-02-20 в 13:01, admin, рубрики: bayes, data science, lasso, linear regression, machine learning, matplotlib, ods, open data science, python, ridge, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, метки: ods, open data scienceЗдравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).
Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.
R в enterprise задачах. Хитрости и трюки
2017-02-17 в 9:51, admin, рубрики: big data, data mining, data science, RНесмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.
И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.
Superjob Data Science Meetup
2017-02-16 в 9:00, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, Программирование, разработка, Сбербанк-Технологии, события, события IT профессионаловSuperjob приглашает на Data Science Meetup. Встречаемся 2 марта в нашем офисе на Малой Дмитровке.
Темы и спикеры:
- «Применение алгоритмов поиска нечетких дубликатов в поиске вакансий»
Дмитрий Кожокарь, старший разработчик Superjob, расскажет об опыте создания эффективного алгоритма по поиску нечетких дубликатов среди большого количества полуструктурированных текстовых записей. В докладе рассматривается использование функции из семейства locality-sensitive hashing с дополнительными оптимизациями для выявления схожих вакансий и последующего объединения их в кластеры.
Читать полностью »
Вебинар: Введение в Singularity
2017-02-14 в 11:04, admin, рубрики: big data, BigData, data mining, data science, deep learning, FlyElephant, gpu, HPC, machine learning, mpi, singularity, xeon phi, Блог компании FlyElephant, вебинар, высокая производительность, машинное обучение
Команда FlyElephant приглашает всех на вебинар "Введение в Singularity", который проведет
Gregory Kurtzer (HPC Systems Architect и Technical Lead в Lawrence Berkeley National Laboratory).
Вебинар будет проходить завтра, 15 февраля, в 19:00 (EET) / 9:00 am (PST). Язык — английский.
Читать полностью »