Рубрика «data science» - 34

Superjob Data Science Meetup. Прямая трансляция

2017-03-02 в 15:58, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, Программирование, прямая трансляция, разработка, Сбербанк-Технологии, события, события IT профессионалов, трансляция

Специально для тех, кто не успел зарегистрироваться на Superjob Data Science Meetup, мы организуем прямую трансляцию события на Youtube или Facebook.

Начало в 19:00 по московскому времени.

Читать полностью »

Тонкости R. Как минута час экономит

2017-03-01 в 6:18, admin, рубрики: big data, data mining, data science, R

Довольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.

Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.

Читать полностью »

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

2017-02-28 в 9:45, admin, рубрики: churn rate, data analysis, data mining, data science, mlcourse_open, ods, pandas, pivot tables, python, seaborn, Блог компании Open Data Science, визуализация данных, машинное обучение, уроки python

Старт открытого курса OpenDataScience

Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению!

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas - 1

Первая статья посвящена первичному анализу данных с Pandas.

Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями.

Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas.

Читать полностью »

Будут ли data scientist’ы в ближайшее время заменены автоматизированными алгоритмами и искусственным интеллектом?

2017-02-22 в 13:24, admin, рубрики: big data, data mining, data science, data scientist, Блог компании New Professions Lab, глубокое обучение, машинное обучение

В современном машинном обучении и науке о данных можно выделить несколько трендов. Прежде всего, это глубокое обучение: распознавание изображений, аудио и видео, обработка текстов на естественных языках. Еще одним трендом становится обучение с подкреплением — reinforcement learning, позволяющее алгоритмам успешно играть в компьютерные и настольные игры, и дающее возможность постоянно улучшать построенные модели на основе отклика внешней среды.

Есть и еще один тренд, менее заметный, так как его результаты для внешних наблюдателей выглядят не так впечатляюще, но не менее важный — автоматизация машинного обучения. В связи с его стремительным развитием вновь актуальным становится вопрос о том, не будут ли data scientist’ы в конце концов автоматизированы и вытеснены искусственным интеллектом.
Читать полностью »

Базовые принципы машинного обучения на примере линейной регрессии

2017-02-20 в 13:01, admin, рубрики: bayes, data science, lasso, linear regression, machine learning, matplotlib, ods, open data science, python, ridge, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, метки: ods, open data science

Базовые принципы машинного обучения на примере линейной регрессии - 1 Здравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Читать полностью »

R в enterprise задачах. Хитрости и трюки

2017-02-17 в 9:51, admin, рубрики: big data, data mining, data science, R

Несмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.

И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.

Читать полностью »

Superjob Data Science Meetup

2017-02-16 в 9:00, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, Программирование, разработка, Сбербанк-Технологии, события, события IT профессионалов

Superjob приглашает на Data Science Meetup. Встречаемся 2 марта в нашем офисе на Малой Дмитровке.

Темы и спикеры:

«Применение алгоритмов поиска нечетких дубликатов в поиске вакансий»

Дмитрий Кожокарь, старший разработчик Superjob, расскажет об опыте создания эффективного алгоритма по поиску нечетких дубликатов среди большого количества полуструктурированных текстовых записей. В докладе рассматривается использование функции из семейства locality-sensitive hashing с дополнительными оптимизациями для выявления схожих вакансий и последующего объединения их в кластеры.
Читать полностью »

Вебинар: Введение в Singularity

2017-02-14 в 11:04, admin, рубрики: big data, BigData, data mining, data science, deep learning, FlyElephant, gpu, HPC, machine learning, mpi, singularity, xeon phi, Блог компании FlyElephant, вебинар, высокая производительность, машинное обучение

Вебинар: Введение в Singularity - 1

Команда FlyElephant приглашает всех на вебинар "Введение в Singularity", который проведет
Gregory Kurtzer (HPC Systems Architect и Technical Lead в Lawrence Berkeley National Laboratory).
Вебинар будет проходить завтра, 15 февраля, в 19:00 (EET) / 9:00 am (PST). Язык — английский.
Читать полностью »

Дедлайн конкурса Stepik Contest продлен до 31 марта, самое время создавать IT-задачи

2017-02-03 в 12:16, admin, рубрики: adaptive, adaptive learning, Applied Computer Science, challenge, Competition, contest, data science, java, javascript, lesson, online education, personalization, python, recommendation systems, stepik, stepik contest, stepik.org, Theoretical Computer Science, адаптивность, английский язык, Блог компании Stepik.org, грант, Занимательные задачки, конкурс, приз, программисты спасут мир, рекомендательные системы, стэпик

Новогодние праздники и январь прошли очень быстро и вместо большого количества курсов для конкурса Stepik Contest команда Stepik получила множество запросов с просьбами продлить дедлайн. Мы решили продлить срок конкурса до 31 марта, а сейчас — подвести промежуточные итоги, ответить на вопросы и разъяснить все неочевидные моменты конкурса.

Итак, конкурс Stepik Contest, дедлайн 31 марта, чтобы выиграть от $2K до $10K нужно создать 20+ задач по темам IT на платформе Stepik, adaptive.stepik.org.

Читать полностью »

Как отлаживать модели машинного обучения

2017-01-31 в 9:45, admin, рубрики: algorithms, data science, machine learning, wunderfund, Алгоритмы, Блог компании Wunder Fund, машинное обучение

Я размышлял, в основном с точки зрения преподавателя, о том, как научить отлаживать модели машинного обучения. Лично мне кажется полезным рассмотреть модель с точки зрения ошибок разного рода: байесовская ошибка (насколько ошибочен лучший из возможных классификаторов), ошибка аппроксимации (что мы потеряем из-за ограничения класса гипотезы), ошибка оценки (связанная с ограниченной длиной выборки), ошибка оптимизации (что случится, если не найти глобальный оптимум для задачи оптимизации). Я понял, что полезно попытаться отнести ошибку к определенной области, а потом устранять недостатки в этой конкретной области. Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 34

Superjob Data Science Meetup. Прямая трансляция

Тонкости R. Как минута час экономит

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Старт открытого курса OpenDataScience

Будут ли data scientist’ы в ближайшее время заменены автоматизированными алгоритмами и искусственным интеллектом?

Базовые принципы машинного обучения на примере линейной регрессии

R в enterprise задачах. Хитрости и трюки

Superjob Data Science Meetup

Вебинар: Введение в Singularity

Дедлайн конкурса Stepik Contest продлен до 31 марта, самое время создавать IT-задачи

Как отлаживать модели машинного обучения

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 34

Старт открытого курса OpenDataScience

Новости

Актуальные темы

Архив