Рубрика «data science» - 20

Есть такой популярный класс задач, в которых требуется проводить достаточно глубокий анализ всего объема цепочек работ, регистрируемых какой-либо информационной системой (ИС). В качестве ИС может быть документооборот, сервис деск, багтрекер, электронный журнал, складской учет и пр. Нюансы проявляются в моделях данных, API, объемах данных и иных аспектах, но принципы решения таких задач примерно одинаковы. И грабли, на которые можно наступить, тоже во многом похожи.

Для решения подобного класса задач R подходит как нельзя лучше. Но, чтобы не разводить разочарованно руками, что R может и хорош, но о-о-очень медленный, важно обращать внимание на производительность выбираемых методов обработки данных.

Является продолжением предыдущих публикаций.Читать полностью »

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow.

Совершеннолетняя журналистика: от России до Кремля - 1

В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. Заодно, если повезёт, узнать что-то новое о российской журналистике, обществе и вообще.

Читать полностью »

Привет!

10 ноября (уже завтра!) в Москве в киноцентре «Октябрь» пройдет большая конференция Sberbank Data Science Day, где будут награждение победителей SDSJ 2018, выступления большого количества международных и российских экспертов в области Data Science, секции про ML и применение искусственного интеллекта в науке и бизнесе. И еще много интересного!

Прямую трансляцию можно посмотреть тут. Под катом и на сайте программа. Также рассказываем, как оценивали победителей Sberbank Data Science Journey.

Прямая трансляция Sberbank Data Science Day 10 ноября - 1

Читать полностью »

Building client routing / semantic search and clustering arbitrary external corpuses at Profi.ru

TLDR

This is a very short executive summary (or a teaser) about what we managed to do in approximately 2 months in the Profi.ru DS department (I was there for a bit longer, but onboarding myself and my team was a separate thing to be done at first).

Читать полностью »

Оптимизация работы оборудования, предиктивный мониторинг, построение зависимостей реальной прибыли от технологического режима и многие другие задачи из области цифровой химии уже решаются с помощью DataScience-технологий. У нас в рамках цифровой трансформации производственных и бизнес-процессов над этим работает направление «Продвинутая аналитика».

Онлайн-чемпионат по Data Science - 1

Возможно ли правильно спрогнозировать объёмы производства, учитывая все особенности процесса и технологические параметры? Скоро узнаем.

СИБУР запускает онлайн-чемпионат по Data Science, который продлится до 19 ноября. Желающим принять участие нужно зарегистрироваться до 16 ноября. Решения принимаются до 19, а 24 ноября – финал.

Общий призовой фонд составляет более 600 000 рублей: 1 место – 200 000 рублей, 2 место – 150 000 рублей, 3 место – 70 000 рублей, 4, 5 и 6 места – 40 000 рублей. Лучшие проекты дополнительных треков – 20 000 рублей и квадрокоптеры. В команде может быть от 1 до 4 участников.

Читать полностью »

Предисловие

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM) - 1

В данной статье мы изучим несколько аспектов SVM:

  • теоретическую составляющую SVM;
  • как алгоритм работает на выборках, которые невозможно разбить на классылинейно;
  • пример использования на Python и имплементация алгоритма в библиотеке SciKit Learn.

Читать полностью »

image

Недавно я начал изучать machine learning. Начал с прекрасного, на мой взгляд, курса от Andrew Ng. И чтобы не забыть, а так же повторить выученное решил создать репозиторий Machine Learning in Octave. В нем я собрал математические формулы для гипотез, градиентных спусков, "cost function"-ов, сигмоидов и прочих фундаментальных для машинного обучения "штук". Так же добавил туда упрощенные и доработанные примеры реализации некоторых популярных алгоритмов (нейронная сеть, линейная/логистическая регрессия и пр.) для MatLab/Octave. Надеюсь эта информация будет полезна для тех из вас, кто планирует начать изучение machine learning-а.

Читать полностью »

Одной из важнейших задач в сфере data science является не только построение модели, способной делать качественные предсказания, но и умение интерпретировать такие предсказания.

Если мы не просто знаем, что клиент склонен купить товар, но так же понимаем, что влияет на его покупку, мы сможем в будущем выстраивать стратегию компанию, направленную на повышение эффективности продаж.
Читать полностью »

When you study an abstract subject like linear algebra, you may wonder: why do you need all these vectors and matrices? How are you going to apply all this inversions, transpositions, eigenvector and eigenvalues for practical purposes?

Well, if you study linear algebra with the purpose of doing machine learning, this is the answer for you.

In brief, you can use linear algebra for machine learning on 3 different levels:

  • application of a model to data;
  • training the model;
  • understanding how it works or why it does not work.

drawingЧитать полностью »

image
*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).

Введение

Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме — ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js