Рубрика «data science» - 21

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM)

2018-11-01 в 13:16, admin, рубрики: algorithms, big data, data science, machine learning, python, sklearn, математика, машинное обучение, Программирование

Предисловие

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM) - 1

В данной статье мы изучим несколько аспектов SVM:

теоретическую составляющую SVM;
как алгоритм работает на выборках, которые невозможно разбить на классылинейно;
пример использования на Python и имплементация алгоритма в библиотеке SciKit Learn.

Читать полностью »

Машинное обучение в MatLab-Octave: примеры алгоритмов, подкрепленные формулами

2018-10-31 в 15:52, admin, рубрики: artificial intelligence, data science, machine learning, Matlab, neural network, neural networks, искусственный интеллект, машинное обучение, Программирование

Недавно я начал изучать machine learning. Начал с прекрасного, на мой взгляд, курса от Andrew Ng. И чтобы не забыть, а так же повторить выученное решил создать репозиторий Machine Learning in Octave. В нем я собрал математические формулы для гипотез, градиентных спусков, "cost function"-ов, сигмоидов и прочих фундаментальных для машинного обучения "штук". Так же добавил туда упрощенные и доработанные примеры реализации некоторых популярных алгоритмов (нейронная сеть, линейная/логистическая регрессия и пр.) для MatLab/Octave. Надеюсь эта информация будет полезна для тех из вас, кто планирует начать изучение machine learning-а.

Читать полностью »

Как интерпретировать предсказания моделей в SHAP

2018-10-30 в 11:02, admin, рубрики: big data, data science, feature importance, machine learning, shap, машинное обучение

Одной из важнейших задач в сфере data science является не только построение модели, способной делать качественные предсказания, но и умение интерпретировать такие предсказания.

Если мы не просто знаем, что клиент склонен купить товар, но так же понимаем, что влияет на его покупку, мы сможем в будущем выстраивать стратегию компанию, направленную на повышение эффективности продаж.
Читать полностью »

How linear algebra is applied in machine learning

2018-10-21 в 8:12, admin, рубрики: data analysis, data science, english, linear algebra, machine learning, maths, математика, машинное обучение

When you study an abstract subject like linear algebra, you may wonder: why do you need all these vectors and matrices? How are you going to apply all this inversions, transpositions, eigenvector and eigenvalues for practical purposes?

Well, if you study linear algebra with the purpose of doing machine learning, this is the answer for you.

In brief, you can use linear algebra for machine learning on 3 different levels:

application of a model to data;
training the model;
understanding how it works or why it does not work.

drawing Читать полностью »

Как правильно «фармить» Kaggle

2018-10-18 в 11:00, admin, рубрики: data mining, data science, kaggle, ods, open data science, python, Блог компании Open Data Science, кэгл, математика, машинное обучение

*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).

Введение

Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме — ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

Читать полностью »

Хакатон по Data Science в СИБУРе: как это было

2018-10-17 в 9:40, admin, рубрики: data mining, data science, machine learning, predictive maintenance, Блог компании Цифровой СИБУР, машинное обучение, производство, прототипирование, Сибур, хакатон, Хакатоны

Привет!

С начала года мы провели больше 10 хакатонов и воркшопов по всей стране. В мае мы вместе с AI-community организовывали хакатон по направлению «Цифровизация производства». До нас хакатон про data science на производстве ещё не делали, и сегодня мы решили подробно рассказать о том, как это было.

Цель была проста. Нужно было оцифровать наш бизнес на всех его этапах (от поставок сырья до производства и прямых продаж). Само собой, должны были решаться и задачи прикладного характера, например:

устранение простоев оборудования, технологических нарушений и сбоев;
повышение производительности и вместе с этим — качества продукции;
снижение затрат на логистику и закупки;
ускорение запуска и вывода на рынок новых продуктов.

В чём главная ценность таких задач? Правильно, в максимальном приближении к настоящим бизнес-кейсам, а не к абстрактным проектам. Первая задача уже подробно описана на Хабре одним из участников (спасибо, cointegrated Давид!). А второй задачей, вынесенной на хакатон, стала необходимость оптимизировать процесс совмещения плановых ремонтов ж/д-вагонов логистического парка. Это взяли прямо из нашего текущего бэклога, немного адаптировав для участников, дабы сделать её понятнее.

Итак, описание задачи.
Читать полностью »

Самые востребованные навыки в сфере data science

2018-10-16 в 8:58, admin, рубрики: data science, Блог компании Everyday Tools, глубокое обучение, карьера, Карьера в IT-индустрии, машинное обучение, поиск работы, работа с данными, Учебный процесс в IT

В плане знаний от специалистов по data science ждут многого: машинное обучение, программирование, статистика, математика, визуализация данных, коммуникация и глубокое обучение. Каждая из этих областей охватывает десятки языков, фреймворков, технологий, доступных для изучения. Так как же специалистам по работе с данными лучше распорядиться своим бюджетом времени на обучение, чтобы быть в цене у работодателей?

Я тщательно изучил сайты с вакансиями, чтобы выяснить, какие же навыки сейчас пользуются наибольшей популярностью у работодателей. Я рассматривал как более широкие дисциплины, связанные с работой с данными, так и конкретные языки и инструменты, в рамках отдельного исследования. За материалами я обратился к сайтам LinkedIn, Indeed, SimplyHired, Monster и AngelList, по состоянию на 10 октября 2018 года. На графике ниже показано, сколько вакансий по data science представлено на каждом из этих ресурсов.

Самые востребованные навыки в сфере data science - 1

Читать полностью »

Диаризация на основе модели GMM-UBM и алгоритма MAP adaptation

2018-09-14 в 6:34, admin, рубрики: data science, gmm-ubm, map adaptation, python, speaker diarization, звук, машинное обучение

Привет. Я бы хотел рассказать об одном из подходов в решении задачи диаризации дикторов и показать, как этот метод можно реализовать на языке python. Чтобы не отпугивать читателя, я не буду приводить сложные математические формулы (отчасти потому что я и сам «не настоящий сварщик»), а постараюсь изложить всё простым языком и рассказать всё так, чтобы понял разработчик, никогда прежде не сталкивавшийся с машинным обучением.
Читать полностью »

Python и DataScience: изучаем возможности универсальной библиотеки Numpy

2018-09-06 в 8:58, admin, рубрики: data science, numpy, python, Блог компании Skillbox, вычисления, математика, Учебный процесс в IT

Python и DataScience: изучаем возможности универсальной библиотеки Numpy - 1

От переводчика: это перевод материала Ракшита Васудева, давно и плотно изучающего DataScience и применение в ней языка Python. Автор рассказывает о мощной библиотеке Numpy, который позволяет реализовать многие возможности машинного обучения и работы с большими данными.

Numpy — математическая библиотека для Python. Она позволяет выполнять разного рода вычисления эффективно и быстро. Она значительно расширяет функциональность Python благодаря специальным решениям, которые в ней применяются. В этой статье рассказывается о базовых возможностях Numpy, и это только первая часть; чуть позже будут опубликованы и другие. Статья для тех, кто только начинает изучать Numpy, вступая в дивный мир математики в Python.
Читать полностью »

Насколько данные для обучения модели (не)похожи на тестовую выборку?

2018-09-03 в 14:51, admin, рубрики: big data, data mining, data preprocessing, data science, machine learning, python, математика, машинное обучение

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна.

Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Сможете работать с данными? И как будете это делать?
Насколько данные для обучения модели (не)похожи на тестовую выборку? - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 21

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM)

Предисловие

Машинное обучение в MatLab-Octave: примеры алгоритмов, подкрепленные формулами

Как интерпретировать предсказания моделей в SHAP

How linear algebra is applied in machine learning

Как правильно «фармить» Kaggle

Введение

Хакатон по Data Science в СИБУРе: как это было

Самые востребованные навыки в сфере data science

Диаризация на основе модели GMM-UBM и алгоритма MAP adaptation

Python и DataScience: изучаем возможности универсальной библиотеки Numpy

Насколько данные для обучения модели (не)похожи на тестовую выборку?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 21

Предисловие

Введение

Новости

Актуальные темы

Архив