Рубрика «data mining» - 73

Big Data в Билайне: реальный опыт - 1

Привет! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
Читать полностью »

Big Data на практике: ожидание VS реальность - 1Привет, хабр!

После последней публикации «Ваш персональный курс по Big Data» мне пришло несколько сотен писем с вопросами, читая которые, я с удивлением обнаружил, что люди очень сильно погружаются в теорию, уделяя мало времени решению практических задач, в которых навыки необходимы совершенно другие. Cегодня я расскажу, какие сложности появляются на практике и с чем приходится работать при решении реальных задач.
Читать полностью »

Хочу поделиться опытом участия в конкурсе Kaggle и алгоритмами машинного обучения, с помощью которых добрался до 18-го места из 1604 в конкурсе Avazu по прогнозированию CTR (click-through rate) мобильной рекламы. В процессе работы попытался воссоздать оригинальный алгоритм «Мактрикснета», тестировал несколько вариантов логистической регрессии и работал с характеристиками. Обо всём этом ниже, плюс прикладываю полный код, чтобы можно было посмотреть, как всё работает.

Рассказ делю на следующие разделы:
1. Условия конкурса;
2. Создание новых характеристик;
3. Логистическая регрессия – прелести адаптивного градиента;
4. Матрикснет – воссоздание полного алгоритма;
5. Ускорение машинного обучения в Python.
Читать полностью »

Предлагаю вниманию хабрапользователей небольшую статью, описывающую практическую сторону применения такой области, как имитационное моделирование.

Постановка задачи (описание процесса)

В логистический центр по согласованному с поставщиком календарю поставок прибывает известное количество товаров одного типа. При переполнении склада заявка на поставку товаров заведомо отменяется. Товар поступает, хранится и передается в розничную точку продаж в упаковках по 8 шт. По прибытию машину встречает сотрудник центра (кладовщик), проверяет наличие необходимой сопроводительной документации, актов соответствия/качества, первичной бухгалтерской документации и сопровождает машину в зону разгрузки.

В зоне разгрузки кладовщик в присутствии экспедитора и при помощи погрузочного оборудования (электрический погрузчик) проводит прием и визуальный осмотр товара. Далее перемещает его в зону входного контроля. Специалист по качеству (контроллер) проводит входной контроль товара. При допуске, товары, при помощи специалиста по качеству, перемещаются в зону ожидания для дальнейшего размещения на стеллажах участка хранения. При обнаружении товара не соответствующего входным параметрам перемещает его в изолятор брака для осуществления дальнейшего возврата поставщику.

Комплектовщики при помощи погрузочного оборудования (электрический погрузчик) комплектуют в зоне отгрузки поставку в розничную точку продаж. Комплектация проводится при достижении остатка товара в розничной точке продаж точки восполнения запаса (точки перезаказа).

После комплектации стандартной партии отгрузки товар передается в точку розничных продаж для реализации.
Необходимо разработать модель представленного процесса для дальнейшего проведения оптимизационных экспериментов (например, определения точки перезаказа при условии отсутствия нулевого остатка в розничной точке продаж).
Читать полностью »

24-28 августа 2015 года в Санкт-Петербурге пройдёт IX Российская летняя школа по информационному поиску «RuSSIR 2015». В этом году школу организуют Лаборатория интернет-исследований НИУ ВШЭ в Санкт-Петербурге и Российский семинар по оценке методов информационного поиска «РОМИП».

Каждый год у RuSSIR есть своя особая тема, так или иначе связанная с информационным поиском. В этом году основная тема летней школы – анализ социальных сетей. Читайте ниже о том, сколько у вас осталось дней до подачи статьи или заявки на курс!

RuSSIR 2015: дедлайн подачи статей приближается - 1

Читать полностью »

Нейропластичность в искусственных нейронных сетях - 1 Привет, давно не виделись. В этом посте мне хотелось бы рассказать о таком относительно новом понятии в машинном обучении, как transfer learning. Так как я не нашел какого-либо устоявшегося перевода этого термина, то и в названии поста фигурирует хоть и другой, но близкий по смыслу термин, который как бы является биологической предпосылкой к формализации теории передачи знаний от одной модели к другой. Итак, план такой: для начала рассмотрим биологические предпосылки; после коснемся отличия transfer learning от очень похожей идеи предобучения глубокой нейронной сети; а в конце обсудим реальную задачу семантического хеширования изображений. Для этого мы не будем скромничать и возьмем глубокую (19 слоев) сверточную нейросеть победителей конкурса imagenet 2014 года в разделе «локализация и классификация» (Visual Geometry Group, University of Oxford), сделаем ей небольшую трепанацию, извлечем часть слоев и используем их в своих целях. Поехали.
Читать полностью »

«Безграмотными в 21 веке будут не те,
кто не умеет читать и писать,
а те, кто не умеет учиться,
разучиваться и переучиваться»

Элвин Тоффлер

У ИТ-специалистов могут возникать задачи, связанные с анализом производительности оборудования или анализом результатов различных генераторов нагрузки (ioMeter, Vdbench и прочее). В большинстве случаев для этих целей используется Excel с построением временных рядов, с нахождением основных описательных статистик и попытками это все как-то проанализировать. Существует альтернативное средство более быстрого и удобного анализа описательных статистик с разнообразными диаграммами и возможностью создания web-приложения для общего доступа. Касаться настоящей статистики с различными методами анализа данных не буду, только базовая описательная статистика (без проверки тестов и даже p-значения не будет) и разные диаграммы.

В этой статье я опишу один из вариантов того, как можно проанализировать такую информацию, представлять её в виде диаграмм (трафик!), и все это в виде web-приложения. Как следует из названия статьи – реализовано это на R, с пакетом (фреймворком) для web-приложений к R – Shiny.
Читать полностью »

Одна из базовых задач анализа данных — поиск взаимосвязи двух величин. Здесь я хочу показать пример поиска связи между ценой нефти и курсом рубля.

image

Во-первых надо определить, имеет ли вообще задача смысл. Почему нефть и рубль должны/могут быть взаимосвязаны? Вкратце, модель такая: экспортёры продают нефть за доллары, а затем продают доллары, чтобы получить рубли для расчётов внутри страны. Механизм крайне упрощён, надо учитывать объёмы добычи-продажи, что эскортируют не только нефть, не всегда экспортёры продают доллары, на курс валют влияет ЦБ интервенциями и т.д. И тем не менее, будем считать, что модель более-менее рабочая, то есть, что существуют фундаментальные причины для взаимосвязи цены нефти и курса рубля.
Читать полностью »

Ваш персональный курс по Big Data - 1 Привет!

После публикации нескольких статей по Big Data и Машинному обучению, ко мне пришло немало писем от читателей с вопросами. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт, некоторые из них — уже решают прикладные задачи и делают успехи. А кто-то уже устроился на работу и занимается решением реальных задач. Моя цель — чтобы вокруг меня были умные люди, с которыми в том числе и я смогу работать в дальнейшем. Поэтому я хочу помочь тем, кто действительно хочет научиться решать настоящие задачи на практике. В сети присутствует большое количество мануалов о том, как стать ученым по данным (Data Scientist). В свое время я прошел все, что там есть. Однако, на практике порой нужны совсем другие знания. О том, какие именно навыки нужны — я расскажу в сегодняшней статье и постараюсь ответить на все Ваши вопросы.
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №39 (9 — 15 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js