Рубрика «data mining» - 16

Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам

2019-08-04 в 19:47, admin, рубрики: big data, data mining, data science, R, параллельное программирование

Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навыками проведения параллельных вычислений, да и задача должна быть приведена к разделяемому на части виду, если таковой существует. Но при грамотном подходе можно весьма ускорить решение задачи однопоточным R, если у вас под руками есть хотя бы многоядерный процессор (а он есть сейчас почти у всех), с поправкой на теоретическую границу ускорения, определяемую законом Амдала. Однако, в ряде случаев даже его можно обойти.

Является продолжением предыдущих публикаций.Читать полностью »

Статистика на службе у бизнеса. Методология расчёта множественных экспериментов

2019-08-03 в 6:38, admin, рубрики: a/b testing, big data, Bootstrap, data mining, python, анализ данных, аналитика, Аналитика мобильных приложений, продуктоовая аналитика

Добрый день!

Как и было обещано в предыдущей статье, сегодня мы продолжим разговор о методологиях, применяемых в A/B-тестировании и рассмотрим методы оценки результатов множественных экспериментов. Мы увидим, что методологии довольно просты, и математическая статистика не так страшна, а первооснова всего — аналитическое мышление и здравый смысл. Однако предварительно хотелось бы сказать пару слов о том, какие же бизнес-задачи помогают решать строгие математические методы, нужны ли они Вам на данном этапе развития Вашей компании и какие pros and cons существуют в Большой аналитике.
Читать полностью »

Создание простого разговорного чатбота в python

2019-08-02 в 22:11, admin, рубрики: data mining, machine learning, natural language processing, nlp, python, болталка, машинное обучение, чатбот

Как выдумаете, сложно ли написать на Python собственного чатбота, способного поддержать беседу? Оказалось, очень легко, если найти хороший набор данных. Причём это можно сделать даже без нейросетей, хотя немного математической магии всё-таки понадобится.

Идти будем маленькими шагами: сначала вспомним, как загружать данные в Python, затем научимся считать слова, постепенно подключим линейную алгебру и теорвер, и под конец сделаем из получившегося болтательного алгоритма бота для Телеграм.

Этот туториал подойдёт тем, кто уже немножко трогал пальцем Python, но не особо знаком с машинным обучением. Я намеренно не пользовался никакими nlp-шными библиотеками, чтобы показать, что нечто работающее можно собрать и на голом sklearn.

Создание простого разговорного чатбота в python - 1

Читать полностью »

Визуализация новостей рунета

2019-08-01 в 12:05, admin, рубрики: bigartm, data mining, machine learning, natural language processing, ner, nlp, open source, Блог компании Open Data Science, визуализация данных, машинное обучение, Новости

Визуализация новостей рунета - 1

Представьте себе, что вы поспорили с друганом, что было раньше — ~~курица или яйцо~~ повышение какого-то налога, к примеру, или новости на эту тему, или вовсе важное событие заглушили тучей новостей про новую песню, скажем, Киркорова. Удобно было бы посчитать, сколько новостей на каждую тему было в каждый конкретный момент времени, а потом наглядно это представить. Собственно, этим и занимается проект “радар новостей рунета”. Под катом мы расскажем, при чём здесь машинное обучение и как любой доброволец может в этом поучаствовать.

Читать полностью »

Как мы внедрили ML в приложение с почти 50 миллионами пользователей. Опыт Сбера

2019-08-01 в 8:24, admin, рубрики: data mining, Алгоритмы, Блог компании Сбербанк, дизайн мобильных приложений, машинное обучение, ранжирование контента, рекомендательные системы, рекомендации

Привет! Меня зовут Николай, и я занимаюсь построением и внедрением моделей машинного обучения в Сбербанке. Сегодня расскажу о разработке рекомендательной системы для платежей и переводов в приложении на ваших смартфонах.

Дизайн главного экрана мобильного приложения с рекомендациями

У нас было 2 сотни тысяч возможных вариантов платежей, 55 миллионов клиентов, 5 различных банковских источников, полсолонки разработчиков и гора банковской активности, алгоритмов и всего такого, всех цветов, а ещё литр рандомных сидов, ящик гиперпараметров, пол-литра поправочных коэффициентов и две дюжины библиотек. Не то чтобы это всё было нужно в работе, но раз начал улучшать жизнь клиентов, то иди в своём увлечении до конца. Под катом история о сражении за UX, о правильной постановке задачи, о борьбе с размерностью данных, о вкладе в open-source и наших результатах.

Читать полностью »

Осваиваем компьютерное зрение — 8 основных шагов

2019-07-25 в 18:29, admin, рубрики: big data, data mining, python, Компьютерное зрение, машинное обучение, Программирование, теги все читают

Привет читатель.

Для тебя уже не является новостью тот факт, что все на себе попробовали маски старения через приложение Face App. В свою очередь для компьютерного зрения есть задачи и поинтереснее этой. Ниже представлю 8 шагов, которые помогут освоить принципы компьютерного зрения.

Прежде, чем начать с этапов давайте поймём, какие задачи мы с вами сможем решать с помощью компьютерного зрения. Примеры задач могут быть следующими:

Читать полностью »

5 главных алгоритмов сэмплинга

2019-07-25 в 9:04, admin, рубрики: big data, data mining, python, Алгоритмы, выборки, Программирование, сэмплинг

Работа с данными — работа с алгоритмами обработки данных.

И мне приходилось работать с самыми разнообразными на ежедневной основе, так что я решил составить список наиболее востребованных в серии публикаций.

Эта статья посвящена наиболее распространённым способам сэмплинга при работе с данными.

Читать полностью »

Семь раз отмерь, один раз внедри BI инструмент

2019-07-22 в 11:56, admin, рубрики: #businessintelligence, #looker, #modeanalytics, big data, data mining, Блог компании Open Data Science, визуализация данных, Софт

Не так давно я столкнулся с задачей по переходу на новую BI-систему для нашей компании. Поскольку мне пришлось погрузиться довольно глубоко и основательно в данный вопрос, я решил поделиться с уважаемым сообществом своими мыслями на этот счет.

На просторах интернета есть немало статей на эту тему, но, к моему большому удивлению, они не ответили на многие мои вопросы по выбору нужного инструмента и были несколько поверхностны. В рамках 3 недель тестирования мы опробовали 4 инструмента: Tableau, Looker, Periscope/Sisense, Mode analytics. Про эти инструменты в основном и пойдет речь в данной статье. Сразу оговорюсь, что предложенная статья — это личное мнение автора, отражающее потребности небольшой, но очень быстро растущей IT-компании :)

Несколько слов о рынке

Сейчас на рынке BI происходят довольно интересные изменения, идёт консолидация, крупные игроки облачных технологий пытаются укрепить свои позиции путем вертикальной интеграции всех аспектов работы с данными (хранение данных, обработка, визуализация). За последние несколько месяцев произошло 5 крупных поглощений: Google купил Looker, Salesforce купил Tableau, Sisense купил Periscope Data, Logi Analytics' купил Zoomdata, Alteryx купил ClearStory Data. Не будем дальше погружаться в корпоративный мир слияний и поглощений, стоит лишь отметить, что можно ожидать дальнейших изменений как в ценовой, так и в протекционистской политике новых обладателей BI-инструментов (как недавно нас обрадовал инструмент Alooma, вскоре после покупки их компанией Google, они перестают поддерживать все источники данных, кроме Google BigQuery :) ).

Читать полностью »

Подборка рабочих примеров обработки данных

2019-07-20 в 16:14, admin, рубрики: big data, data mining, python, визуализация, машинное обучение

Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:

Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Читать полностью »

Как выглядят банки изнутри

2019-07-19 в 13:02, admin, рубрики: AFS, aml, anti-fraud system, anti-money laundering, big data, data mining, анализ данных, банки, Большие данные, финансы и банковская сфера

Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией.

В качестве источника данных — главная бухгалтерская книга банка. Используя теорию графов, выделяем всех его клиентов в качестве узлов, а операции по счёту используем как ребра. Сумма операции, в таком случае, будет являться весом ребра.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 16

Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам

Статистика на службе у бизнеса. Методология расчёта множественных экспериментов

Создание простого разговорного чатбота в python

Визуализация новостей рунета

Как мы внедрили ML в приложение с почти 50 миллионами пользователей. Опыт Сбера

Осваиваем компьютерное зрение — 8 основных шагов

5 главных алгоритмов сэмплинга

Семь раз отмерь, один раз внедри BI инструмент

Несколько слов о рынке

Подборка рабочих примеров обработки данных

Подборка датасетов с рабочими примерами обработки данных:

Как выглядят банки изнутри

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 16

Несколько слов о рынке

Подборка датасетов с рабочими примерами обработки данных:

Новости

Актуальные темы

Архив