Рубрика «data mining» - 10

Что делает Free API Московской биржи в Google Таблицах

2020-02-04 в 1:45, admin, рубрики: api, data mining, Google API, Google Sheets, google таблицы, акции, Алгоритмы, биржа, биржевая торговля, инвестиции, котировка, Московская Биржа, облигации, парсинг, статистика, финансы в IT, ценные бумаги

Количество частных инвесторов на Московской бирже удвоилось за последний год и составило 3,86 млн: за 2019 счета на Мосбирже открыли 1,9 млн человек. Санкт-Петербургская биржа, специализирующаяся на торгах акциями иностранных компаний, в прошлом году зафиксировала трехкратный прирост счетов – с 910 000 до 3,06 млн шт.

Что делает Free API Московской биржи в Google Таблицах - 1

Это означает, что на рынок пришло почти 2 млн новичков, которые никогда не занимались трейдингом и не использовали специализированный софт для торгов и учета позиций.

Читать полностью »

Туториал по uplift моделированию. Часть 1

2020-01-30 в 13:15, admin, рубрики: causal effect, causal Inference, causality, causalml, data mining, data science, net lift, true lift, uplift, uplift modelling, аплифт, Блог компании МТС, интернет-маркетинг, маркетинг, машинное обучение, Повышение конверсии, реклама

Команда Big Data МТС активно извлекает знания из имеющихся данных и решает большое количество задач для бизнеса. Один из типов задач машинного обучения, с которыми мы сталкиваемся – это задачи моделирования uplift. С помощью этого подхода оценивается эффект от коммуникации с клиентами и выбирается группа, которая наиболее подвержена влиянию.

Такой класс задач прост в реализации, но не получил большого распространения в литературе про машинное обучение. Небольшой цикл статей, подготовленный Ириной Елисовой (iraelisova) и Максимом Шевченко (maks-sh), можно рассматривать как руководство к решению таких задач. В рамках него мы познакомимся с uplift моделями, рассмотрим, чем они отличаются от других подходов, и разберем их реализации.
Читать полностью »

Учёт собственных публикаций

2020-01-27 в 1:54, admin, рубрики: data mining, Google API, Google Sheets, google таблицы, Управление медиа, управление проектами, управление разработкой

Если вы используете публикации на различных сайтах и в СМИ как один из инструментов продвижения, то рано или поздно перед вами возникнет вопрос их систематизации. Тогда же появляется и обратная связь, которая обычно включает в себя:

просмотры;
комментарии с разным эмоциональным оттенком;
сохранения (сколько пользователей этого сайта добавили материал в свои закладки);
рейтинги (сколько пользователей этого сайта проголосовали за или против).

Учёт собственных публикаций - 1

Если все ваши статьи размещены на одном ресурсе, то особых проблем с учетом не возникает. Вышеперечисленные показатели обычно сведены в админке (как на картинке ниже) и всегда можно наглядно оценить какая из собственных тем более популярна. У меня же публикации по одной теме часто «размазаны» по разным ресурсах, таких как Хабр, виси.ру, Medium, Яндекс Дзен и (если корректно отнести к публикациям) GitHub. И передо мной была проблема увидеть общую картину по проектам и темам «в одном окне».Читать полностью »

Поисковик Google по датасетам вышел из беты

2020-01-26 в 9:02, admin, рубрики: data mining, Dataset Search, Google, ITSumma, schema, Блог компании ITSumma, машинное обучение, метаданные, Наташа Ной, Научно-популярное, онтологии, поисковые технологии, семантический веб

Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.

Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Читать полностью »

SVM. Объяснение с нуля, имплементация и подробный разбор

2020-01-23 в 11:00, admin, рубрики: classification, data mining, loss function, machine learning, margin, ods, ods.ai, open data science, python, support vectors, SVM, Алгоритмы, Блог компании Open Data Science, машинное обучение, опорные вектора

Привет всем, кто выбрал путь ML-самурая!

Введение:

В данной статье рассмотрим метод опорных векторов (англ. SVM, Support Vector Machine) для задачи классификации. Будет представлена основная идея алгоритма, вывод настройки его весов и разобрана простая реализация своими руками. На примере датасета $Iris$ будет продемонстрирована работа написанного алгоритма с линейно разделимыми/неразделимыми данными в пространстве $R^2$ и визуализация обучения/прогноза. Дополнительно будут озвучены плюсы и минусы алгоритма, его модификации.

Рисунок 1. Фото цветка ириса из открытых источников

Читать полностью »

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

2020-01-15 в 10:52, admin, рубрики: cdi, data mining, data quality, Алгоритмы, Анализ и проектирование систем, Блог компании HFLabs, дедупликация, документы, информационная безопасность, качество данных, номера паспортов, паспорта

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками - 1

Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность.

Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Такой подход излишне нагружал персонал заказчиков.

Поэтому мы с головой залезли в данные, изучили статистику и вывели критерии — когда разные номера действительно разные, а когда дело в опечатках. Рассказываю, как работает алгоритм.
Читать полностью »

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

2020-01-13 в 16:12, admin, рубрики: data mining, Home Credit Default Risk, Алгоритмы, влияние факторов на дефолт, искусственный интеллект, кредитный скоринг, машинное обучение, Научно-популярное, риск дефолта, скоринг

Рассмотрим, как работают алгоритмы в банковском скоринге, какие метрики используются и какие параметры заемщика влияют на то, выдадут кредит или нет. В статье описывается прошедший конкурс с kaggle по предсказанию вероятности дефолта и приводятся влияющие на риск дефолта параметры.

Ошибка первого и второго рода

Цель банка – заработать деньги. Первый риск, с которым сталкивается кредитная организация — дать кредит заемщику, который допустит дефолт. Дефолт может иметь разным причины, от финансовых трудностей заемщика, и заканчивая фродом.

Для банка это — ошибка первого рода.

Но если банк будет вести жесткую политику, и никому не выдает кредиты, даже тем, кто вернул бы деньги, то банк не заработает на процентах. Отказ в кредите ответственному заемщику – ошибка второго рода.

Для оценки качества принимаемых алгоритмом решений, используется коэффициент Джини (GINI). В экономике и в Data Science коэффициент Gini имеет разную интерпретацию. Для кредитного скоринга он рассчитывается, как

GINI = 2 ROC AUC — 1

Для оценки банковского скоринга используется стандартная ROC AUC кривая!

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk - 1
Читать полностью »

Что принёс нам Pandas 1.0

2020-01-13 в 7:41, admin, рубрики: data mining, pandas, python, машинное обучение, Программирование, хранение данных

9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25.

Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование датафреймов, больше форматов вывода, новые типы данных и даже новый сайт документации.

Все изменения можно посмотреть здесь, в статье же мы ограничимся небольшим, менее техническим обзором самого главного.

Читать полностью »

Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя?

2020-01-10 в 23:02, admin, рубрики: data mining, networkx, python, графы и визуализация, открытые данные, Социальные сети и сообщества, чгк

Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя? - 1

Привет!

Новогодние праздники — отличное время, чтобы ~~отдохнуть от IT~~ использовать профессиональные навыки в любимом хобби. Ковыряясь на сайте рейтинга спортивного ЧГК, я обнаружил отличный API, позволяющий получить данные о всех играх всех турниров. Так у меня появилась идея построить граф сообщества знатоков и проверить теорию шести рукопожатий на географически разбросанном и строго оффлайновом коммьюнити. Под катом картинки графов и бесполезная статистика.

Читать полностью »

Генеалогические исследования — метрические книги, переписи, архивы, открытые базы

2020-01-10 в 22:16, admin, рубрики: data mining, sql, архивы, генеалогическое древо, генеалогия, метрические книги, открытые данные

Не один год я увлекаюсь генеалогией. Практической пользы в этом хобби нет, но интересного очень много. Здесь я хотел поделиться накопленным опытом, частью интересных сведений, не сильно погружаясь в персональные истории. Чтобы текст сильно не распухал, расскажу всего 2 кейса: поиск в военных архивах на основе данных онлайн-баз и продолжительный просмотр и анализ метрических книг одного села периода конца XIX — начала XX вв. вплоть до конца революции и гражданской войны.

Изучение метрических книг, запросы в далекие архивы обычной и электронной почтой, личные походы в архивы, исследование открытых баз в интернете и другие виды поисков дают богатый материал. Иногда поиск и находки похожи на настоящий детектив, только все события были далеко в прошлом.
Осознаю, что некоторым тема публикации может показаться далекой от IT, но в процессе у меня было и программирование, VBA-скриптинг, SQL, и впереди, надеюсь, MLDSAI.

Страница метрической книги, рождения в 1898 г. Еще в книгах записывались браки и смерти — до появления ЗАГСов в начале 1920х

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 10

Что делает Free API Московской биржи в Google Таблицах

Туториал по uplift моделированию. Часть 1

Учёт собственных публикаций

Поисковик Google по датасетам вышел из беты

SVM. Объяснение с нуля, имплементация и подробный разбор

Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

Ошибка первого и второго рода

Для оценки банковского скоринга используется стандартная ROC AUC кривая!

Что принёс нам Pandas 1.0

Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя?

Генеалогические исследования — метрические книги, переписи, архивы, открытые базы

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 10

Ошибка первого и второго рода

Для оценки банковского скоринга используется стандартная ROC AUC кривая!

Новости

Актуальные темы

Архив