Рубрика «data mining» - 62

Игра Престолов. Поиск авторов диалогов в книгах

2016-06-28 в 6:32, admin, рубрики: data mining, python, valar morghulis, джордж мартин, диалоги, игра престолов, книги, машинное обучение

Игра Престолов. Поиск авторов диалогов в книгах - 1

Привет Хабрахабр,

На основании результата голосования в статье Теория Графов в Игре Престолов, я перевожу обучающий материал Эрика Германи (Erik Germani), который получил социальный граф связей из 5 первых книг серии «Песнь льда и пламени», лёгший в основу вышеупомянутой статьи. Статья не содержит подробного описания методов машинного обучения, а скорее рассказывает как на практике можно использовать существующие инструменты для поиска авторов диалогов в тексте. Осторожно, много букв! Поехали.
Читать полностью »

Поиск связей в социальных сетях

2016-06-27 в 15:32, admin, рубрики: data mining, Hackathon, машинное обучение, рекомендации, социальный граф

Привет! В этом посте мы хотим поделиться нашим решением задачи по предсказанию скрытых связей в корпоративной социальной сети “Улей” компании Билайн. Эту задачу мы решали в рамках виртуального хакатона Microsoft. Надо сказать, что до этого хакатона у нашей команды уже был успешный опыт решения таких задач на хакатоне от Одноклассников и нам очень хотелось опробовать наши наработки на новых данных. В статье мы расскажем про основные подходы, которые применяются при решении подобных задач и поделимся деталями нашего решения.
Читать полностью »

Как работает метод главных компонент (PCA) на простом примере

2016-06-27 в 13:06, admin, рубрики: data mining, PCA, python, sklearn, Алгоритмы, главные компоненты, математика на пальцах, машинное обучение, эконометрика, метки: pca

Как работает метод главных компонент (PCA) на простом примере - 1

В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.
Читать полностью »

User-based коллаборативная фильтрация. Введение

2016-06-24 в 20:31, admin, рубрики: data mining, python, Алгоритмы, исккусственный интеллект, коллаборативная фильтрация, математика, рекомендационные системы

Приветствую, %username%. Сегодня я расскажу о такой вещи, как коллаборативная фильтрация для сравнения двух наборов данных. После разработаем скрипт составления рейтинга схожести интересов между людьми.

Заинтересовались? Прошу под кат

Читать полностью »

Разработка скрипта для сравнения вкусов людей

2016-06-24 в 20:31, admin, рубрики: data mining, python, Алгоритмы, исккусственный интеллект, математика, рекомендационные системы, метки: исккусственный интеллект

Приветствую, %username%. Сегодня разработаем скрипт составления рейтинга схожести интересов между людьми.

Заинтересовались? Прошу под кат

Читать полностью »

Приложение на API hh.ru. Рекомендуем вакансии по вашему резюме

2016-06-21 в 9:21, admin, рубрики: api, cosine similarity, data mining, headhunter, HH, hh.ru, python, redis, tf-idf, Блог компании HeadHunter, машинное обучение, Программирование, рекомендации

Приложение на API hh.ru. Рекомендуем вакансии по вашему резюме - 1
Недавно я опубликовал пост, рассказывающий, как можно просто начать использовать наше API. Мне самому захотелось поиграться с данными, которые можно из него получить, и я решил написать приложение, рекомендующее актуальные вакансии на основе информации из резюме. В конце статьи будет ссылка на результат, где каждый сможет получить список рекомендаций по своему резюме.
Читать полностью »

Web scraping на Node.js и защита от ботов

2016-06-21 в 7:16, admin, рубрики: amazon, authorization, casperjs, data mining, electron, headless browser, horseman.js, javascript, nightmare.js, node.js, nw.js, phantomjs, scraping, slimerJS, web scraping, zombiejs, веб-скрейпинг, Программирование, реверс-инжиниринг

Web scraping на Node.js и защита от ботов - 1 Это третья статья в цикле про создание и использование скриптов для веб-скрейпинга при помощи Node.js.

В первой статье разбирались базовые аспекты веб-скрейпинга, такие как получение и парсинг страниц, рекурсивный проход по ссылкам и организация очереди запросов. Во второй статье разбирались анализ сайта, работающего через Ajax, тонкая настройка очереди запросов и обработка некоторых серверных ошибок.

Также во второй статье затрагивалась тема инициализации сессий, но, там речь шла о предельно простом случае, когда достаточно выполнить один дополнительный запрос и сохранить куки.

В этой статье разбирается более сложный случай – инициализация сессий с авторизацией по логину и паролю и с преодолением довольно изощрённой защиты от ботов. Как обычно, на примере реальной (и весьма популярной среди скрейперов) задачи.

Важное примечание

В большинстве случаев защита от ботов на сайте направлена не против скрейперов, а против таких вещей, как мошенничество, накрутки или спам в комментариях. Однако это всегда лишний повод задуматься о легальности и этичности скрейпинга именно этого сайта. В этой статье для примера выбран сайт, про который хорошо известно, что его владельцы нормально относятся к скрейпингу (хотя и предпочитают, чтобы он выполнялся через специальный API). Простые правила: если у сайта есть открытый API, значит его владельцы рады скрейперам, а если сайт большой и ультрапосещаемый, нагрузка от скрейпинга в обход API его особо не побеспокоит.

В прошлых статьях целью было показать весь процесс создания и использования скрипта от постановки задачи и до получения конечного результата. В этой статье большая часть аспектов веб-скрейпинга обходится стороной, а вместо этого показывается многообразие подходов к решению одной, довольно узкой задачи. Различные методы и инструменты, их плюсы и минусы, субъективные оценки, примеры кода, вот это вот всё.

Читать полностью »

Выбор детского сада в Москве

2016-06-20 в 22:40, admin, рубрики: big data, data mining, не, открытые данные, теги, указывать, хочу, я, метки: не, указывать, хочу, я

В Москве больше 2000 детских садов. В очередь на зачисление можно встать в несколько. Какие садики выбрать и какой указать приоритетным? На днях я сделал попытку дать ответ на этот вопрос.
Выбор детского сада в Москве - 1
Хотел бы рассказать про некоторых технические детали решения. В ходе работы со школьными данными я заметил, что на сайтах школ публикуется много отзывов. У этих данных есть 4 особенности:

Отзывов много. Около 40 000 штук на 700 школ за 2015, 2016 годы. Это больше, чем на специальных сайтах про школьные отзывы типа www.schoolotzyv.ru и schools.mel.fm.
90% отзывов — про детские сады. Почему-то про садики пишут чаще и больше. Даже на obr.msk.ru оставляют отзывы про сады, хотя явно указано, что нужны впечатления о школах.
99.9% отзывов положительные. Это печально, потому что читать только положительные отзывы неинтересно.
В 95% отзывов родители персонально благодарят воспитателей. Например, «Инна Юрьевна находит подход к каждому, может унять любой утренний каприз ребенка и помочь родителям».

Поэтому появилась идея сделать вот что:
Читать полностью »

Az.js: JavaScript-библиотека для обработки текстов на русском языке

2016-06-15 в 16:51, admin, рубрики: azjs, data mining, DAWG, javascript, natural language processing, nlp, open source, pymorphy2, tokenizer, Алгоритмы, естественные языки, морфология, Семантика, синтаксис, токенизация, метки: az, azjs

Как чуден и глубок русский курлык
— Генератор постов

Обработка естественного языка (natural language processing, NLP) — тема, на мой взгляд, очень интересная. Во-первых, задачи тут чисто алгоритмические: на вход принимаем совершенно примитивный объект, строчку, а извлечь пытаемся вложенный в него смысл (ну или хотя бы частичку смысла). Во-вторых, необязательно быть профессиональным лингвистом, чтобы решать эти задачи: достаточно знать родной язык на более-менее приличном уровне и любить его.

А ещё с небольшими затратами можно сделать какого-нибудь бестолкового чат-бота — или, как вот я, генератор постов на основе того, что вы писали на своей страничке в соцсети. Возможно, кто-то из вас уже видел это приложение — оно довольно глупое, чаще всего выдает бессмысленный и бессвязный текст, но изредка всё же дает повод улыбнуться.

Бессвязность текстов в нынешней версии «Генератора» вызвана тем, что на самом деле никакого анализа он производить не умеет. Просто в одних случаях «предсказывает» продолжение предложения по собранным биграммам, а в других — заменяет в готовом предложении некоторые слова на другие, которые заканчиваются похоже. Вот и вся начинка.

Конечно, хочется сделать что-нибудь поинтереснее. Беда в том, что модные сейчас нейросети не очень-то применимы здесь: им нужно много ресурсов, большую обучающую выборку, а в браузере у пользователя соцсети всего этого нет. Поэтому я решил изучить вопрос работы с текстами с помощью алгоритмов. К сожалению, готовых инструментов для работы с русским языком на JavaScript найти не удалось, и я решил сделать свой маленький велосипед.
Читать полностью »

Граф цитирования статей Хабрахабра

2016-06-13 в 6:19, admin, рубрики: big data, data mining, визуализация, визуализация данных, графы, математика, наука и искусство, теги всё равно никто не читает

Однажды, мне стало интересно: насколько статьи на Хабре связаны между собой? Поэтому сегодня мы займемся исследованием связности статей, и конечно не только посчитаем численные метрики, но и увидим картину целиком.

(это не просто картинка для привлечения внимания, а граф цитирования статей внутри Хабрахабра, где размер вершин определяется числом входящих рёбер, i.e., "количеством цитат внутри Хабра")

Началось всё с того, что в комментариях к статье про Хабра-граф и карму Tiberius и Loriowar озвучили идею, фактически витающую в воздухе: а почему бы не взглянуть на граф цитирования статьёй внутри самого Хабра?

Вы спрашивали? Мы отвечаем. Для того чтобы рассказ не был размахиванием рук, конкретизируем разбираемые вопросы:

Q₁: Как выглядит граф цитирования Хабрахабра и какие в нём хабы (hubs and authorities)?
Q₂: Насколько связным является сообщество (граф цитирования) и какие в нём кластеры?
Q₃: Как изменится граф, если из него убрать самоцитирование?

Под катом трафик. Все картинки кликабельны.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 62

Игра Престолов. Поиск авторов диалогов в книгах

Поиск связей в социальных сетях

Как работает метод главных компонент (PCA) на простом примере

User-based коллаборативная фильтрация. Введение

Разработка скрипта для сравнения вкусов людей

Приложение на API hh.ru. Рекомендуем вакансии по вашему резюме

Web scraping на Node.js и защита от ботов

Выбор детского сада в Москве

Az.js: JavaScript-библиотека для обработки текстов на русском языке

Граф цитирования статей Хабрахабра

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 62

Новости

Актуальные темы

Архив