Добрый день.
Проблема с поиска, услуг или продукта, возникает на подавляющем большинстве сайтов. И в основной свой массе реализация подобной возможности ограничиваются поиском по точному слову, которое ввели в поисковой строке.
Если есть время, и заказчик хочет чуть большего, то гуглят реализацию наиболее популярного алгоритма (коим является «расстояние Левенштейна») и вписывают его.
В данной статье, я опишу сильно доработанный алгоритм, основанный, правда, на расстояния Левенштейна, и приведу примеры кода на C# нечеткого поиска по названиям, например: кафе, ресторанов или неких сервисов… В общем всё, что можно перечислить и имеет от одного до нескольких слов в своем составе:
«Яндекс», «Mail», «ProjectArmata», «world of tanks», «world of warships», «world of warplanes» и т.д.
Читать полностью »
Рубрика «анализ данных» - 19
Нечеткий поиск по названиям
2017-06-18 в 21:18, admin, рубрики: C#, Алгоритмы, алгоритмы поиска, анализ данных, Программирование, метки: Алгоритмы поискаСобираем данные в CRM: стероиды для компании
2017-06-14 в 10:45, admin, рубрики: CRM, CRM-системы, ERP-системы, regionsoft, анализ данных, аналитика, Блог компании RegionSoft Developer Studio, Управление продажами, управление проектамиЦифровая эра основательно вошла в нашу жизнь, теперь мир — набор данных. Это касается не только обычных людей, IoT или научных изысканий. Прежде всего, это касается бизнеса. Любого, от стартапа на коленке до мега холдинга. Сейчас практически у каждой компании такая конкурентная среда, что приходится действовать, как на полях сражений: собирать данные, анализировать и принимать стратегические и тактические решения. Иначе клиент просто не проявит интерес к вашей разработке, продукту, услуге. Встают вопросы: какие данные собирать, где их брать, как хранить и вообще — зачем на это тратить время? Мы знаем на них ответы.
Читать полностью »
Очень грубый подход к определению языка человека (ли как понять язык человека по обычной корпоративной базе)
2017-06-12 в 18:24, admin, рубрики: email-рассылки, growth hacking, анализ данных, байесовский подход, веб-аналитика, интернет-маркетинг, определение языка, Повышение конверсии
Что общего у этой картинки, Excel и прикладной работы с базами данных? Правильно — байесовский подход к анализу данных.
Если я не заинтриговал вас картинкой выше, то давайте я расскажу вам самую малость про байесовы сети и как использовать их на коленке (и почему их мало используют на практике). Этот предмет довольно технический (вот условно бесплатный курс от Стенфорда, он немного скучноват и очень технический, но зато в тему. Там еще есть странность — пройти курс и все понять можно за 10 часов, а чтобы решить задачи в матлабе, нужно часов 50 — такое ощущение, что задачи — это PhD автора курса...).Читать полностью »
О чем говорят женщины? (Text mining of beauty blogs)
2017-05-31 в 11:00, admin, рубрики: big data, data mining, анализ данных, Блог компании ГК ЛАНИТ, визуализация данных, датасеты, краулинг, ЛанитВ руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
Источник
Читать полностью »
Обзор Splunk Machine Learning Toolkit
2017-05-05 в 5:19, admin, рубрики: dashboard, machine learning, splunk, анализ данных, анализ логов, Блог компании TS Solution, логи, машинное обучение, определение зависимостей, прогнозирование, регрессия, Серверное администрирование, Сетевые технологии, системное администрирование
Помимо того, что Splunk может собирать логи практически из любых источников и строить аналитические отчеты, дашборды, алерты на основе встроенного языка поисковых запросов SPL, о котором мы писали в предыдущих статьях, Splunk еще имеет очень большую базу бесплатных аддонов и приложений.
Сегодня мы рассмотрим одно из самых популярных, с точки зрения пользователей, приложений — Splunk Machine Learning Toolkit.
Читать полностью »
GoTo Data Science Challenge 2: гранты на летнюю школу
2017-04-24 в 10:17, admin, рубрики: kaggle, python, анализ данных, Блог компании Школа GoTo, грант, конкурс, летняя школа, машинное обучение, обучение, Программирование, проектный подход, Промышленное программирование, студенты, хакатон, школьникиМы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.
Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.
Статистические компоненты: основы и практика
2017-04-09 в 12:55, admin, рубрики: pandas, php, spark, yii, анализ данных, машинное обучение, Разработка веб-сайтов, статистика1. Вступление
В широком спектре приложений можно встретить весьма различный функционал обработки статистики, которая необходима как для отчётов, так и для автоматизации работы самого приложения (рейтинги, рекомендации, результаты поиска). Заметка содержит краткое описание некоторых основных методов анализа информации, а также примеры исходного кода, предназначенного для обработки статистики, сбора и подготовки данных.
Статистический компонент — это часть приложения или отдельный сервис, который выполняет обработку информации, включая удобное для пользователя отображение отчёта. В некоторых архитектурах его создают в качестве отдельного сервиса, взаимодействующего посредством API или очередей (RabbitMQ, Redis). Генерация графиков и диаграмм может происходить непосредственно в браузере (Chart.js, D3.js и подобные решения) на основании полученных в JSON данных, а может выполняться заранее (в формате PNG), т.е. в момент обработки данных. Таким образом, с технической точки зрения сервис (модуль, компонент) может быть внешним проектом, реализованным на другом языке программирования.
Big Data для автодилера и автопроизводителя: от идеи до монетизации
2017-04-05 в 10:18, admin, рубрики: big data, BigData, remoto, автопром, анализ данных, Аналитика мобильных приложений, Блог компании Bright Box, Монетизация IT-системIHS Automotive предсказывает, что к 2020 порядка 152 миллионов «подключенных» машин будут ежедневно генерировать до 30 терабайт данных. И бизнес, который сумеет грамотно воспользоваться этим богатством, очевидно, окажется «на коне». Поговорим о том, какую информацию можно использовать и что для этого нужно.
О линейной регрессии: байесовский подход к курсу рубля
2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные ряды
Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы (не такие понятные).
Школа данных: Москва, Питер… онлайн
2017-04-03 в 22:10, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных
Привет,
Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…
Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.
Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Читать полностью »