Рубрика «data mining» - 83

Научные задачи, связанные с обработкой и визуализацией сложных данных, — одни из самых нетривиальных и интересных. В научных экспериментах накапливаются огромные объёмы данных с разнообразными измерения и параметрами, характерными для конкретной области знаний, зачастую взаимосвязанными. При этом удобный и наглядный способ интерпретации этих данных быстро приводит к результату и наглядно демострирует его заинтересованным лицам — а там и до важного открытия рукой подать. Вспомните таблицу Менделеева, диаграммы Фейнмана, спектральные серии веществ, геномные схемы ДНК, карты реликтового излучения.

Я расскажу о научной задаче, с которой нам в Лаборатории данных посчастливилось работать. Мы придумали и реализовали инструмент для сравнения филогенетического расстояния образцов микробиоты и назвали его розой кишечных бактерий:

Роза кишечных бактерий

Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №8 (4 — 11 августа 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Также в данном обзоре есть достаточно много статей, которые будут интересны новичкам. Несколько статей посвящено онлайн-курсам. Как обычно много материалов посвящено алгоритмам машинного обучения

Читать полностью »

Введение

На сегодняшний день существует множество методов распознавания звука. В самом общем виде большинство методов состоят из алгоритма построения сигнатуры (fingerprints) сигнала (максимально компактного и при этом наиболее точно описывающего трек набора признаков), алгоритма ее поиска в базе данных и алгоритма отсечения ложных срабатываний. Перед нами стояла задача выбора технологии для построения second screen приложений.
Сравнение алгоритмов распознавания аудио для Second Screen
При этом сравнение алгоритмов распознавания на основе известных точностных характеристик является довольно условным, поскольку эти характеристики получены на разных тестовых данных и при разных ошибках первого рода (false positives). Также, исходя из контекста задачи, нас интересовала эффективность алгоритма применительно к распознаванию аудиосигнала телеэфира, при искажениях обусловленных параметрами микрофонов современных мобильных устройств.

Поскольку в открытых источниках сравнительных данных, удовлетворяющих нашим требованиям, найдено не было, было решено провести собственное исследование алгоритмов распознавания звука, с учетом специфики аудиопотока и искажений. В качестве потенциальных кандидатов мы остановили свой выбор на алгоритмах J. Haitsma и A. Wang. Оба широко известны и основаны на анализе частотно-временных признаков, полученных с помощью оконного преобразования Фурье.
Читать полностью »

Выборка наиболее интересного пользовательского контента для пользователей — актуальная задача для многих проектов, и мы не исключение. В этой статье я хочу рассказать про то как мы решали эту задачу с момента старта проекта и до сегодняшнего дня на примере списка целей в SmartProgress.

Эволюция списка рекомендаций в SmartProgress

Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №7 (28 июля — 4 августа 2014)
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном обзоре есть несколько статей, которые будут интересны новичкам. Есть несколько любопытных видеолекций по тематике Data Science. В текущем выпуске как обычно много статей по машинному обучению и анализу данных с примерами кода на языка программирования R и Python. В обзоре также могут заинтересовать несколько обзоров книг по теме анализа данных.

Читать полностью »

У большинства крупных поисковиков и сервисов есть механизм похожих поисковых запросов, когда пользователю предлагаются варианты, тематически близкие к тому, что он искал. Так делают в google, yandex, bing, amazon, несколько дней назад это появилось и у нас на hh.ru!

Похожие поисковые запросы в hh.ru

В этой статье я расскажу о том, как мы добывали похожие поисковые запросы из логов сайта hh.ru.
Читать полностью »

Астрофизик Джеймс Дэвенпорт (James Davenport) в свободное время увлекается разными проектами по анализу данных.

Год назад он опубликовал статистику по состоянию аккумуляторов ноутбуков MacBook Air 2013, MacBook Air 2012 и MacBook Pro 2009, с которыми работал за последние два года. Ежеминутный съём показаний помогает произвести программа CoconutBattery.

Сейчас пришло время обновить статистику.

Трекинг аккумулятора в ноутбуке для личностной аналитики

Джеймс с удовлетворением отмечает, что аккумулятор MacBook Air 2013 держится гораздо лучше, чем в MacBook Air 2012. Но речь совсем не о том.
Читать полностью »

В очередном выпуске обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения некоторое количество статей посвящено практическому применению различных видов регрессии. Есть интересная серия статей о применении машинного обучения в трейдинге. Как обычно много материалов посвящено алгоритмам машинного обучения (в том числе нейронным сетям). Есть несколько любопытных видеолекций, а также много статей про практическое применение языка R при анализе данных и машинном обучении.
Читать полностью »

На серверах Яндекса хранится много нужной и важной для людей информации, поэтому нам необходимо надёжно защищать данные наших пользователей. В этой статье мы хотим рассказать вам о наших исследованиях, в которых мы изучаем, как отличить владельца аккаунта от злоумышленника. Причем даже тогда, когда оба имеют логин и пароль от учетной записи. Мы разработали метод, который основан на анализе поведенческих характеристик пользователей. Он использует машинное обучение и позволяет отличать поведение настоящего владельца аккаунта от злоумышленника по ряду характеристик.

Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения

Такой анализ базируется на математической статистике и изучении данных об использовании сервисов Яндекса. Поведенческих характеристик недостаточно, чтобы однозначно идентифицировать пользователя и заменить тем самым использование пароля, но это позволяет определить взлом уже после авторизации. Таким образом, украденный пароль от почты не даст прикидываться её настоящим владельцем. Это по-настоящему важный шаг, который позволит по-другому взглянуть на системы безопасности в интернете и решить такие сложные задачи, как определение настоящего владельца аккаунта, а также момента и характера взлома.
Читать полностью »

Представляю очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения (в том числе Deep Learning). Как всегда есть материалы по алгоритмам машинного обучения. Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering. Присутствуют интересные статьи про популярные проекты 'Google Brain' и 'Project Adam'.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js