В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
Источник
Читать полностью »
Рубрика «анализ данных» - 20
О чем говорят женщины? (Text mining of beauty blogs)
2017-05-31 в 11:00, admin, рубрики: big data, data mining, анализ данных, Блог компании ГК ЛАНИТ, визуализация данных, датасеты, краулинг, ЛанитОбзор Splunk Machine Learning Toolkit
2017-05-05 в 5:19, admin, рубрики: dashboard, machine learning, splunk, анализ данных, анализ логов, Блог компании TS Solution, логи, машинное обучение, определение зависимостей, прогнозирование, регрессия, Серверное администрирование, Сетевые технологии, системное администрирование
Помимо того, что Splunk может собирать логи практически из любых источников и строить аналитические отчеты, дашборды, алерты на основе встроенного языка поисковых запросов SPL, о котором мы писали в предыдущих статьях, Splunk еще имеет очень большую базу бесплатных аддонов и приложений.
Сегодня мы рассмотрим одно из самых популярных, с точки зрения пользователей, приложений — Splunk Machine Learning Toolkit.
Читать полностью »
GoTo Data Science Challenge 2: гранты на летнюю школу
2017-04-24 в 10:17, admin, рубрики: kaggle, python, анализ данных, Блог компании Школа GoTo, грант, конкурс, летняя школа, машинное обучение, обучение, Программирование, проектный подход, Промышленное программирование, студенты, хакатон, школьникиМы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.
Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.
Статистические компоненты: основы и практика
2017-04-09 в 12:55, admin, рубрики: pandas, php, spark, yii, анализ данных, машинное обучение, Разработка веб-сайтов, статистика1. Вступление
В широком спектре приложений можно встретить весьма различный функционал обработки статистики, которая необходима как для отчётов, так и для автоматизации работы самого приложения (рейтинги, рекомендации, результаты поиска). Заметка содержит краткое описание некоторых основных методов анализа информации, а также примеры исходного кода, предназначенного для обработки статистики, сбора и подготовки данных.
Статистический компонент — это часть приложения или отдельный сервис, который выполняет обработку информации, включая удобное для пользователя отображение отчёта. В некоторых архитектурах его создают в качестве отдельного сервиса, взаимодействующего посредством API или очередей (RabbitMQ, Redis). Генерация графиков и диаграмм может происходить непосредственно в браузере (Chart.js, D3.js и подобные решения) на основании полученных в JSON данных, а может выполняться заранее (в формате PNG), т.е. в момент обработки данных. Таким образом, с технической точки зрения сервис (модуль, компонент) может быть внешним проектом, реализованным на другом языке программирования.
Big Data для автодилера и автопроизводителя: от идеи до монетизации
2017-04-05 в 10:18, admin, рубрики: big data, BigData, remoto, автопром, анализ данных, Аналитика мобильных приложений, Блог компании Bright Box, Монетизация IT-системIHS Automotive предсказывает, что к 2020 порядка 152 миллионов «подключенных» машин будут ежедневно генерировать до 30 терабайт данных. И бизнес, который сумеет грамотно воспользоваться этим богатством, очевидно, окажется «на коне». Поговорим о том, какую информацию можно использовать и что для этого нужно.
О линейной регрессии: байесовский подход к курсу рубля
2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные ряды
Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы (не такие понятные).
Школа данных: Москва, Питер… онлайн
2017-04-03 в 22:10, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных
Привет,
Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…
Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.
Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Читать полностью »
На страже безопасности: IBM QRadar SIEM
2017-03-31 в 6:58, admin, рубрики: IBM QRadar SIEM, анализ данных, безопасность, Блог компании МУК, информационная безопасность, система безопасности, метки: IBM QRadar SIEMСовременные киберпреступники при атаках систем защиты компаний используют все более изощренные методы. Чтобы противодействовать им, департаменты информационной безопасности вынуждены анализировать и интерпретировать огромное количество событий в день. Компания IBM для защиты от угроз сетевой безопасности предлагает решение IBM QRadar Security Intelligence Platform, которое предоставляет единую архитектуру для интегрирования информации о безопасности и управления событиями (SIEM) и журналами, определения аномальных ситуаций, анализа инцидентов, реагирования на них, управления настройками и устранения уязвимостей.
17-летний школьник исправил ошибку НАСА
2017-03-27 в 18:54, admin, рубрики: анализ данных, детектор частиц, космонавтика, краудсорсинг, МКС, наса, Научно-популярное, сенсор радиации, физика, школьник
Майлз Соломэн с детектором частиц. Фото: Alex Cousins / SWNS.com
Британский тинейджер Майлз Соломэн (Miles Soloman) из Шеффилда связался с учёными НАСА и указал им на ошибку в наборе данных, которые они выложили в онлайн. Речь идёт о показаниях детекторов частиц на Международной космической станции — там Майлз нашёл отрицательные значения энергии, которые пропустили инженеры НАСА.
На прошлой неделе парень получил свою минутку славы: дал несколько интервью в СМИ и выступил в эфире национального радио BBC Radio 4, в программе World at One.
Читать полностью »
Splunk. Введение в анализ машинных данных — часть 2. Обогащение данных из внешних справочников и работа с гео-данными
2017-03-27 в 4:57, admin, рубрики: geostats, iplocation, lookup, splunk, transaction, анализ данных, анализ логов, анализ машинных данных, Блог компании TS Solution, лог-менеджмент, логи, Серверное администрирование, Сетевые технологии, системное администрированиеМы продолжаем рассказывать и показывать как работает Splunk, в частности говорить о возможностях языка поисковых запросов SPL.
В этой статье на основе тестовых данных (логи веб сервера) доступных всем желающим для загрузки мы покажем:
- Как обогатить логи информацией из внешних справочников
- Как можно визуализировать географические данные (данные с координатами)
- Как группировать цепочки событий в транзакции и работать с ними
Под катом вы найдете как сами примеры поисковых запросов, так и результат их выполнения. Вы можете скачать бесплатную версию Splunk, загрузить тестовые данные и повторить все на своем локальном компьютере.
Читать полностью »