Рубрика «анализ данных» - 20

О чем говорят женщины? (Text mining of beauty blogs)

2017-05-31 в 11:00, admin, рубрики: big data, data mining, анализ данных, Блог компании ГК ЛАНИТ, визуализация данных, датасеты, краулинг, Ланит

В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.

Источник
Читать полностью »

Обзор Splunk Machine Learning Toolkit

2017-05-05 в 5:19, admin, рубрики: dashboard, machine learning, splunk, анализ данных, анализ логов, Блог компании TS Solution, логи, машинное обучение, определение зависимостей, прогнозирование, регрессия, Серверное администрирование, Сетевые технологии, системное администрирование

Обзор Splunk Machine Learning Toolkit - 1
Помимо того, что Splunk может собирать логи практически из любых источников и строить аналитические отчеты, дашборды, алерты на основе встроенного языка поисковых запросов SPL, о котором мы писали в предыдущих статьях, Splunk еще имеет очень большую базу бесплатных аддонов и приложений.

Сегодня мы рассмотрим одно из самых популярных, с точки зрения пользователей, приложений — Splunk Machine Learning Toolkit.
Читать полностью »

GoTo Data Science Challenge 2: гранты на летнюю школу

2017-04-24 в 10:17, admin, рубрики: kaggle, python, анализ данных, Блог компании Школа GoTo, грант, конкурс, летняя школа, машинное обучение, обучение, Программирование, проектный подход, Промышленное программирование, студенты, хакатон, школьники

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.

Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.

Читать полностью »

Статистические компоненты: основы и практика

2017-04-09 в 12:55, admin, рубрики: pandas, php, spark, yii, анализ данных, машинное обучение, Разработка веб-сайтов, статистика

1. Вступление

В широком спектре приложений можно встретить весьма различный функционал обработки статистики, которая необходима как для отчётов, так и для автоматизации работы самого приложения (рейтинги, рекомендации, результаты поиска). Заметка содержит краткое описание некоторых основных методов анализа информации, а также примеры исходного кода, предназначенного для обработки статистики, сбора и подготовки данных.

Статистический компонент — это часть приложения или отдельный сервис, который выполняет обработку информации, включая удобное для пользователя отображение отчёта. В некоторых архитектурах его создают в качестве отдельного сервиса, взаимодействующего посредством API или очередей (RabbitMQ, Redis). Генерация графиков и диаграмм может происходить непосредственно в браузере (Chart.js, D3.js и подобные решения) на основании полученных в JSON данных, а может выполняться заранее (в формате PNG), т.е. в момент обработки данных. Таким образом, с технической точки зрения сервис (модуль, компонент) может быть внешним проектом, реализованным на другом языке программирования.

Читать полностью »

Big Data для автодилера и автопроизводителя: от идеи до монетизации

2017-04-05 в 10:18, admin, рубрики: big data, BigData, remoto, автопром, анализ данных, Аналитика мобильных приложений, Блог компании Bright Box, Монетизация IT-систем

IHS Automotive предсказывает, что к 2020 порядка 152 миллионов «подключенных» машин будут ежедневно генерировать до 30 терабайт данных. И бизнес, который сумеет грамотно воспользоваться этим богатством, очевидно, окажется «на коне». Поговорим о том, какую информацию можно использовать и что для этого нужно.

Big Data для автодилера и автопроизводителя: от идеи до монетизации - 1

Читать полностью »

О линейной регрессии: байесовский подход к курсу рубля

2017-04-05 в 7:32, admin, рубрики: bayesian, data mining, jags, R, rjags, variable selection, анализ данных, Байес, временные ряды, всемирный заговор, курс, математика, машинное обучение, нефть, Программирование, регрессия, рубль, статистика, цены, эконометрика, метки: Временные ряды

О линейной регрессии: байесовский подход к курсу рубля - 1
Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы ~~(не такие понятные)~~.

Читать полностью »

Школа данных: Москва, Питер… онлайн

2017-04-03 в 22:10, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных

Школа данных: Москва, Питер… онлайн - 1
Привет,

Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…

Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.

Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Читать полностью »

На страже безопасности: IBM QRadar SIEM

2017-03-31 в 6:58, admin, рубрики: IBM QRadar SIEM, анализ данных, безопасность, Блог компании МУК, информационная безопасность, система безопасности, метки: IBM QRadar SIEM

Современные киберпреступники при атаках систем защиты компаний используют все более изощренные методы. Чтобы противодействовать им, департаменты информационной безопасности вынуждены анализировать и интерпретировать огромное количество событий в день. Компания IBM для защиты от угроз сетевой безопасности предлагает решение IBM QRadar Security Intelligence Platform, которое предоставляет единую архитектуру для интегрирования информации о безопасности и управления событиями (SIEM) и журналами, определения аномальных ситуаций, анализа инцидентов, реагирования на них, управления настройками и устранения уязвимостей.

Читать полностью »

17-летний школьник исправил ошибку НАСА

2017-03-27 в 18:54, admin, рубрики: анализ данных, детектор частиц, космонавтика, краудсорсинг, МКС, наса, Научно-популярное, сенсор радиации, физика, школьник

17-летний школьник исправил ошибку НАСА - 1
Майлз Соломэн с детектором частиц. Фото: Alex Cousins / SWNS.com

Британский тинейджер Майлз Соломэн (Miles Soloman) из Шеффилда связался с учёными НАСА и указал им на ошибку в наборе данных, которые они выложили в онлайн. Речь идёт о показаниях детекторов частиц на Международной космической станции — там Майлз нашёл отрицательные значения энергии, которые пропустили инженеры НАСА.

На прошлой неделе парень получил свою минутку славы: дал несколько интервью в СМИ и выступил в эфире национального радио BBC Radio 4, в программе World at One.
Читать полностью »

Splunk. Введение в анализ машинных данных — часть 2. Обогащение данных из внешних справочников и работа с гео-данными

2017-03-27 в 4:57, admin, рубрики: geostats, iplocation, lookup, splunk, transaction, анализ данных, анализ логов, анализ машинных данных, Блог компании TS Solution, лог-менеджмент, логи, Серверное администрирование, Сетевые технологии, системное администрирование

Splunk. Введение в анализ машинных данных — часть 2. Обогащение данных из внешних справочников и работа с гео-данными - 1

Мы продолжаем рассказывать и показывать как работает Splunk, в частности говорить о возможностях языка поисковых запросов SPL.

В этой статье на основе тестовых данных (логи веб сервера) доступных всем желающим для загрузки мы покажем:

Как обогатить логи информацией из внешних справочников
Как можно визуализировать географические данные (данные с координатами)
Как группировать цепочки событий в транзакции и работать с ними

Под катом вы найдете как сами примеры поисковых запросов, так и результат их выполнения. Вы можете скачать бесплатную версию Splunk, загрузить тестовые данные и повторить все на своем локальном компьютере.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «анализ данных» - 20

О чем говорят женщины? (Text mining of beauty blogs)

Обзор Splunk Machine Learning Toolkit

GoTo Data Science Challenge 2: гранты на летнюю школу

Статистические компоненты: основы и практика

1. Вступление

Big Data для автодилера и автопроизводителя: от идеи до монетизации

О линейной регрессии: байесовский подход к курсу рубля

Школа данных: Москва, Питер… онлайн

На страже безопасности: IBM QRadar SIEM

17-летний школьник исправил ошибку НАСА

Splunk. Введение в анализ машинных данных — часть 2. Обогащение данных из внешних справочников и работа с гео-данными

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «анализ данных» - 20

1. Вступление

Новости

Актуальные темы

Архив