В прошлый раз [Загрузка данных с сайта открытых данных data.gov.ru] мне не без проблем удалось научиться загружать данные с портала открытых данных России. Портал открытых данных должен предоставлять наиболее актуальные сведения об открытых данных федеральных органов власти, органов региональной власти и иных организаций (цитата с сайта data.gov.ru). Посмотрим, какие данные на портале, насколько они актуальны и в каком виде размещаются.
Читать полностью »
Рубрика «анализ данных» - 20
Анализ наборов данных с портала открытых данных data.gov.ru
2017-02-07 в 7:16, admin, рубрики: анализ данных, открытые данные, Программирование, Статистика в ITИнтернет-разведка в действии: who is Mr.-Ms. Habraman?
2017-01-24 в 4:46, admin, рубрики: OSINT, анализ данных, Блог компании Эшелон, веб-аналитика, Вконтакте, интернет-маркетинг, интернет-разведка, информационная безопасность, социальные сетиВ прошлой статье, посвященной интернет-разведке, был кратко рассмотрен процесс сбора и анализа данных по конкретному человеку. Так как тема вызвала большой интерес, продолжаем начатое дело и в этой статье рассмотрим, как можно собирать информацию о целой группе пользователей.
Рассмотрим следующую ситуацию: новый пользователь Хабра, получив «минус в карму» еще до первого своего поста/комментария на ресурсе, решает узнать, а кто же скрывается за изощренно придуманными никами пользователей Хабра и задается вопросом: who is Mr./Ms. Habraman?
Читать полностью »
Что в имени тебе моем: как качественно «пробить» человека в Интернет?
2017-01-11 в 16:36, admin, рубрики: OSINT, анализ данных, Блог компании «ЗАО «НПО „Эшелон“», интернет-разведка, управление персоналом, метки: интернет-разведкаМы постоянно встречаемся в своей жизни с новыми людьми, и стоит констатировать, что помимо хороших друзей нам попадаются мутные товарищи, а иногда и отъявленные мошенники. Любовь наших сограждан оставить свой след в интернет и старания наших ИТ-компаний по автоматизации всего и вся позволяют нам довольно оперативно собирать интересующую информацию о конкретных персонах по открытым источникам. Чтобы это делать быстро и качественно, нам нужно владеть простой методологией разведывательной работы и знать, где и какую информацию о человеке можно добыть в Интернет.
Читать полностью »
Школа Данных «Билайн»: с Наступающим
2016-12-31 в 7:42, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных
Итак, заканчивается 2016 год. Для нас он был очень активным. Было 6 выпусков нашего курса для аналитиков, 5 выпусков курса для менеджеров (Data-MBA). Мы запустили курс в Санкт-Петербурге и уже провели первый выпуск. В партнерстве мы также обучали студентов Высшей Школы Экономики и Российской Экономической Школы, проводили мастер-классы в Сколково, участвовали в десятках хакатонов по всей стране, консультировали ведущие компании касательно применения аналитики и монетизации данных. В этом году один из наших преподавателей стал первым в мире в рейтинге Kaggle.
Читать полностью »
Вычисляем контент, который в будущем станет вирусным
2016-12-20 в 14:25, admin, рубрики: Facebook API, node.js, анализ данных, Анализ и проектирование систем, социальные сетиВ данной статье будет описан только общий алгоритм на примере Facebook. Однако такой же подход можно использовать повсюду.
Задача
На основе существующего контента (за последние 30 дней) на данной странице Facebook определить какие записи потенциально будут более популярными.
Читать полностью »
Система отчётов: как получать 50 млн. отчетов и сохранить Дзен
2016-12-08 в 2:27, admin, рубрики: Parallels, parallels desktop, анализ данных, Анализ и проектирование систем, анализ кода, Блог компании Parallels, виртуализация, виртуальная машина, ит, отладка, отчетность, Программирование, Разработка под Linux, Тестирование IT-систем
Чем сложнее программный продукт, чем больше он взаимодействует со сторонними системами (часто не менее сложными), тем выше вероятность сбоев в работе. Тестирование помогает найти большинство багов перед выкатыванием релиза, но иногда что-то может проскользнуть. И чтобы быстро получать подробную информацию о факте сбоя и сопутствующих условиях, в наших продуктах широко используется система отчётов. О её устройстве мы хотим сегодня рассказать.Читать полностью »
Знание – сила: анализируем продуктовую статистику и не теряем клиентов на дороге прогресса
2016-10-10 в 8:58, admin, рубрики: data mining, Plesk, x64, анализ данных, аналитика, Блог компании Plesk, сбор статистики, управление продуктами, Управление продуктом, управление проектами, метки: сбор статистикиВсем привет! Сегодня мы поговорим о том, зачем нужна статистика использования продукта, помимо ее очевидной пользы в деле проверки лицензионных ограничений и построения адекватных тестов для последующих релизов продукта. Предметом рассказа станет наш недавний опыт.
Совсем скоро состоится релиз новой версии хостинговой панели Plesk под названием Plesk Onyx. Начиная с этой версии Plesk прекращает поддержку 32-битной архитектуры. Решение об этом было принято после рассмотрения нескольких ключевых аспектов. Индустрия разработки ПО постепенно движется к повсеместному переходу на 64-битные сборки. Многие производители софта уже отказались от 32-битной версии своих продуктов, и новые шаги в этом направлении происходят непрерывно. Дистрибутив RHEL 7, используемый в качестве основы CentOS, выпускается только для 64-разрядных систем – а между тем CentOS является одной из самых популярных среди пользователей Plesk операционных систем. Кроме того, сторонники 32-разрядных ОС лишают себя возможности воспользоваться такой функциональностью Plesk, как работа с Docker и MongoDB, в силу того, что эти продукты могут быть установлены только на 64-разрядные операционные системы.
Однако рынок B2B2C, на который ориентирован Plesk, в силу своей специфики достаточно инертен, поэтому выглядит целесообразным дать всей этой длинной цепочке шанс сориентироваться и плавно переехать с одной архитектуры на другую. Для этого мы решили адресно оповестить тех из наших клиентов, чей бизнес может быть в наибольшей степени затронут грядущими изменениями.
Окей, гугл – как понять, кого именно необходимо оповестить? «Отзовитесь, динозавры!» Без статистики использования продукта здесь не справиться, но чтобы получить из неё что-то внятное, придется потрудиться. Читать полностью »
Лекции Техносферы. 1 семестр. Введение в анализ данных (весна 2016)
2016-10-04 в 11:50, admin, рубрики: java, mail.ru, python, R, Алгоритмы, анализ данных, Блог компании Mail.Ru Group, лекции техносферы, математикаСлушайте и смотрите новую подборку лекций Техносферы Mail.Ru. На этот раз представляем в открытом доступе весенний курс «Введение в анализ данных», на котором слушателей знакомят со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается любой исследователь данных в работе. Курс преподают Евгений Завьялов (аналитик проекта Поиск Mail.Ru, занимающийся извлечением знаний, полезных бизнесу из данных, генерируемых поисковым движком и десктопными приложениями), Михаил Гришин (программист-исследователь из отдела анализа данных) и Сергей Рыбалкин (старший программист из студии Allods Team).
Лекция 1. Введение в Python
Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.
ANOVA, или кто комментирует?
2016-09-20 в 22:15, admin, рубрики: ANOVA, data mining, Kruskal-Wallis, Mann-Whitney, R, Tukey's HSD, анализ данных, дисперсионный анализ, математика, машинное обучение, статистика, хабрахабр
В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
Читать полностью »
Как «моделируют будущее» в Университете ИТМО: от предсказания поведения толпы до анализа мнений в соцсетях
2016-08-29 в 7:01, admin, рубрики: анализ данных, Анализ и проектирование систем, Блог компании Университет ИТМО, моделирование, Разработка под e-commerce, метки: итоМожно ли предсказать поведение толпы? Ученые из Института наукоемких компьютерных технологий (НИИ НКТ) при Университете ИТМО взялись решить эту задачу. Они создали систему, моделирующую варианты развития событий в местах массового скопления людей, будь то стадион во время футбольного Чемпионата Мира или святые места в период массового паломничества.
От хаоса — к модели
Модель строится на основе особенностей толпы, таких, как социальная структура, и внешних факторов, — например, погодных условий или политической обстановки. Также задаются параметры территории, где происходит действо. В результате, ученые видят наглядную картину поведения людей в заданных условиях. Выглядит это примерно так: