Несколько дней назад компания Splunk выпустила новый релиз своей платформы Splunk 7.1 в котором, наверно, произошло самое ожидаемое изменение за последние несколько лет — да, полностью изменился графический интерфейс. В этой статье мы расскажем об основных нововведениях и улучшениях платформы. Что еще нового помимо GUI? Смотрите под кат.
Читать полностью »
Рубрика «анализ данных» - 15
Splunk 7.1. Что нового? Новый веб интерфейс, интеграция с Apache Kafka и многое другое…
2018-04-27 в 5:13, admin, рубрики: machine learning, splunk, анализ данных, анализ логов, Блог компании TS Solution, кластеризация, логи, машинные данные, метрики, Серверная оптимизация, Серверное администрирование, системное администрированиеЧей прогноз погоды точнее?
2018-04-24 в 8:01, admin, рубрики: big data, Алгоритмы, анализ данных, математика, машинное обучение, погода, прогнозированиеМногие время от времени задумываются — насколько точны прогнозы погоды? Чей прогноз погоды точнее? В какую сторону чаще всего ошибаются прогнозы для моего города?
Время математических приключений!
10000 лайков
2018-04-24 в 1:42, admin, рубрики: data mining, анализ данных, бинарная классификация, лайки, линейный классификаторВ самом начале января мой друг и я бродили по холодным и дождливым улицам Лондона и говорили о технологиях, жизни и чём-то ещё. Я время от времени делал фотографии на свой старый Canon EOS 400D, и в какой-то момент друг сказал: “Вот ты фотографируешь, фотографируешь, а твои фотографии никто не лайкает”. Я не нашёл что ответить, но вернувшись домой, создал аккаунт в одной из соцсетей, где можно постить и лайкать фотографии, и составил план: за 100 дней набрать 10000 фолловеров и к концу этого срока получать 500 лайков за пост. После этого отобрал пару сотен интересных фотографий и запостил первую. И её лайкнуло только несколько человек. Этого было мало, нужно было придумать какой-то метод.
Решаем загадку круглых чисел на графике выборов 2018
2018-04-23 в 22:04, admin, рубрики: big data, data mining, анализ данных, визуализация данных, открытые данные, статистика
Данная статья является ответом на вот эту статью (Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне).
В той статье меня удивила фраза автора:
Вместо нормального или логнормального распределения мы видим интересную кривую, с очень странными пиками на круглых значениях (70%, 75%, 80% и т.д.), возрастающую на около-100% явке и уходящей далеко вверх на 100%.
Сразу возникают вопросы:
Почему автор считает, что вместо «странных» пиков должно быть нормальное или логнормальное распределение?
Почему вообще пики считаются «странными»?
Откуда могут появиться «естественные» пики на круглых значениях?
Та статья сильно политизирована и комментарии в ней соответствующие. В этой статье мы будем обсуждать только математику, поэтому политические взгляды попрошу держать при себе.
А в качестве бонуса, в конце статьи будет выложен ключ к решению загадки «круглых чисел» на графике выборов 2018.
Как мы участвовали в хакатоне от OpenData
2018-04-23 в 16:41, admin, рубрики: data science, Linked data, open data, академический университет, анализ данных, Блог компании СПБАУ, кейс, машинное обучение, открытые данные, ХакатоныВсем привет, в этой статье я хочу рассказать про Why So Serious Hack. Про то, что вообще нас туда привело, чем хакатоны в классическом понимании отличаются от хакатонов с контестом и что нам помогло выиграть.
Обзор материалов по машинному обучению № 3 (16 — 23 апреля 2018 года)
2018-04-23 в 13:18, admin, рубрики: анализ данных, дайджест, математика, машинное обучениеДобрый день! Это третий дайджест материалов по машинному обучению и анализу данных, который появился после длительного перерыва.
Как с помощью анализа геоданных предсказать количество вызовов экстренных служб в разных частях города?
2018-04-12 в 8:00, admin, рубрики: OpenStreetMap, python, анализ данных, Блог компании МТС, Геоинформационные сервисы, геопозиционирование, МТС, хакатонПопробуйте решить задачу из онлайн-хакатона Geohack.112. Дано: территория Москвы и Московской области была разделена на квадраты размеров от 500 на 500 метров. В качестве исходных данных представлено среднее количество вызовов экстренных служб в день (номера 112, 101, 102, 103, 104, 010, 020, 030, 040). Рассматриваемый регион был поделен на западную и восточную часть. Участникам предлагается, обучившись по западной части, предсказать количество вызовов экстренных служб для всех квадратов восточной.
Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка
2018-04-05 в 9:10, admin, рубрики: big data, machine learning, nlp, word2vec, анализ данных, Блог компании Конференции Олега Бунина (Онтико), классификатор текстов, машинное обучениеНеважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.
Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.
Как вам может помочь эта статья
За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.
Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.
После прочтения статьи, вы будете знать, как:
- осуществлять сбор, подготовку, и инспектирование данных;
- строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
- интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.
Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.
Читать полностью »
Ученье — свет, или как организовать мастер-класс за 2 дня
2018-03-31 в 11:58, admin, рубрики: 3d графика, анализ данных, визуализация, визуализация данных, картограмма, Работа с 3D-графикой, управление продуктами, управление проектами, учебный процесс, Учебный процесс в ITОбучение новых пользователей и разработчиков служит одним из основных инструментов популяризации своего продукта или технологии. Наша компания несколько месяцев назад начала приоткрывать «завесу» над своей технологией и привлекать новых разработчиков к платформе, на которой мы разрабатываем оригинальные приложения по 3D-аналитике. Естественно, что мы столкнулись с необходимостью обучения новичков.
В данной статье я опишу опыт нашей компании по организации обучения новой команды разработчиков или, другими словами, как собрать образовательную программу из подручных материалов.
Чем статья может быть полезна вам?
Если перед вами стоит задача за несколько дней подготовить программу обучения, то можете воспользоваться данной статьей, как пошаговой инструкцией. Также здесь описан перечень артефактов, которые стоит подготовить для успешной организации «передачи знаний». Если же ваша технология или продукт еще не готовы к «отторжению от лона проматери», но у вас есть планы по привлечению новых последователей в дальнейшем, то в статье вы найдете несколько идей по поводу того, какие документы вам стоит начать готовить и что описывать.
Наша программа обучения состоит из 2 этапов: мастер-класс и онлайн-обучение.
В данной статье мы рассмотрим проведение мастер-класса. Об удаленном онлайн-обучении напишу в следующей статье. Поэтому, пожалуйста, оставляйте под статьей свои комментарии, и я обязательно учту их при написании второй части.
Читать полностью »
Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне
2018-03-30 в 11:54, admin, рубрики: big data, data mining, анализ данных, выборы, открытые данные
Особенностью российских президентских выборов 2018 года стало то, что главным показателем теперь стал не процент за основного кандидата, а величина явки. Другим важным показателем стало рекордно высокое количество наблюдателей по всей стране. Наблюдатели были отправлены, в том числе, в республики Северного Кавказа, где традиционно результаты попросту рисовались.
Президентские выборы, даже без учёта масштабной кампании по повышению явки с помощью конкурсов, местных референдумов, и административного давления, привлекают значительно выше внимания, чем парламентские выборы. Однако, проведя анализ результатов, можно продолжать замечать аномалии в результатах, хоть уже и менее выраженными на федеральном уровне.
Я провел анализ результатов как на федеральном, так и (что интереснее) региональных уровнях, а также расскажу о том, как создавал сервис для анализа выборов.Читать полностью »