Рубрика «анализ данных» - 8

В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной log_2{N}. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
Читать полностью »

image

Всемирная паутина — это океан данных. Здесь можно посмотреть практически любую интересующую Вас информацию. Однако, "вытащить" эту информацию из интернета уже сложнее. Есть несколько способов получить данные и web-scraping один из них. Читать полностью »

При просмотре профилей пользователей соцсетей, невольно задаешься вопросом, а сколько информации лежит в открытых источниках? Понятно, что много. Но как это посчитать? И у кого еще, кроме спецслужб и корпораций уровня Google или Microsoft, есть ресурсы и механизмы, чтобы это систематизировать? Создатели ПО Maltego уверяют — у любого. В этой статье я разберу практические примеры, пробегусь по функционалу и принципам работы этого инструмента.

4 релиза Maltego. Принципы работы и возможности - 1

Рассматривать мы будем именно коммерческий релиз. Потому что Free версия — это хорошо, но посмотреть возможности, которые можно получить только за немалую копеечку от сторонних компаний, вроде Social Links, гораздо интереснее.

Сразу скажу: статья будет, скорее всего, не одна. По мере получения доступа к различным дополнительным плюшкам коммерческих релизов Maltego постараюсь писать про то, что конкретно каждая опция расширяет, и нужна ли она вообще.

Итак, дамы и господа, приступим. Читать полностью »

Вот уже «тысячу лет» ничего не писал, но вдруг неожиданно появился повод сдуть пыль с мини-цикла публикаций по «обучению Data Science с нуля». В контекстной рекламе одной из соцсетей, а также на любимом «Хабре», я наткнулся на информацию о курсе «Старт в Data Science». Стоил он сущие копейки, описание курса было красочное и многообещающее. «Почему бы не восстановить, запылившиеся от ненадобности навыки пройдя очередной курс?» — подумал я. Также свою роль сыграло любопытство, давно хотелось посмотреть, как устроена организация обучения у этой конторы.

Сразу предупрежу, я никак не аффилирован с разработками курса или их конкурентами. Весь материал статьи — мое субъективное оценочное суждение с легким налетом иронии.
Итак, вы все еще не знаете куда стоит вложить свои кровные 990 рублей? Тогда милости прошу под кат.

«Как ставить сети на начинающих аналитиков» или обзор на онлайн курс «Старт в Data Science» - 1
Читать полностью »

Добрый день!

Как и было обещано в предыдущей статье, сегодня мы продолжим разговор о методологиях, применяемых в A/B-тестировании и рассмотрим методы оценки результатов множественных экспериментов. Мы увидим, что методологии довольно просты, и математическая статистика не так страшна, а первооснова всего — аналитическое мышление и здравый смысл. Однако предварительно хотелось бы сказать пару слов о том, какие же бизнес-задачи помогают решать строгие математические методы, нужны ли они Вам на данном этапе развития Вашей компании и какие pros and cons существуют в Большой аналитике.
Читать полностью »

image

Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией.

В качестве источника данных — главная бухгалтерская книга банка. Используя теорию графов, выделяем всех его клиентов в качестве узлов, а операции по счёту используем как ребра. Сумма операции, в таком случае, будет являться весом ребра.
Читать полностью »

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»
Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»
Белый шум рисует черный квадрат - 1
Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:
1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?
Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
Читать полностью »

ok.tech: Data Толк #2 - 1

7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2, в этот раз мероприятие будет посвящено образованию в Data Science. Ни для кого не секрет, что сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области датасаенса. Кто-то считает, что без университетского образования стать датасаентистом – невозмножно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции что хороший датасаентист это – практика и разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему. Мероприятие пройдет в формате дискусси между спикерами, в этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, Digital October) и Виктор Кантор (Mail.ru Group). Мы приглашаем всех, кому интересна тема образования в DataScience присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах, приходите и расскажите что это вам дало, считаете, что без PHD в анализе данных нельзя, приходите и расскажите почему, считаете, что датасентист должен уметь писать в прод, приходите – обсудим.

→ Регистрация на меропритие

Под катом мнения экспертов и расписание.
Читать полностью »

Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

image
Читать полностью »

Машинное обучение vs. аналитический подход - 1

Какое-то время назад мы нашли свои старые материалы, по которым обучали первые потоки на наших курсах машинного обучения в Школе Данных и сравнили их с теперешними. Мы удивились, сколько всего мы добавили и поменяли за 5 лет обучения. Осознав, почему мы это сделали и как, на самом деле, поменялся подход к решению задач Data Science, мы решили написать вот эту публикацию.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js