Существует огромное количество терминов: аналитика, data mining, анализ данных, business intelligence и разница между ними не всегда столь очевидна даже для людей, которые с этим связаны. Сегодня мы расскажем о том, что же такое Business Intelligence (BI) доступным и понятным языком. Тема безусловна огромна и её не покрыть лишь одной короткой статьей, но наша задача — помочь сделать первый шаг и заинтересовать читателя темой. Заинтересованный же читатель также найдет исчерпывающий список для дальнейших шагов.
Структура статьи
- Зачем всё это нужно: из жизни аналитика
- В чем задача: проблема на уровне компании
- Обобщаем задачу: всё это звенья одной цепи
- Большая инфографика
- С чем можно поэкспериментировать
- Что почитать? Must read по Business Intelligence
Зачем всё это нужно: из жизни аналитика
Представим, нами (неким аналитиком Петровичем у поставщика Цветочек) стоит задача оценить продажи ряда магазинов (куда мы поставляем товар) и каждый магазин ведет свой учет проданных товаров. Реальность такова, что формы учета будут заполнены не пойми как и не пойми кем, то есть у них будет разная структура и разный формат хранения (некоторая форма таблиц). Схематично эта задача изображена на схеме выше.
Казалось бы задача несложная и поэтому рассмотрим лобовое решение: пусть у нас есть N таблиц и нам нужно их собрать вместе в одну таблицу, тогда напишем N скриптов, которые преобразуют эти таблицы и один сборщик, который собирает их вместе.
Минусы такого подхода:
- необходимо поддерживать N скриптов одновременно (где N в порядках тысяч);
- при изменении структуры отчетов магазинов во времени (например, в магазине появился новый сотрудник) необходимо искать и переписывать отдельные скрипты;
- при появлении нового магазина, необходимо писать новый скрипт;
- при изменении нашей отчетности (поставщика Цветочек), необходимо вносить изменения во все скрипты;
- сложная отладка и поддержка, так как магазины не уведомляют об изменении структуры и не следуют никаким спецификациям.
Если мы поднимемся на уровень целой организации, то увидим, что проблем даже больше.
В чем задача: проблема на уровне компании
Производитель Цветочек на самом деле работает не напрямую с магазинами, а через некоторых посредников. Посредники посещают магазины и непосредственно своими действиями пытаются стимулировать продажи. Соответственно, они являются материально заинтересованными лицами и информацию, которую они выдают, приходится перепроверять.
Принципиально, задача выглядит схожим образом: пусть у нас есть N магазинов и K дистрибьюторов, можем ли агрегировать данные магазинов и сравнить их с результатами дистрибьюторов? (У всех данные имеют разную структуру и формат.)
Здесь помимо таблиц, мы уже можем столкнуться с целым зоопарком форматов, к которым добавляются отчеты дистрибьюторов. Как правило задача характеризуется очень низким качеством данных, в том числе дублированием, несогласованностью и ошибками. На основе полученных результатов и сравнения данных, отдел по закупкам принимает решения о том сколько, кому и почем чего отгружать. То есть решение этой задачи непосредственно влияет на финансовые показатели компании, что безусловно важно.
Рассмотрим несколько вариантов решения на уровне компании:
- самописное решение: компании производителю будет необходимо нанять специалиста не по профилю компании и критичное ПО будет зависеть от данного специалиста. Если он уйдет, то компания будет вынуждена срочно искать замену, которая сможет поддерживать ПО и качество будет напрямую зависеть от нанятого специалиста;
- закупить ПО у третьей стороны, тут три ключевых фактора: цена, качество и время интеграции. Как правило цена и время интеграции слишком высоки для среднего производителя, и в том числе требует существенных временных затрат сотрудников. Выбор поставщика также не тривиален;
- SaaS решения: методология еще нова для рынка и многие компании скептически относятся к подобным сервисам.
В целом если мы говорим о небольшом или среднем производителе, то с точки зрения времени интеграции, цены и качества решения сервис выглядит оптимальным вариантом, так как ценообразование динамическое и интеграция минимальна через веб. Как правило плюсом корпоративного ПО является настраиваемость и касмтомизированность (каждый бизнес считает себя уникальным), но описанная задача достаточно типична и стандартна для достаточно широкого круга компаний. Безусловно, нет единого решения для всех, но для каждого в отдельности его можно найти.
Подробнее на тему здесь.
Сам процесс на уровне компании выглядит схожим образом: консолидируется данные, определенным образом трансформируются (агрегируются) и загружаются в систему для анализа.
(кликабельно)
Обобщаем задачу: всё это звенья одной цепи
В чём же разница между аналитикой, data mining и business intelligence (BI)? Первые включают в себя комплекс методов для анализа уже чистых данных, а на практике очистка и преобразование данных в удобный для анализа формат — важный и неотъемлемый процесс. Так же помимо работы с преобразованием и консолидацией данных, основная задача BI — это принятие решений для бизнеса.
Большая инфографика
В схематичной и немного упрощенной форме описывается задача консолидации данных. Если нет возможности заниматься изучением темы в деталях, то эта инфографика даёт хорошее первое приближение проблемы и возможных методов решения. (кликабельно; взято отсюда)
С чем можно поэкспериментировать
Сервис бесплатен и доступен через веб — ссылка.
Что почитать? Must read по Business Intelligence
- Karl Wiegers and Joy Beatty. Software Requirements
- Паклин, Орешков. Бизнес-Аналитика
- Питер Маерс — видео-выступления на MS Channel 9
Автор: varagian