Если смотреть прессу, словосочетание «цифровая экономика» ожидается одним из популярных в ближайшие несколько лет.
Но чтобы от перейти от слов к делу и действительно совершить цифровой скачок необходимо пересмотреть подходы и используемые инструменты. В рамках настоящей публикации, являющейся продолжением предыдущих публикаций, планирую кратко проиллюстрировать, тезис о том, что применение в бизнесе R экосистемы прекрасно вписывается в задачу перехода к цифровой экономике.
Почему необходимы новые подходы и инструменты?
- Многократное увеличение объемов данных
- Многократное увеличение источников данных
- Многократное увеличение форматов обмена
- Работа с неструктурированными данными
- Смещение фокуса от исторического анализа к научному прогнозированию
- Акцент на визуализацию и удобства восприятия
- Многократное снижение времени на принятие решения вплоть до работы в режиме «реального времени»
High Level Design (HLD) аналитической системы на базе R
В эволюционного развития различных задач были пересмотрены различные методики и современные open-source средства. В результате сформировался достаточно универсальный стек общего назначения, общая архитектура которого выглядит следующим образом:
Ключевые компоненты решения
- RStudio — аналитическая экосистема (импорт, обработка, визуализация) на основе платформы R (https://www.rstudio.com/)
- Yandex ClickHouse — сверхбыстрая колоночно-ориентированная БД, оптимизированная для работы с временнЫми данными (https://clickhouse.yandex/)
- Appache Drill — платформа для обеспечения унифицированного SQL доступа к BigData & NoSQL данным (https://drill.apache.org/)
- Appache Airflow — оркестратор (https://airflow.incubator.apache.org/)
- «ETL» — платформа для приема разнообразной структурированной информации в относительно «чистой» форме с применением языка Go (https://golang.org/)
В зависимости от предметной области, типов и масштабов данных могут использоваться не все элементы стека. Но какая бы задачи ни была, аналитическим ядром, а также лицом системы с точки зрения пользователя остается R & Shiny соотвественно.
Ожидаемые бизнесом выходы от аналитической системы
Как правило, большинство людей ожидают увидеть «отчеты», не детализируя, что именно они в это слово вкладывают. Экосистема R позволяет получать много больше типичных ожиданий:
- генерация штатных отчетов в виде HTML (с элементами интерактива в виде встроенных htmlWidgets);
- генерация штатных отчетов в виде PDF;
- генерация различных выгрузок в различных форматах для M2M взаимодействия;
- интерактивные аналитические приложения (дашборды);
- элементы операционной аналитики (автоматическое внесение изменений в другие ИТ системы на основе полученных вычислений).
Средой существования всех упомянутых типов отчетов и АРМ является Shiny ServerConnect Server. В платной или бесплатной редакции — зависит от требований, которые выходят за рамки аналитики и определяются требованиями по нагрузке, безопасности, централизованному управлению.
5 бизнес-аргументов в пользу приведенного HLD
- Быстрые сроки ввода в эксплуатацию и минимальная стоимость владения за счет применения передовых апробированных open-source инструментов.
- Широчайший спектр функциональных возможностей по импорту, обработке и визуализации.
- Унифицированные высокопроизводительные технологии для данных различного масштаба данных (миллионы – сотни триллионов строк гигабайты – петабайты данных).
- Использование открытых общедоступных пакетов (>10 тыс штук), в том числе в части:
- алгоритмической обработки, включая методы машинного обучения;
- визуализации и создания интерактивных аналитических дашбордов на базе технологий HTML5+CSS+JS.
- Наличие «enterprise compliant» коммерческих версий доступных по модели подписки для ключевых open-source компонент.
P.S.
Практика раз за разом показывает, что цифровые преобразования упираются отнюдь не в возможности инструментов (open-source), а в неготовность людей менять восприятие, изучать новое, мыслить стратегически или просто страх перемен.
Примером подобного типового пожелания является наличие «визуального» конструктора, так, чтобы только мышкой, без какого-либо программирования можно было получить результат неограниченной сложности. Однако, это красивое требование, культивируемое представителями BI визуализации, очень плохо сочетается с самим содержанием цифровых перемен которые ожидают человечество.
Парадокс этого требования вполне прозрачен. Повсеместно используя машины в качестве помощников крайне затруднительно общаться с ними с помощю ограниченного языка жестов или словаря Эллочки-людоедки. Даже из теории информации следует, что двумя-тремя кликами очень мало чего можно передать, если только это не код заранее досконально согласованного действия.
В цифровом мире язык програмимирования становится таким же важным знанием, как язык международного общения. Интересно, что в отдельных западных компаниях, воспринимавшихся ранее как классическое производство, программирование становится важным навыком даже для менеджеров. Прекрасный пример подобной трансформации — компания GE, подразделеие GE Digital. Ролик — Discover GE Digital: The Digital Industrial Company
Автор: Илья Шутов