Привет, меня зовут Александр Окороков, я основатель и генеральный директор ИТ-компании и автор медиа вАЙТИ. Мы помогаем заказчикам выстроить оптимальную стратегию принятия управленческих решений, чтобы эффективно использовать ресурсы и не терять деньги. Именно эту задачу решает data-driven-подход к принятию решений и управлению продуктом с опорой на данные.
Рубрика «data lake»
Data driven на практике: с чего начать, как избежать ошибок и эффективно применять
2024-12-17 в 11:24, admin, рубрики: data lake, data-driven, IoT, автоматизация процессов, аналитика данных, принятие решений, управление данными, цифровая трансформация, цифровые двойникиЧто в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность
2022-03-15 в 12:52, admin, рубрики: big data, data governance, data lake, data mesh, Hadoop, Администрирование баз данных, архитектура, базы данных, Блог компании МТС, хранение данных, хранилища данных, хранилище данных
Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития. Читать полностью »
ClickHouse: путь джедая, искавшего дом для своих данных
2021-09-07 в 7:12, admin, рубрики: big data, clickhouse, data lake, Блог компании Туту.ру, хранение данных, хранилище данныхКак мы искали неработающие датчики на «УРАЛХИМЕ» (первый проект Data Lake)
2020-11-05 в 11:24, admin, рубрики: big data, data lake, Блог компании КРОК, датчики, сбор данных, хранение данных, хранилища данных
«УРАЛХИМ» делает удобрения. № 1 в России — по производству аммиачной селитры, например, входит в топ-3 отечественных производителей аммиака, карбамида, азотных удобрений. Выпускаются серные кислоты, двух-трёхкомпонентные удобрения, фосфаты и многое другое. Это всё создаёт агрессивные среды, в которых выходят из строя датчики.
Мы строили Data Lake и заодно охотились на те датчики, которые замерзают, выходят из строя, начинают давать ложные данные и вообще ведут себя не так, как должны себя вести источники информации. А «фишка» в том, что невозможно строить матмодели и цифровые двойники на базе «плохих» данных: они просто не будут правильно решать задачу и давать бизнес-эффект.
Но современным производствам нужны Data Lake'и для дата-сайентистов. В 95 % случаев «сырые» данные никак не собираются, а учитываются только агрегаты в АСУТП, которые хранятся два месяца и сохраняются точки «изменения динамики» показателя, которые вычисляются специально заложенным алгоритмом, что для дата-сайентистов снижает качество данных, т. к., возможно, может пропустить «всплески» показателя… Собственно, примерно так и было на «УРАЛХИМЕ». Нужно было создать хранилище производственных данных, подцепиться к источникам в цехах и в MES/ERP-системах. В первую очередь это нужно для того, чтобы начать собирать историю для дата-сайенса. Во вторую очередь — чтобы дата-сайентисты имели площадку для своих расчётов и песочницу для проверки гипотез, а не нагружали ту же самую, где крутится АСУ ТП. Дата-сайентисты пробовали сделать анализ имеющихся данных, но этого не хватило. Данные хранились прореженные, с потерями, часто неконсистентные с датчиком. Взять датасет быстро не было возможности, и работать с ним тоже было особо негде.
Теперь вернёмся к тому, что делать, если датчик «гонит».
Читать полностью »
Переход от монолитного Data Lake к распределённой Data Mesh
2020-04-04 в 12:19, admin, рубрики: big data, data lake, data mesh, Data Platform, data warehouse, dwh, перевод, хранилища данныхПривет! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же статьи).
Все крупные компании сейчас пытаются строить огромные централизованные хранилища данных. Или же ещё более огромные кластерные Data Lakes (как правило, на хадупе). Но мне не известно ни одного примера успешного построения такой платформы данных. Везде это боль и страдание как для тех, кто строит платформу данных, так и для пользователей. В статье ниже автор (Жамак Дегани) предлагает совершенно новый подход к построению платформы данных. Это архитектура платформы данных четвертого поколения, которая называется Data Mesh. Оригинальная статья на английском весьма объёмна и откровенно тяжело читается. Перевод так же получился немаленьким и текст не очень прост: длинные предложения, суховатая лексика. Я не стал переформулировать мысли автора, дабы сохранить точность формулировок. Но я крайне рекомендую таки продраться через этот непростой текст и ознакомиться со статьёй. Для тех, кто занимается данными, это будет очень полезно и весьма интересно.
Евгений Черный
Немало компаний инвестируют в следующее поколение Data Lake с надеждой упростить доступ к данным в масштабе всей компании и предоставить бизнесу инсайты и возможность принимать качественные решения автоматически. Но текущие подходы к построению платформ данных имеют схожие проблемы, которые не позволяют достигнуть поставленных целей. Чтобы решить эти проблемы нам необходимо отказаться от парадигмы централизованного Data Lake (или его предшественника – хранилища данных). И перейти к парадигме, основанной на современной распределённой архитектуре: рассматривать бизнес-домены как приоритет первого уровня, применять платформенное мышление для создания инфраструктуры с возможностью самообслуживания и воспринимать данные как продукт.
Клиентоориентированный Data Lake в игровой компании
2019-12-12 в 13:42, admin, рубрики: big data, data lake, open source, python, Блог компании Mail.Ru Group, хранилища данныхПривет! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье я расскажу о том, как и зачем мы строили клиентоориентированное DataLake-хранилище.
Статья состоит из трех частей. Сперва я расскажу, почему мы решили реализовывать DataLake. Во второй части я опишу, какие технологии и решения мы используем, чтобы хранилище могло работать и наполняться данными. И в третьей части опишу, что мы делаем для улучшения качества наших сервисов.
Читать полностью »
Data Mesh: как работать с данными без монолита
2019-11-13 в 15:37, admin, рубрики: big data, data, data lake, data mesh, DDD, Dodo Pizza Engineering, domain-driven design, Блог компании Dodo Pizza Engineering, данные, хранение данныхПривет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.
Из нагруженной MPP СУБД — бодрый Data Lake с аналитическими инструментами: делимся подробностями создания
2018-08-14 в 13:58, admin, рубрики: big data, data lake, Блог компании ВТБ, втб, машинное обучение, хранение данных, хранилища данныхВсе организации, которые имеют хоть какое-то отношение к данным, рано или поздно сталкиваются с вопросом хранения реляционных и неструктурированных баз. Непросто найти одновременно удобный, эффективный и недорогой подход к этой проблеме. А еще сделать так, чтобы на данных смогли успешно работать дата-сайентисты с моделями машинного обучения. У нас получилось – и хотя пришлось повозиться, итоговый профит оказался даже больше ожидаемого. Обо всех подробностях расскажем ниже.
Gartner Data & Analytics Summit 2018
2018-04-15 в 9:44, admin, рубрики: data governance, data lake, Блог компании Райффайзенбанк, конференции19-21 марта в Лондоне состоялась конференция Gartner Data & Analytics Summit. Я был посетителем этого мероприятия и хочу поделиться с вами своими мыслями и наблюдениями.
Читать полностью »
Первый в России OpenHack от Microsoft (то есть от нас)
2017-09-18 в 12:40, admin, рубрики: Ansible, azure, big data, CNTK, containers, data lake, devops, docker, k8s, kubernetes, linux, microsoft, Microsoft Azure, OpenHack, oss, school, Блог компании MicrosoftЖизнь в движении. Поэтому мы не устаём экспериментировать с новыми форматами проведения мероприятий для достижения более высоких целей (Круто звучит, да?). Сначала мы отказались от проведения обычной конференции DevCon и перешли в формату DevCon School: эксперты индустрии и их реальный опыт в реальных проектах. За время эксперимента мы провели 6 школ и поняли, что этот формат позволяет «пощупать» новые технологии, получить о них общее представление, вернуться в рабочую рутину с обычной нехваткой времени и остановиться.
Сегодня я хочу рассказать вам о следующем шаге — OpenHack, который позволит провести эксперимент вместе с экспертами и проверить рабочую гипотезу в деле.
Читать полностью »