Superset не самый новый bi-инструмент, но его популярность продолжает расти. На мой взгляд, он достаточно прост в освоении, но все же требует некоторых усилий и времени, чтобы разобраться куда тыкать, чтобы загрузить данные и нарисовать красивый отчет. Лично я за свою карьеру в IT уже второй раз сталкиваюсь с необходимостью переезда на этот инструмент. Он снова новый для компании и многие сотрудники с ним раньше не работали. Поэтому я и решила написать статью-шпаргалку, которая поможет в несколько кликов создать работающий дашборд и всегда будет под рукой.
Рубрика «Apache»
Как создать дашборд в Superset: гайд для новичков и полезные лайфхаки
2024-11-16 в 19:05, admin, рубрики: Apache, bi-аналитика, superset2003–2023: Краткая история Big Data
2022-12-04 в 10:00, admin, рубрики: Apache, AWS, big data, data engineering, GCP, Hadoop, Microsoft Azure, ruvds_перевод, spark, sql, Блог компании RUVDS.com, Большие данные, хранилища данныхБольшие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.
Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.
Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…
Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.
Apache NiFi: как решить ошибки, которые не гуглятся
2022-06-07 в 7:11, admin, рубрики: Apache, big data, data, data engineering, NiFi, NiFi Deployment, Блог компании Группа НЛМК, хранение данных
Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать полностью »
Как прикрутить SQL к чему угодно при помощи Apache Calcite
2021-09-17 в 7:17, admin, рубрики: Apache, Apache Calcite, Apache Ignite, sql, sql tips and tricks, базы данных, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, конференции, распределенные системы, распределенные файловые системыСделать свою собственную SQL-базу данных или запускать SQL-запросы в NoSQL-базе данных — кажется, это очень непростая задача. А если мы говорим о распределенной БД, то сложность возрастает многократно. Но, к счастью, Apache Calcite — фреймворк с открытым кодом — поможет сделать это довольно легко.
Как поменять архитектуру облака и не поломать пользовательский опыт
2021-09-03 в 8:42, admin, рубрики: Apache, Apache Airflow, devops, архитектура приложений, архитектура системы, Блог компании Selectel, Блог компании Конференции Олега Бунина (Онтико), облака, облачные сервисы, облачные технологии, облачный сервис, цодApache Kafka — скоро без ZooKeeper
2021-04-16 в 5:05, admin, рубрики: Apache, apache kafka, apache zookeeper, zookeeper, Блог компании Southbridge, Программирование, системное администрирование
В основе Apache Kafka находится лог — простая структура данных, которая использует последовательные операции, работающие в симбиозе с оборудованием. Эффективное использование дискового буфера и кэша процессора, prefetch, передача данных zero-copy и много других радостей — все это благодаря построенной на логе структуре, которая славится своей эффективностью и пропускной способностью. Обычно эти преимущества, а еще базовая реализация в виде лога коммитов, — первое, что люди узнают о Kafka.
Код самого лога составляет относительно малую часть всей системы. Гораздо больше занимает код, который отвечает за организацию партиций (т. е. логов) на множестве брокеров в кластере — назначает лидеров, обрабатывает сбои и т. д. Этот код и делает Kafka надежной распределенной системой.
Раньше важной частью работы распределенного кода был Apache ZooKeeper. Он хранил самые важные метаданные системы: где находятся партиции, кто из реплик лидер и т. д. Читать полностью »
Гибриды побеждают или холивары дорого
2021-01-10 в 23:05, admin, рубрики: Apache, C#, devops, docker-compose, java, kafkaconnect, RabbitMQ, высокая производительностьМотивом для написания данной статьи послужил тот факт, что на habr.com участилось появление материалов маркетингового характера про Apache Kafka. А также тот факт, что из статей складывается впечатление что пишут их немного далекие от реального использования люди — это конечно же только впечатление, но почему-то в большинстве своем статьи обязательно содержат сравнение Apache Kafka с RabbitMQ, причем не в пользу последнего. Что самое интересное — читая подобные статьи управленцы без технического бэкграунда начинают тратить деньги на внутренние исследования, чтобы ведущие разработчики и технические директора выбрали одно из решений. Так как я очень жадный/домовитый, а также так как я сторонник тезиса "В споре НЕ рождается истина" предлагаю вам ознакомится с другим подходом — почти без сравнения разных брокеров.
Как создать приложение для потоковой обработки данных при помощи Apache Flink
2020-12-05 в 9:44, admin, рубрики: Apache, Apache Flink, java, stream processing, Блог компании Издательский дом «Питер», высокая производительность, ПрограммированиеПривет!
Среди рассматриваемых нами фреймворков для сложной обработки данных на Java есть и Apache Flink. Хотим предложить вам перевод неплохой статьи из блога Analytics Vidhya на портале Medium, чтобы оценить читательский интерес. Не стесняйтесь участвовать в голосовании!
Apache Software Foundation опубликовала релиз платформы Apache Hadoop 3.3.0
2020-08-03 в 13:30, admin, рубрики: Apache, Hadoop, Блог компании Selectel, высокая производительность, оборудование, сервисы, СофтApache Software Foundation выпустила свежий релиз своей платформы — Apache Hadoop 3.3.0. С момента последнего обновления прошло полтора года. Сама платформа представляет собой инструмент для организации распределенной обработки больших объемов данных с использованием MapReduce. Hadoop включает в себя набор утилит, библиотек и фреймворков для разработки и выполнения распределенных программ, которые способны работать на кластерах из тысяч узлов.
Для Hadoop создана специализированная файловая система Hadoop Distributed File System (HDFS), которая обеспечивает резервирование данных и оптимизацию работы MapReduce-приложений. HDFS предназначена для хранения файлов больших размеров, распределенных между отдельными узлами вычислительного кластера. Благодаря своим возможностям Hadoop используется крупнейшими компаниями и организациями. Google даже предоставила Hadoop право на использование технологий, которые затрагивают патенты, связанные с методом MapReduce.
Читать полностью »