Моя команда использует ClickHouse как хранилище для 100 млрд записей с трафиком по 300 млн в сутки и поиском по таблице. Я расскажу об устройстве движка таблиц MergeTree. Рассказ буду вести, показывая физические данные, а не абстрактные схемы.
Рубрика «clickhouse» - 2
ClickHouse: как устроен MergeTree
2021-02-11 в 13:08, admin, рубрики: clickhouse, MergeTree, Администрирование баз данных, базы данныхНеужели нельзя обойтись без кафок и рэббитов, когда принимаешь 10 000 ивентов в секунду
2021-01-21 в 16:01, admin, рубрики: clickhouse, devops, RabbitMQ, Блог компании РебреинОднажды я вел вебинар про то, как принимать 10 000 ивентов в секунду. Показал вот такую картинку, зрители увидели сиреневый слой, и началось: «Ребят, а зачем нам все эти кафки и рэббиты, неужели без них не обойтись»? Мы и ответили: «Зачем-зачем, чтобы пройти собес!»
Очень смешно, но давайте я все-таки объясню.
Аварии как опыт #1. Как сломать два кластера ClickHouse, не уточнив один нюанс
2020-12-30 в 9:29, admin, рубрики: clickhouse, devops, zookeeper, Администрирование баз данных, Блог компании Флант, системное администрирование
Про некоторые свои failure stories мы уже писали и раньшеЧитать полностью »
Переезжаем на ClickHouse: 3 года спустя
2020-09-29 в 14:37, admin, рубрики: big data, clickhouse, highload, sql, Администрирование баз данных, базы данных, Блог компании Конференции Олега Бунина (Онтико), высоконагруженные проекты, системное администрирование, СУБДТри года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле.
Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле.
Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse.
Разрабатываем самый удобный в мире* интерфейс для просмотра логов
2020-07-22 в 15:23, admin, рубрики: clickhouse, golang, Анализ и проектирование систем, логи, Серверное администрирование, системное администрирование, теги нужны не только лишь всем Если Вам приходилось когда-нибудь пользоваться веб-интерфейсами для просмотра логов, то Вы наверняка замечали, насколько, как правило, эти интерфейсы громоздки и (зачастую) не слишком-то удобны и отзывчивы. К некоторым можно привыкнуть, некоторые совсем ужасны, но, как мне кажется, причина всех проблем заключается в том, что мы неправильно подходим к задаче просмотра логов: мы пытаемся создать веб-интерфейс там, где лучше работает CLI (интерфейс командной строки). Мне лично очень комфортно работать с tail, grep, awk и прочими, и поэтому для меня идеальным интерфейсом для работы с логами было бы что-то аналогичное tail и grep, но которое при этом можно было использовать для чтения логов, которые пришли с множества серверов. То есть, конечно же, читать их из ClickHouse!
*по личному мнению хабрапользователя youROCK
Практические истории из наших SRE-будней. Часть 2
2020-07-21 в 7:38, admin, рубрики: clickhouse, docker, kubernetes, postgresql, Блог компании Флант, Серверное администрирование, системное администрирование, ФлантУтекло уже немало воды с момента публикации нашего последнего очерка об интересных случаях из практики обслуживания Kubernetes-кластеров и запускаемых в нём сервисов/приложений. Хотим представить очередную серию приключений инженеров «Фланта» в неспокойных водах большой (и не очень) веб-разработки.Читать полностью »
Отъявленные баги и как их избежать на примере ClickHouse
2020-04-23 в 6:17, admin, рубрики: c++, clickhouse, debug, баги, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, отладка, ПрограммированиеЕсли вы пишете код — готовьтесь к проблемам. Они обязательно будут, и ожидать их стоит со всех сторон: от вашего кода и компилятора, от операционной системы и железа, а еще пользователи иногда подкидывают «сюрпризы». Если вы отмасштабировали кластер до космических масштабов, то ожидайте «космических» багов. Особенно, если речь идёт о данных из интернет-трафика.
Алексей Миловидов (o6CuFl2Q) расскажет о самых нелепых, обескураживающих и безнадёжных проблемах из его опыта разработки и поддержки ClickHouse. Посмотрим, как их приходилось отлаживать и какие меры принимать разработчикам с самого начала, чтобы проблем было меньше.
Читать полностью »
Умирает ли RuTracker? Анализируем раздачи
2020-04-21 в 8:11, admin, рубрики: clickhouse, data mining, Dataiku, R, rutracker, визуализация данных, пиратствоЛюбая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.
Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и есть подспорьем появления данной статьи.
У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.
Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.
Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?
Loghouse 0.3 — долгожданное обновление нашей системы работы с логами в Kubernetes
2020-03-23 в 9:04, admin, рубрики: clickhouse, devops, fluentd, kubernetes, loghouse, open source, Блог компании Флант, логи, системное администрирование, ФлантУ компании «Флант» есть ряд Open Source-разработок, преимущественно для Kubernetes, и loghouse — одна из самых популярных. Это наш инструмент для централизованного логирования в K8s, который был представлен более 2 лет назад.
Как мы упоминали в недавней статье про логи, он требовал доработки, и актуальность её со временем только росла. Сегодня мы рады представить новую версию loghouse — v0.3.0. Подробности о ней — под катом.Читать полностью »
Оптимизация строк в ClickHouse. Доклад Яндекса
2020-03-18 в 10:22, admin, рубрики: clickhouse, mysql, string, Администрирование баз данных, Блог компании Яндекс, высокая производительность, строки, типы данныхАналитическая СУБД ClickHouse обрабатывает множество разных строк, потребляя ресурсы. Для ускорения работы системы постоянно добавляются новые оптимизации. Разработчик ClickHouse Николай Кочетов рассказывает о строковом типе данных, в том числе о новом типе, LowCardinality, и объясняет, как можно ускорить работу со строками.
— Сначала давайте разберемся, как можно хранить строки.
Читать полностью »