Привет! На связи Владимир Гурьянов, технический директор Deckhouse Observability Platform в компании «Флант». В своём докладе на DevOpsConf 2024 я провёл небольшое расследование и выяснил, кто виноват в том, что Prometheus «съел» 64 ГБ оперативной памяти на сервере. А главное — я разобрался, что нужно делать, чтобы избегать этого в будущем. В этой статье приведу основные размышления и выводы из доклада.
Рубрика «monitoring»
Потребление ресурсов в Prometheus: кто виноват и что делать (обзор и видео доклада)
2024-10-14 в 6:40, admin, рубрики: deckhouse, devops, devopsconf, Lables, mimirtool, monitoring, prometheus, tsdb, метрики, потребление ресурсовСбор логов в Kubernetes с помощью Vector: преимущества, архитектура, реальные кейсы
2024-03-15 в 10:06, admin, рубрики: kubernetes, monitoring, observabilityВсем привет! На связи Максим Набоких, архитектор и технический руководитель Deckhouse Kubernetes Platform. В ноябре 2023 года я выступил на VK Kubernetes Conf, где рассказал, как мы делаем доставку логов в Kubernetes надёжной и отказоустойчивой с помощью Vector. Эта статья — текстовая версия моего доклада.
Читать полностью »
Kubernetes CronJob не запустился? Тогда мы с shared informer идём к вам
2022-07-29 в 14:01, admin, рубрики: cronjob, cronjob controller, devops, k8s, kubernetes, monitoring, observability, ozon tech, shared informer, Анализ и проектирование систем, Блог компании Ozon TechВсем привет! Меня зовут Аня, я строю и развиваю инфраструктуру мониторинга в платформе телеметрии Ozon. Моя команда не только помогает настроить мониторинг, но и разрабатывает различные сервисы и инструменты, чтобы упростить жизнь разработчикам компании.
В прошлом году я рассказывала, как мы организовали мониторинг Kubernetes CronJob на основе kube-state-metrics, Thanos Receive и Thanos Ruler. За год мы нашли ответ на вопрос, почему же крон может не запускаться. И в этой статье я хочу рассказать об основных причинах и проблемах, о которых мы узнали.
Автоматизация, мониторинг и как жить разработчику без умения вести Инстаграм?
2022-03-07 в 9:59, admin, рубрики: ALEPIZ, development, javascript, monitoring, nodejs, system administration, разработка, Серверное администрирование, системное администрированиеЭта статья - не ответ на вопрос, а его пояснение и история одного продукта. Может быть, у Вас есть опыт, которым можно поделиться. В этом случае, возможно, Вы найдете время и напишите о нем в комментариях к статье.
Предыстория
А твой Exchange в полном порядке? Как бесплатно мониторить здоровье сервера
2021-10-24 в 16:14, admin, рубрики: exchange, Grafana, influxdb, monitoring, open source, Настройка Linux, почтовый сервер, системное администрированиеВсем привет. Меня зовут Игорь - я занимаюсь администрированием офисной инфраструктуры, руковожу отделом мониторинга и технической поддержки пользователей в компании NUT.Tech.
Уже более 10-ти лет я так или иначе сталкиваюсь с различными задачами, связанными с администрированием Microsoft Exchange Server. В основном – ничего сложного, обычные прикладные задачи вроде создания в системе новых почтовых ящиков и решения различных проблем с доставкой почтовых сообщений. Но так или иначе у меня накопилась некоторая экспертиза в этом вопросе.
Запускаем PostgreSQL в Docker: от простого к сложному
2021-09-19 в 19:12, admin, рубрики: docker, docker-compose, monitoring, postgres_exporter, postgresqlТрудно представить современную разработку без контейнеризации. Docker и Kubernetes прочно обосновались на рынке, и, если вы ещё не знакомы с этими технологиями, им явно стоит уделить внимание.
Запуск баз данных и других stateful приложений в контейнере – это тема интересная, но способная вызвать очередной Большой взрыв в комментариях. Оговорюсь сразу, мы не используем в production окружении PostgreSQL в Docker. Но делаем это в локальной разработке и на dev-стендах. Почему? Потому что это чертовски удобно!
Пушим метрики Prometheus с помощью pushgateway
2020-12-06 в 0:13, admin, рубрики: devops, Faust, metrics, monitoring, prometheus, pushgateway, python
Предисловие
Данная заметка в целом о пуше метрик в pushgateway, однако, предупрежу и признаюсь сразу, что в тексте будет пример — анти-паттерна пуша метрик, так как использование pushgateway рекомендуется в случае, когда сервис работает не постоянно (или у сервиса/запускаемого задания вообще нет никакого интерфейса), а значит и prometheus'у лучше в закрытые двери постоянно не стучать и не заниматься лишней работой.
Легкая работа со сложными алертами. Или история создания Balerter
2020-09-17 в 14:29, admin, рубрики: alert, balerter, devops, Go, monitoring, open source, информационная безопасностьВсе любят алерты.
Конечно, гораздо лучше получить уведомление когда что-то произошло (или починилось), чем сидеть, смотреть на графики и искать аномалии.
New Relic меняет бизнес-модель — открывает код агентов и инструментария
2020-08-07 в 20:09, admin, рубрики: devops, kubernetes, monitoring, New Relic, open source, Блог компании Southbridge, Серверное администрирование, системное администрирование
Поставщик платформы мониторинга New Relic меняет большую часть своей бизнес-модели, открывая исходный код ряда агентов в каталоге продуктов. В процессе, который руководство описало как адаптацию к «коренным изменениям» по отношению к Open Source, компания начала открывать на GitHub исходный код своих агентов, а также инструментария интеграции с общедоступными облачными сервисами и прочими проектами.
Эксплуатация большой распределённой системы: чему я научился
2020-04-02 в 6:48, admin, рубрики: Infrastructure, monitoring, observability, sre, Блог компании Юла, Серверное администрирование, системное администрирование
Читая различные каналы и рассылки, я часто встречаю статьи о конкретных «болях» и проблемах, возникающих при росте компании, когда надежность и масштабируемость выходят на первый план. Эта статья — иная. Здесь нет подробного разбора конкретных архитектурных решений или пошагового руководства по изменению инженерной культуры. Скорее, это взгляд сверху на те вызовы, которые возникают при эксплуатации распределенных систем, и отправная точка, которая поможет сориентироваться в потоке терминов, аббревиатур и технологий.
Предлагаю вашему вниманию перевод статьи, написанной инженером из Uber.
* * *
В последние несколько лет я создавал и обслуживал большую распределённую систему платежей в Uber. За это время я многое узнал о концепциях распределённых архитектур и на своём опыте выяснил, насколько трудно создавать и обслуживать высоконагруженные системы с высокой доступностью. Построение такой системы — работа интересная. Мне нравится планировать, как система будет обрабатывать рост трафика в 10-100 раз, обеспечивать надёжность данных вне зависимости от аппаратных сбоев. Однако эксплуатация большой распределённой системы дала мне неожиданный опыт.
Читать полностью »