Рубрика «prometheus»

Почему observability — это не только Grafana и Prometheus

2025-02-26 в 8:00, admin, рубрики: Grafana, observability, prometheus, selectel

Вы видите красивые графики в Grafana, алерты настроены, метрики собираются — значит, все под контролем? На самом деле, нет. Когда в продакшене что-то пойдет не так, Prometheus покажет скачок latency, но не объяснит, почему это произошло. Логи могут не содержать нужных данных. Трейсов нет. Итог — часы расследования, хаотичные гипотезы, поиски иголки в стоге сена.

Observability — одно из тех модных слов, которые часто понимают неправильно. Для многих оно сводится к связке Grafana + Prometheus, не более. Однако в реальных системах наблюдаемость (observaбыстроbility) — это больше, чем просто красивые дашборды с метриками. В этой статье разберемся, почему классический стек не покрывает все задачи, какие альтернативы есть на рынке и как построить современный observability-стек.Читать полностью »

Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик

2025-01-12 в 12:15, admin, рубрики: alert, Apache, apache nifi, devops, FlowFiles, monitoring, prometheus, prometheus monitoring

Привет! Я Сергей Житинский, CEO DevOps-компании «Git in Sky». В статье расскажу, как настроить мониторинг Apache NiFi и алерты при переполнении очереди по достижении 8000 FlowFiles.

Зачем вам читать эту статью? Переполнение очереди FlowFiles в Apache NiFi может привести к замедлению или остановке обработки данных, мониторинг позволит своевременно среагировать на проблемы с производительностью и выявить узкие места.

Статей о том, что такое Apache NiFi, довольно много: Раз, Читать полностью »

Как внедрить наблюдаемость в микросервисное приложение с помощью OpenTelemetry, Jaeger и Prometheus

2024-12-10 в 8:15, admin, рубрики: devops, node.js, prometheus, метрики, микросервисы, телеметрия, трассировки

Современные веб-приложения всё чаще строятся по микросервисной архитектуре. Это даёт гибкость, масштабируемость и изоляцию компонент, но одновременно усложняет отладку, мониторинг и понимание работы системы в целом. Что, если один из сервисов начинает работать медленнее? Как понять, где в цепочке запросов «узкое место»? Как быстро определить причину сбоя или деградации производительности?

Здесь на сцену выходит концепция наблюдаемостиЧитать полностью »

Мониторинг ipsec strongSwan

2024-11-29 в 15:15, admin, рубрики: ipsec, prometheus, strongswan

Всем привет! Работая DevOps-инженером, я задумался о мониторинге IPsec-туннелей, которых у нас уже накопилось достаточно. Они в основном используются для связи между облаками, так как инфраструктура разнесена — например, dev и prod живут у разных облачных провайдеров. Также есть интеграции со сторонними организациями, кластеры Kubernetes в AWS, GCP и т.д. Основная цель — получать алерты о падении туннеля раньше, чем сработают алерты о недоступности сервисов. Это особенно важно, поскольку Prometheus у нас один, он живёт в одном из облаков, а prometheus-stack в Kubernetes-кластерах работают в режиме агентов.

Читать полностью »

Про наглого клиента, или мониторинг borg backup в prometheus на коленке

2024-10-14 в 9:12, admin, рубрики: backup, bash, borg, borgbackup, Hetzner, prometheus, ssh

Есть у меня один сервер в облаке hetzner, с него нужно было делать бекап на storage box, есть у хетцнера такое онлайн-хранилище.

Storage box поддерживает соединение по 22 и 23 портам (это важно для дальнейшего повествования)

Читать полностью »

Потребление ресурсов в Prometheus: кто виноват и что делать (обзор и видео доклада)

2024-10-14 в 6:40, admin, рубрики: deckhouse, devops, devopsconf, Lables, mimirtool, monitoring, prometheus, tsdb, метрики, потребление ресурсов

Привет! На связи Владимир Гурьянов, технический директор Deckhouse Observability Platform в компании «Флант». В своём докладе на DevOpsConf 2024 я провёл небольшое расследование и выяснил, кто виноват в том, что Prometheus «съел» 64 ГБ оперативной памяти на сервере. А главное — я разобрался, что нужно делать, чтобы избегать этого в будущем. В этой статье приведу основные размышления и выводы из доклада.

Читать полностью »

userver 2.0 — большой релиз фреймворка для IO-bound программ

2024-05-16 в 8:02, admin, рубрики: c++, c++17, coroutine, coroutines, dynamic changes, github, json, logs, mongo, mongodb, mysql, postgres, postgresql, prometheus, prometheus grafana, python, python3, redis, sql, synchronization, userver, yaml, Yandex, ydb, опенсорс яндекса, осьминоги, открытый код

С момента прошлого релиза фреймворка

userver для С++ прошло чуть больше полугода. За это время мы многое сделали:

userver 2.0 — большой релиз фреймворка для IO-bound программ - 1

сильно оптимизировали работу фреймворка и обогнали основных конкурентов в бенчмарках высокопроизводительных фреймворков;
значительно упростили конфигурирование;
обзавелись install, докер-образами, Yandex Cloud-образом и DEB-пакетами;
обросли новой функциональностью, включая серверные мидлвари для HTTP, и YDB-драйвером;
перешли на новую ежемесячную схему релизов и упростили версионирование.

Читать полностью »

userver 1.0 — релиз фреймворка для IO-bound программ

2023-09-21 в 9:00, admin, рубрики: c++, c++17, coroutine, coroutines, dynamic changes, github, json, logs, mongo, mongodb, mysql, postgres, postgresql, prometheus, prometheus grafana, python, python3, redis, sql, synchronization, userver, yaml, Yandex, открытый код

С момента выхода

userver в опенсорс прошло чуть больше года. За это время мы успели реализовать множество запросов от наших новых пользователей и обросли внушительной аудиторией в каналах поддержки. При этом поток вопросов, как пользоваться различными частями userver, значительно сократился, а это значит, наши улучшения документации принесли свои плоды.

Поэтому мы вышли из беты и сделали релиз!

Что нового в релизе? Зачем вообще нужен userver и какие существуют технологии для обеспечения надёжной работы серверных приложений? Можно ли воспользоваться крутыми C++ классами из userver, не используя при этом корутины? Какие дальнейшие планы? Ответы на все эти вопросы ждут вас под катом.
Читать полностью »

Мониторинг — это боль

2023-07-05 в 13:39, admin, рубрики: Cortex, prometheus, ruvds_перевод, thanos, Блог компании RUVDS.com, логи, метрики, отладка, Программирование, трассировка, хранение данных

И все мы выполняем его неправильно (в том числе и я).

Я должен признаться. Несмотря на то, что меня много раз нанимали в том числе и благодаря моему опыту работы с платформами мониторинга, я начал его ненавидеть. Инструменты мониторинга и наблюдаемости (observability) совершают тяжкий грех: обманом заставляют людей думать, что это простая задача. Очень легко мониторить маленькое приложение или сервис. Но почти ни одно из таких решений не масштабируется.

Вместо этого мониторинг превращается в бесконечную последовательность маленьких неудач. Метрики на какое-то время исчезают, логи перестают записываться на несколько часов, веб-UI для трассировок больше не работает. Мы настраиваем эти инструменты, готовясь, что сможем о них после этого забыть, но на самом деле они требуют постоянно растущих усилий по обслуживанию. Некоторые инструменты ломаются, и их больше никто не чинит. Я слишком часто приходил в новую компанию и видел, что в ней развёрнут нелюбимый мной поломанный Jaeger.

Такое ощущение, что сейчас как никогда много инструментов мониторинга, но вперёд мы не движемся. Похоже, вместо развития упор делается на увеличение объёма выходных данных приложений для роста доходов компаний, занимающихся мониторингом. Кажется, практически никакого прогресса не происходит с принципом передачи меньшего количества логов и метрик от клиента. Я создаю всё более сложные стеки для записи огромных объёмов данных, чтобы использовать их всё меньше и меньше.

В статье я расскажу о том, что, по моему мнению, нужно делать, а также поделюсь своими надеждами и мечтами. Прошу вас убедить меня, что я не прав и что есть более качественные решения.
Читать полностью »

Основные аспекты наблюдаемости систем

2023-04-09 в 10:00, admin, рубрики: Grafana, observability, prometheus, ruvds_перевод, Блог компании RUVDS.com, высокая производительность, логирование, мониторинг систем, наблюдаемость, распределенные системы

В современной разработке ПО наблюдаемость (observability) является важнейшей концепцией, которая относится к способности получать представление о внутренних процессах сложных систем. Она подразумевает сбор данных из разных источников, таких как журналы, метрики и трейсы, с последующим их использованием для лучшего понимания функционирования системы, выявления проблем и их устранения. И в этой статье мы подробно разберём все аспекты реализации этой концепции.Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «prometheus»

Почему observability — это не только Grafana и Prometheus

Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик

Как внедрить наблюдаемость в микросервисное приложение с помощью OpenTelemetry, Jaeger и Prometheus

Мониторинг ipsec strongSwan

Читать полностью »

Про наглого клиента, или мониторинг borg backup в prometheus на коленке

Потребление ресурсов в Prometheus: кто виноват и что делать (обзор и видео доклада)

userver 2.0 — большой релиз фреймворка для IO-bound программ

userver 1.0 — релиз фреймворка для IO-bound программ

Мониторинг — это боль

Основные аспекты наблюдаемости систем

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «prometheus»

Новости

Актуальные темы

Архив