Рубрика «Grafana»

Как мы учили ИИ тушить инциденты вместо нас (что из этого вышло)

2025-12-24 в 8:16, admin, рубрики: AI, devops, Grafana, kubernetes, OpenAI, инфраструктура, искусственный интеллект, исследование, сезон ии в разработке

Привет, меня зовут Артем, я тимлид DevOps в одной аутстафф-компании. Столкнулись с классической ситуацией: десятки микросервисов, Kubernetes, куча observability-стека (Prometheus, Loki, Tempo, Grafana) и... постоянные ночные инциденты. «High CPU», «Pod CrashLoopBackOff», «5xx errors rising».

У нас есть runbooks, документация, скрипты для быстрого доступа к логам. Но в 3 ночи, когда срабатывает критический алерт, тратишь время на то, чтобы проснуться, сообразить, куда залогиниться и какую команду выполнить… Мы задались вопросом: а если первым на инцидент будет реагировать не человек, а ИИ-агент?

⠀⠀

Боль, которую мы хотели решить:

1. Читать полностью »

Grafana + Prometheus для Bitrix: один экран, чтобы видеть и «железо», и продукт

2025-11-16 в 14:15, admin, рубрики: 1c-битрикс, exporter, Grafana, prometheus, бизнес-метрики, визуализация

Сайт работает, 500-ых нет – но заказы с сайта не поступают. Бизнес теряет деньги, а разработчики даже не подозревают что что-то идет не так. Меня зовут Михаил, я из команды Backend разработки D'Terra. Мы прошли через это и поняли: только system-based метрик недостаточно. Нам нужны бизнес метрики в дашбордах, что бы реагировать на такие инциденты. Поэтому я настроили Prometheus под Bitrix так, чтобы на одном дашборде видеть и «железо», и бизнес-часть сайта.

Принципы работы

Читать полностью »

OpenTelemetry — не то, чем кажется…

2025-11-11 в 15:15, admin, рубрики: aop, Grafana, java, kibana, kotlin, monitoring, opentelemetry

Привет! Меня зовут - Евгений, работаю в финтехе и проектирую системы, которые обрабатывают миллионы запросов, интегрируются с десятками внешних сервисов и живут в Kubernetes. А еще я преподаю Java/Spring Boot и рассказываю студентам, как не наступать на чужие грабли, а создавать свои и прыгать на них.

Читать полностью »

Нагрузочное тестирование K6 (Концепт)

2025-11-09 в 6:15, admin, рубрики: Grafana, K6, performance tests, qa

Наша система хорошо покрыта unit-тестами, которые интегрированы в CI-процессы. Настроен запуск и контроль функциональных интеграционных тестов. После проделанной работы по обеспечению корректности выполнения бизнес-процессов возникли вопросы, связанные с производительностью, корректностью настройки компонентов системы, отказоустойчивостью, которые можно условно обрисовать, выделив основные из них:

Насколько корректно и оптимально настроены все модули системы?
Где порог отказоустойчивости наших сервисов и сторонних компонентов, используемых в решении?
Читать полностью »

Observability в мире Интернета вещей

2025-08-29 в 5:51, admin, рубрики: Grafana, IoT, observability, opentelemetry, Интернет вещей, логи, метрики, наблюдаемость, трассировки

Мониторинг и наблюдение жизненно важны для поддержания надежности, эффективности и безопасности устройств Интернета вещей. При правильном подходе они обеспечивают обзор ваших систем Интернета вещей в режиме реального времени, а также доступ к данным, необходимым для устранения проблем, связанных с историей. Однако при наличии тысяч разнообразных устройств IoT достижение этих целей сопряжено со множеством сложностей.

Читать полностью »

IoT по-взрослому — сбор данных с датчиков для Умного дома на одноплатнике Repka Pi 4 под управлением NapiLinux

2025-08-01 в 11:47, admin, рубрики: gpio, Grafana, modbus, Napi Linux, Napi.API, RepkaPi, rs485, Репка пай

Читать полностью »

Использование метрик для мониторинга облачных баз данных на примере PostgreSQL

2025-07-19 в 8:00, admin, рубрики: DBaaS, Grafana, observability, postgresql, prometheus, selectel, базы данных, облако

Если вы работаете с базами данных, то вам определенно стоит иметь понимание о производительности кластера СУБД. Для этого можно использовать базовые метрики. А можно — метрики Читать полностью »