Рубрика «monitoring» - 3

Полное руководство по Prometheus в 2019 году

2019-06-07 в 16:36, admin, рубрики: devops, guide, monitoring, prometheus, prometheus monitoring, tsdb, Блог компании Southbridge, Серверное администрирование, системное администрирование

Полное руководство по Prometheus в 2019 году - 1

DevOps- и SRE-инженеры уже, наверное, не раз слышали о Prometheus.

Prometheus был создан на SoundCloud в 2012 году и с тех пор стал стандартом для мониторинга систем. У него полностью открытый исходный код, он предоставляет десятки разных экспортеров, с помощью которых можно за считанные минуты настроить мониторинг всей инфраструктуры.

Prometheus обладает очевидной ценностью и уже используется новаторами в отрасли, вроде DigitalOcean или Docker, как часть системы полного мониторинга.

Что такое Prometheus?
Зачем он нужен?
Чем он отличается от других систем?

Если вы совсем ничего не знаете о Prometheus или хотите лучше разобраться в нем, в его экосистеме и всех взаимодействиях, эта статья как раз для вас.

Читать полностью »

Метод CASE: гуманный мониторинг

2019-04-17 в 12:13, admin, рубрики: alerting, case, devops, monitoring, Блог компании Southbridge, Серверное администрирование, системное администрирование

Метод CASE: гуманный мониторинг - 1
Дзииииииинь! На часах 3 утра, вы смотрите чудесный сон, и вдруг — звонок. На этой неделе вы дежурите, и, видимо, что-то случилось. Автоматизированная система зовет разобраться, в чем дело. Это важный момент управления современными компьютерными системами, но давайте посмотрим, как сделать уведомления удобнее для людей.

Знакомьтесь с философией мониторинга, родившейся за несколько десятилетий моих дежурств в разных командах по мониторингу. На нее во многом повлияла настоящая библия от Роба Еващука My Philosophy on Alerting (Моя философия уведомлений), включенная в книгу по Google SRE, и книга Джона Олспо Considerations for Alert Design (Замечания по настройке оповещений).

Келли Данн, Ариджит Мукхерьи и Максим Петаццони — спасибо за помощь в редактировании поста.

Что такое CASE?

Я решил придумать красивую аббревиатуру, как у метода USE Брендана Грегга или метода RED Тома Уилки. Я зову это метод CASE. Он описывает четыре момента, на которые нужно обратить внимание при работе с автоматическим мониторингом:

Читать полностью »

Миграция с Nagios на Icinga2 в Австралии

2019-03-17 в 10:54, admin, рубрики: icinga, monitoring, puppet, кенгуру невкусные, системное администрирование

Всем привет.

Я — сисадмин linux, переехал из России в Австралию по независимой профессиональной визе в 2015 году, но статья будет не о том, как поросёнку завести трактор. Таких статей уже и так достаточно (тем не менее, если будет интерес — напишу и про это), так что я хотел бы рассказать о том, как на своей работе в Австралии в должности linux-ops-инженера я был инициатором миграции с одной системы мониторинга на другую. Конкретно — Nagios => Icinga2.

Статья частично техническая и частично — про общение с людьми и проблемы, связанные с разницей в культуре и методах работы.

Читать полностью »

Как мы делали мониторинг сети на 14 000 объектов

2019-02-04 в 8:00, admin, рубрики: api, itx5, monitoring, network, python, zabbix, zabbix api, Блог компании X5RetailGroup, мониторинг сети, Сетевые технологии, системное администрирование

У нас было 14 000 объектов, zabbix, api, python и нежелание добавлять объекты руками. Под катом — о том, как сетевиками внедрялся мониторинг с автоматическим добавлением узлов сети, и немного про боль, через которую пришлось пройти.

Статья больше ориентирована на сетевых инженеров с небольшим опытом в python. В помощь при автоматизации мониторинга и улучшения качества жизни и работы, в отсутствии необходимости руками актуализировать весь парк объектов.

Как мы делали мониторинг сети на 14 000 объектов - 1
Читать полностью »

Monitoring System for Windows servers on pure SQL, and how I had secretly dragged it into the Production

2019-01-28 в 14:52, admin, рубрики: Microsoft SQL Server, monitoring, MS Sql Server, powershell, tsql, VMware, WMI

A long time ago in a galaxy far, far away there was a company grown from a startup to something much bigger, but for a while the IT department was still compact and very efficient. That company hosted on prem hundreds of virtual Windows servers, and of course these servers were monitored. Even before I joined the company, NetIQ had been chosen as a monitoring solution.

One of my new tasks was to support NetIQ. The person, who worked with NetIQ before, said a lot about his experience with NetIQ, unfortunately, if I try to put it here it would be just a long line of ‘****’ characters. Soon I realized why. Steve Jobs is probably spinning in his grave looking at the interface like this:

Читать полностью »

Мониторинг Windows серверов на чистом MS SQL, и как я это тайно внедрил

2018-11-21 в 15:13, admin, рубрики: alert, monitoring, MS Sql Server, mssql, sql, VMware, Серверное администрирование

Однажды, в далекой-далекой галактике, была фирма, давно выросшая из стартапа, но которая по прежнему оставалась довольно компактной и эффективной. Фирма хостила (на своем железе) сотни Windows-серверов, и это надо было как то мониторить. Еще до того, как я в нее пришел, в качестве решения была выбрана система NetIQ.

Настраивать NetIQ поручили мне, и тот, кто это делал до меня, не сказал о ней ни единого слова. Печатного. Вскоре я понял, почему. Стив Джобс наверное вертится в могиле, глядя на подобный интерфейс:

В одной строчке логика «птички» положительная (Raise event). В другой отрицательная (Do not raise event). Как работает «Only raise events when» с разным набором галочек я вообще понял только экспериментально (и уже забыл).
Читать полностью »

Инфраструктура для микросервисов. K8s и все-все-все

2018-10-22 в 12:45, admin, рубрики: devops, Infrastructure, k8s, kubernetes, logging, monitoring, Rancher

Как-то я уже писал тут о переезде из Азии в Европу, а теперь хочу написать, что я в этой Европе делаю. Есть такая профессия — DevOps, точнее нет, но так получилось, что это именно то чем я сейчас занимаюсь. Сейчас для оркестрации всего что бежит в докере мы используем rancher, о чем я тоже уже писал. Но вот случилось ужасное, вышел ранчер 2.0 который переехал на kubernetes (дальше просто k8x) и поскольку k8x сейчас действительно стандарт для управления кластером, возникло желание тоже построить всю инфраструктуру заново с блекджеком и библиотекаршами. Что еще добавляет пикантности это то что компания постоянно нанимает разных специалистов из разных стран и с разными традициями и кто-то и собой приносит puppet, кому-то милее ansible, а кто-то вообще считает что Makefile + bash — наше все. Поэтому однозначного мнения как все должно работать просто нет, а очень хочется.

Предварительно был собран такой зоопарк технологий и инструментов:

zoo

Читать полностью »

Про износ SSD на реальных примерах

2018-08-27 в 12:49, admin, рубрики: monitoring, okmeter, postgresql, redis, ssd, Администрирование баз данных, Блог компании okmeter.io, системное администрирование

Про износ SSD на реальных примерах - 1

Год назад мы добавили в наш агент сбор метрик из S.M.A.R.T. атрибутов дисков на серверах клиентов. В тот момент мы не стали добавлять их в интерфейс и показывать клиентам. Дело в том, что метрики мы снимаем не через через smartctl, а дергаем ioctl прямо из кода, чтобы этот функционал работал без установки smartmontools на серверы клиентов.
Агент снимает не все доступные атрибуты, а только самые значимые на наш взгляд и наименее вендор-специфичные (иначе пришлось бы поддерживать базу дисков, аналогичную smartmontools).
Сейчас наконец дошли руки до того, чтобы проверить, что мы там наснимали. А начать было решено с атрибута "media wearout indicator", который показывает в процентах оставшийся ресурс записи SSD. Под катом несколько историй в картинках о том, как расходуется этот ресурс в реальной жизни на серверах.

Читать полностью »

Пишем GeoIP exporter для Prometheus с визуализаций в Grafana за 15 минут

2018-08-20 в 7:42, admin, рубрики: devops, Go, Grafana, monitoring, prometheus, визуализация данных

Пишем GeoIP exporter для Prometheus с визуализаций в Grafana за 15 минут - 1

Привет всем!

Я хочу поделиться с вами тем, как легко можно написать свой экспортер для Prometheus на Golang и покажу как это можно сделать на примере небольшой программы, которая следит за тем, откуда географически установлены текущие TCP соединения.

Читать полностью »

Альтернатива: «Как научить Zabbix отправлять уведомления о проблемах прямо на рабочий стол»

2018-08-01 в 21:20, admin, рубрики: linux, monitoring, zabbix, Настройка Linux, системное администрирование, уведомления

Пример уведомления

На волне статьи от Ильи (ableev) хочу рассказать об ином подходе для уведомлений от системы монторинга Zabbix на рабочем столе. Последние 3 месяца я пользуюсь расширением для браузера zabbix vue. От меня в этот проект прилетел только перевод на русский, так что это не реклама, расширение бесплатно, никаких закладок или чего-то ещё (в конце статьи будет ссылка на гитхаб данного расширения). Расширение есть для хромоподобных браузеров и для фаерфокс. В отличии от решений, представленных в статье Badoo, расширения в браузере работают на всех линуксах, маках, виндах и даже экзотичных хромОС. Небольшое сравнение под катом.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «monitoring» - 3

Полное руководство по Prometheus в 2019 году

Метод CASE: гуманный мониторинг

Что такое CASE?

Миграция с Nagios на Icinga2 в Австралии

Как мы делали мониторинг сети на 14 000 объектов

Monitoring System for Windows servers on pure SQL, and how I had secretly dragged it into the Production

Мониторинг Windows серверов на чистом MS SQL, и как я это тайно внедрил

Инфраструктура для микросервисов. K8s и все-все-все

Про износ SSD на реальных примерах

Пишем GeoIP exporter для Prometheus с визуализаций в Grafana за 15 минут

Альтернатива: «Как научить Zabbix отправлять уведомления о проблемах прямо на рабочий стол»

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «monitoring» - 3

Что такое CASE?

Новости

Актуальные темы

Архив