Рубрика «sre» - 3

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE)

2020-01-16 в 15:02, admin, рубрики: devops, google golden signals, kubernetes, site reliability engineer, site reliability engineering, sre, Читальный зал

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE) - 1

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале @monitorim_it и блоге на Медиуме я публиковал также ссылку на перевод 4 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать полностью »

Как оценить ёмкость сервиса и не упасть под нагрузкой

2019-12-24 в 7:18, admin, рубрики: capacity planning, load balancing, performance testing, sre, Блог компании Яндекс, команда яндекс.маркета, Разработка веб-сайтов, системное администрирование, Тестирование IT-систем, Тестирование веб-сервисов

Как оценить ёмкость сервиса и не упасть под нагрузкой - 1

Рано или поздно любому растущему сервису приходится оценивать свои технические возможности. Сколько посетителей мы в силах обслужить? Какова ёмкость (она же capacity) системы? Не добрались ли мы до предела и не упадём ли, если привлечём ещё несколько тысяч пользователей? Сколько дополнительных вычислительных ресурсов заложить в бюджет на следующий год, чтобы соответствовать планам роста?

Ответы можно получить аналитическим путём, адресовав вопросы опытному разработчику/DevOps/SRE/админу. Достоверность оценки зависит от огромного числа факторов: начиная с темпов наполнения системы функциональностью и графа взаимосвязей между компонентами и заканчивая временем, которое эксперт с утра провёл в пробке. Чем сложнее система — тем больше сомнений в адекватности аналитической оценки.

Меня зовут Максим Куприянов, вот уже пять лет я работаю в Яндекс.Маркете. Сегодня я расскажу читателям Хабра, как мы учились оценивать ёмкость наших сервисов и что из этого вышло.
Читать полностью »

Расшифровка вебинара «SRE — хайп или будущее?»

2019-12-13 в 13:57, admin, рубрики: devops, sre, Блог компании Southbridge, мероприятие, обучение, системное администрирование, Слёрм

У вебинара плохой звук, поэтому мы сделали расшифровку.

Меня зовут Медведев Эдуард. Я сегодня поговорю о том, что такое SRE, как появилось SRE, какие есть критерии работы у SRE-инженеров, немножко о критериях надежности, немножко о ее мониторинге. Мы пройдемся по верхам, потому что за час много не расскажешь, но я дам материалы для дополнительного ознакомления, и мы все ждем вас на Слёрме SRE. в Москве в конце января.

Читать полностью »

Think SRE: смотрим на проекты глазами SRE-инженера

2019-12-09 в 13:30, admin, рубрики: devops, kubernetes, sre, Блог компании Southbridge, мероприятие, обучение, Серверное администрирование, системное администрирование, Слёрм

В отзывах о Слёрме Kubernetes звучала фраза: «Kubernetes оказался проще, чем я думал». Сейчас уже не звучит, мифа о сложности k8s больше нет. Он перешел в разряд инструментов easy to learn, hard to master.

Мы хотим повторить то же самое с SRE. Показать, что SRE проще и понятнее, чем кажется. Сдвинуть парадигму: дать людям посмотреть на проект глазами инженера SRE.

Как всегда на старте, в уравнении много неизвестных. И как всегда на старте, самое интересное достанется первым.

Think SRE: смотрим на проекты глазами SRE-инженера - 1

3-5 февраля мы проводим в Москве Слёрм SRE. Билет на трехдневный интенсив стоит 60 тысяч. Что же участник получит за свои деньги?

Когда я рассказываю друзьям и коллегам про SRE, я встречаю здоровый скептицизм:

Впервые слышу про SRE, это какая-то алхимия.
Внедрить SRE сложно, это для гигантов вроде Гугла.
Это дорого и долго, не дадут времени, не выделят бюджет.
То, что вы описываете, слишком хорошо, чтобы быть правдой.

Эти вопросы я хочу разобрать.

Читать полностью »

Вебинар «SRE — хайп или будущее?» 12 декабря в 11:00

2019-12-03 в 11:43, admin, рубрики: devops, kubernetes, sre, Блог компании Southbridge, вебинар, обучение, Серверное администрирование, системное администрирование, Слёрм

SRE — хайповая тема. Появились вакансии SRE-инженера, об SRE заговорили на конференциях и в интервью. Вчера я увидел слово SRE в рассылке. Скоро оно зазвучит из каждого утюга.

Такой хайп у одних формирует лишние ожидания, а у других — ненужные опасения. SRE — это реализация идей DevOps, которая стирает грань между разработкой и эксплуатацией, и заполняет метриками пропасть между IT и бизнесом. Где-то нет ни этой грани, ни этой пропасти. А где-то именно SRE-практик не хватает для DevOps-трансформации.

12 декабря в 11:00 (Мск) на вебинаре «SRE — хайп или будущее?»Читать полностью »

Слёрм Пром: первый курс по Prometheus на русском языке и его автор Владимир Гурьянов

2019-11-27 в 14:53, admin, рубрики: devops, kubernetes, prometheus, sre, zabbix, бирюзовая компания, Блог компании Southbridge, интервью, искусственный интеллект, карьера, перспективы, управление проектами

В курсах Слёрм Kubernetes постепенно остается один Kubernetes. Смежные темы постепенно переходят в отдельные курсы.

Первыми были Docker, Ansible, Ceph. Двухчасовые лекции по ним сначала превратались в цикл вебинаров, а потом — в онлайн-курсы.

Пришел черед мониторинга. Тема «Мониторинг кластера» превратилась в онлайн-курс Слёрм Пром, целиком посвященный Prometheus. Как мы любим, с практикой на учебном стенде. Онлайн-курс — это записанные лекции, практические задания, стенд для выполнения практики, помощь саппортов. Прохождение Слёрма Пром занимает 12-16 часов.

Содержание курса:

Основы Prometheus
Exposition (Node exporter, Blackbox exporter, Custom exporter, Application library)
Prometheus (Service Discovery, Labels, PushGateway)
PromQL (Хранение данных, типы данных, выражения, Record Rules)
Alerting (Alertrules, Alertmanager)
Визуализация данных (Grafana)
Продвинутое использование Prometheus (High Availability, Federation, Remote read/write, Thanos, HTTP API)
Prometheus в Kubernetes

Курс стоит 15 000 ₽ (10 000 ₽ для тех, кто был на Слёрмах).

Пример лекции.

Автор курса — Владимир Гурьянов, специалист по мониторингу и спикер Слёрма. Я взял у него интервью про курс, жизнь и работу в нашей компании. Мне интересны люди, которые направляют свой корабль в моря, обозначенные на картах «Здесь живут драконы».

Слёрм Пром: первый курс по Prometheus на русском языке и его автор Владимир Гурьянов - 1

Читать полностью »

Интервью с Иваном Кругловым, Principal Developer: Service Mesh и «нестандартные» инструменты Booking.com

2019-10-30 в 9:26, admin, рубрики: booking.com, devops, open source, service mesh, sre, Блог компании Southbridge, интервью, интрументарий, карьера, Управление продуктом, управление проектами

Иван Круглов, Principal Developer в Booking.com, выступал на Слёрм DevOps c темой SRE, а после выступления согласился за чашкой кофе поговорить о Kubernetes, Service Mesh, open source и «нестандартных» решениях в Booking.com

Так как тема SRE оказалась намного обширнее, то Иван и его коллега Бен Тайлер, Principal Developer в Booking.com, согласились стать спикерами Слёрм SRE, который пройдёт 3—5 февраля 2020. Там будут рассмотрена теория и практика применения SLI/SLO/error budget, проведение разбора полетов (post-mortem), эффективная ликвидации IT-инцидентов, построение надежных систем (мониторинг и алертинг, graceful degradation, failure-injection, capacity planning, предотвращение cascading failures).

А сейчас слово Ивану.

Интервью с Иваном Кругловым, Principal Developer: Service Mesh и «нестандартные» инструменты Booking.com - 1

Читать полностью »

«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля

2019-10-25 в 7:52, admin, рубрики: devops, kubernetes, sre, Блог компании Southbridge, конференции, мероприятие, обучение, системное администрирование, Слёрм

Анонсируем первый в России практический курс по SRE: Слёрм SRE.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля - 1

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

Читать полностью »

6 практических историй из наших SRE-будней

2019-10-24 в 6:24, admin, рубрики: sre, troubleshooting, Блог компании Флант, Серверное администрирование, системное администрирование

6 практических историй из наших SRE-будней - 1

Современная веб-инфраструктура состоит из множества компонентов разного назначения, имеющих очевидные и не очень взаимосвязи. Это становится особенно хорошо видно при эксплуатации приложений, использующих разные программные стеки, что с приходом микросервисов стало встречаться буквально на каждом шагу. Ко всеобщему «веселью» добавляются и внешние факторы (сторонние API, сервисы и т.п.), что усложняют и без того непростую картину.

В общем, даже если эти приложения и будут объединены общими архитектурными идеями и решениями, для устранения необычных проблем в них зачастую приходится пробираться через очередные незнакомые дебри. Случатся ли такие проблемы — лишь вопрос времени. Вот таким примерам из нашей последней практики и посвящена эта статья. В ролях: Golang, Sentry, RabbitMQ, nginx, PostgreSQL и другие.Читать полностью »

Infrastructure as Code: как побороть проблемы с помощью XP

2019-10-09 в 15:05, admin, рубрики: azure, devops, Dodo Pizza, Dodo Pizza Engineering, dodois, dodopizzaengineering, extreme programming, infrastructure as code, jsonnet, onboarding, Packer, pair programming, sre, terraform, xp, Блог компании Dodo Pizza Engineering, управление разработкой

Привет! Раньше я жаловался на жизнь в парадигме Infrastructure as code и ничего не предлагал для решения сложившейся ситуации. Сегодня я вернулся, чтобы рассказать, какие подходы и практики помогут вырваться из бездны отчаяния и вырулить ситуацию в правильное русло.

Infrastructure as Code: как побороть проблемы с помощью XP - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «sre» - 3

Мониторинг распределённых систем — опыт Google (перевод главы книги Google SRE)

Как оценить ёмкость сервиса и не упасть под нагрузкой

Расшифровка вебинара «SRE — хайп или будущее?»

Think SRE: смотрим на проекты глазами SRE-инженера

Вебинар «SRE — хайп или будущее?» 12 декабря в 11:00

Слёрм Пром: первый курс по Prometheus на русском языке и его автор Владимир Гурьянов

Интервью с Иваном Кругловым, Principal Developer: Service Mesh и «нестандартные» инструменты Booking.com

«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля

6 практических историй из наших SRE-будней

Infrastructure as Code: как побороть проблемы с помощью XP

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «sre» - 3

Новости

Актуальные темы

Архив