Рубрика «devops» - 39

По мотивам дискуссии в чате AWS Minsk Community

В последнее время разгораются настоящие битвы на предмет определения понятия DevOps и SRE.
Несмотря на то, что уже во многом дискуссии на эту тему уже набили оскомину, в том числе и мне, решил вынести на суд хабра-сообщества и свой взгляд на эту тему. Тем, кому интересно, добро пожаловать под кат. И да начнется все по новой!
Читать полностью »

Три уровня автомасштабирования в Kubernetes: как их эффективно использовать - 1

Для полного освоения Kubernetes нужно знать различные способы масштабирования кластерных ресурсов: по словам разработчиков системы, это одна из главных задач Kubernetes. Мы подготовили высокоуровневый обзор механизмов горизонтального и вертикального автомасштабирования и изменения размера кластеров, а также рекомендации, как их эффективно использовать.

Статью Kubernetes Autoscaling 101: Cluster Autoscaler, Horizontal Autoscaler, and Vertical Pod Autoscaler перевела команда, которая строит Kubernetes aaS от Mail.ru.
Читать полностью »

Прим. перев.: Эта статья входит в состав опубликованных в свободном доступе материалов проекта learnk8s, обучающего работе с Kubernetes компании и индивидуальных администраторов. В ней Daniele Polencic, руководитель проекта, делится наглядной инструкцией о том, какие шаги стоит предпринимать в случае возникновения проблем общего характера у приложений, запущенных в кластере K8s.

Визуальное руководство по диагностике неисправностей в Kubernetes - 1

TL;DR: вот схема, которая поможет вам отладить deployment в Kubernetes:Читать полностью »

image
Больно только в первый раз!

Всем привет! Дорогие друзья, в этой статье я хочу поделиться своим опытом использования TensorRT, RetinaNet на базе репозитория github.com/aidonchuk/retinanet-examples (это форк официальной репы от nvidia, который позволит начать использовать в продакшен оптимизированные модели в кратчайшие сроки). Пролистывая сообщения в каналах сообщества ods.ai, я сталкиваюсь с вопросами по использованию TensorRT, и в основном вопросы повторяются, поэтому я решил написать как можно более полное руководство по использованию быстрого инференса на основе TensorRT, RetinaNet, Unet и docker.
Читать полностью »

В этой статье будет рассматриваться проект nginx-log-collector, который будет читать логи nginx, отправлять их в кластер Clickhouse. Обычно для логов используют ElasticSearch. Для Clickhouse требуется меньше ресурсов (дисковое пространство, ОЗУ, ЦПУ). Clickhouse быстрее записывает данные. Clickhouse сжимает данные, что делает данные на диске еще компактнее. Преимущества Clickhouse видны по 2 слайдам с доклада Как VK вставляет данные в ClickHouse с десятков тысяч серверов.

Nginx-log-collector утилита от Авито для отправки логов nginx в Clickhouse - 1

Nginx-log-collector утилита от Авито для отправки логов nginx в Clickhouse - 2

Для просмотра аналитики по логам создадим дашборд для Grafana.

Кому интересно, добро пожаловать под кат.

Читать полностью »

Postgres-вторник №5: «PostgreSQL и Kubernetes. CI-CD. Автоматизация тестирования» - 1

В конце минувшего года состоялся очередной прямой эфир российского PostgreSQL-сообщества #RuPostgres, в рамках которого его сооснователь Николай Самохвалов поговорил с техническим директором «Фланта» Дмитрием Столяровым про эту СУБД в контексте Kubernetes.

Мы публикуем стенограмму основной части этой дискуссии, а на YouTube-канале сообщества опубликована полная видеозапись:Читать полностью »

Слёрм SRE — учимся обеспечивать счастье пользователей - 1

3 февраля в Москве стартует Слёрм SRE.

Это первый интенсив, где мы ушли от схемы «Повторяй за преподавателем». Вас ждет работа в SRE-проекте, максимально приближенная к боевым условиям.

Вы получите в руки полновесный работающий проект и будете работать с ним в реальном времени. Вас ждет типичная задача SRE: работа с незнакомым кодом, проблемы синхронизации распределенных систем, сложности коммуникации с коллегами.

Вас ждут нетривиальные отказы систем, взятые из реальной жизни. (Я время от времени слышу от спикеров: «Коллеги, извините, в ближайшие два дня не смогу подключиться к встречам, зато появился отличный кейс для нашей программы»).

Читать полностью »

image

SRE (Site Reliability Engineering) — подход к обеспечению доступности веб-проектов. Считается фреймворком для DevOps и говорит как добиться успеха в применение DevOps-практик. В этой статье перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Этот перевод я готовил самостоятельно и полагался на собственный опыт понимания процессов мониторинга. В телеграм-канале monitorim_it и прошлом посте на Хабре я публиковал также перевод 6 главы этой же книги о целях уровня обслуживания.

Перевод по катом. Приятного чтения!
Читать полностью »

Google опубликовал тарифы платной быстрой техподдержки для предприятий - 1

Google сообщил о запуске Google Cloud Premium — техподдержки для предприятий на платной основе. В компании обещают, что техподдержка будет отвечать на запросы клиентов в течение 15 минут 24 часа в сутки. Стоимость сервиса превысит $150 тыс. в год. Читать полностью »

За 3 дня до нового года появилась задача, передать клиенту наше ПО через менеджера, на флешке. ПО – это микросервисная платформа в несколько десятков docker-образов с множеством настроек и “километровым” helm-чартом. Что мы имели:

  • Менеджер в Москве (я не оттуда)
  • Windows
  • Прямого взаимодействия нет (а если бы и было, то не особо помогло)
  • docker-а нет

Пфф, подумал я! Возьму Golang, напишу программку, скомпилирую под Windows.
… и 5 часов спустя осознал поспешность своих выводов. В тот момент в первый раз вспомнился смех Нельсона. ХА-ХА! Который преследовал меня все то время, что я потратил на изучение вопроса.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js