Рубрика «troubleshooting»

Цифровой двойник пассажирского посадочного моста: реальный кейс решения сервисной задачи

2025-10-20 в 15:54, admin, рубрики: 3d, scada, troubleshooting, дифференциальные уравнения, механика, моделирование, плк, привод, цифровой двойник, энкодер

Введение

В работе инженера по автоматизации нередко возникают задачи, выходящие за рамки типового промышленного программирования, и тех, которые были описаны в первой статье. Одной из таких является поиск и устранение неисправностей в сложных мехатронных системах, где не всегда очевидно, какой механизм или устройство работает некорректно.

Читать полностью »

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

2025-07-21 в 8:35, admin, рубрики: incident, incident management, problem management, sre, troubleshooting, инцидент-менеджмент, управление инцидентами, управление проблемами

Обрыв каналов связи, багованный релиз, мискоммуникация… Серия загадочных событий, авантюрный детектив из цикла «Следствие вели…» — нет, не с Леонидом Каневским, и даже не Колобки — а команда разбора инцидентов Ozon, или просто Post.

Читать полностью »

Как решить проблему с программой для измерительного прибора, или «стрельба из микроскопа по воробьям»

2024-12-07 в 21:44, admin, рубрики: troubleshooting, измерения, спектрометрия

Обо мне. Что-то типа CV.

Читать полностью »

Как избежать 10 частых ошибок в настройке NGINX

2022-04-15 в 14:49, admin, рубрики: configuration, devops, github, health check, IPv4, IPv6, nginx, nginx plus, nginx reverse proxy, troubleshooting, Блог компании Nixys, Серверное администрирование

Как избежать 10 частых ошибок в настройке NGINX - 1

Помогая пользователям NGINX с разрешением проблемных ситуаций, мы поняли, что большинство из них часто совершает одни и те же ошибки конфигурации. Более того, подобные ситуации вполне могут возникнуть даже у самих инженеров NGINX! В этой статье рассмотрим 10 наиболее распространенных ошибок и объясним как их исправить.

Недостаточное количество файловых дескрипторов;
Директива error_log off;
Отсутствие keepalive-соединения с вышестоящими серверами;
Упущение механизмов наследования директив;
Директива proxy_buffering;
Неправильное использование директивы if;
Чрезмерные проверки работоспособности;
Незащищенный доступ к метрикам;
Использование ip_hash, когда весь трафик поступает из одного и того же блока /24 CIDR;
Игнорирование преимуществ вышестоящих групп.

Читать полностью »

Post Mortem по недоступности Quay.io

2020-08-21 в 7:20, admin, рубрики: devops, Quay, red hat, sre, troubleshooting, Блог компании Флант, Серверное администрирование, системное администрирование

Прим. перев.: в начале августа Red Hat публично рассказала о решении проблем доступности, что возникали в предыдущие месяцы у пользователей её сервиса Quay.io (в его основе — реестр для образов контейнеров, доставшийся компании вместе с покупкой CoreOS). Вне зависимости от вашей заинтересованности в этом сервисе как таковом, поучителен сам путь, по которому прошли SRE-инженеры компании для диагностики и устранения причин аварии.

Post Mortem по недоступности Quay.io - 1

19 мая, ранним утром (по летнему североамериканскому восточному времени, EDT), сервис quay.io упал. Авария затронула как потребителей quay.io, так и Open Source-проекты, использующие quay.io в качестве платформы для сборки и распространения ПО. Red Hat дорожит доверием как одних, так и других.

Команда SRE-инженеров сразу подключилась к работе и постаралась как можно скорее стабилизировать работу сервиса Quay. Однако пока они этим занимались, клиенты лишились возможности push’ить новые образы, и лишь периодически им удавалось pull’ить имеющиеся. По неведомой причине база данных quay.io блокировалась после масштабирования сервиса на полную мощность.Читать полностью »

Исправление проблем под Docker. Казалось бы, при чём здесь GIT?

2020-03-03 в 13:39, admin, рубрики: devops, docker, Git, mount, smb, troubleshooting, виртуализация, микросервисы

Исправление проблем под Docker. Казалось бы, при чём здесь GIT? - 1

Докер под Windows — это постоянные приключения. То ему нужно обновить операционку, иначе последние версии не ставятся, то он забывает, как подключаться к сети. В общем, каждый день от него новости. «Поставил и забыл» — это не про Docker Desktop for Windows. Особенно, когда он используется не совсем так, как рекомендуют его разработчики. А они почему-то не одобряют подключение внешних windows сетевых дисков в качестве локальных. И совсем не одобряют доступ к к таким сетевым папкам, которые расположены ещё и на host машине. Пишут, что это ужас-ужас с точки зрения безопасности, требуют всяких ключей типа:

cap_add: - SYS_ADMIN - DAC_READ_SEARCH

для работы команды mount в контейнере и прочая, и прочая.
Читать полностью »

Визуальное руководство по диагностике неисправностей в Kubernetes

2020-01-23 в 6:54, admin, рубрики: devops, kubernetes, troubleshooting, Блог компании Флант, системное администрирование

Прим. перев.: Эта статья входит в состав опубликованных в свободном доступе материалов проекта learnk8s, обучающего работе с Kubernetes компании и индивидуальных администраторов. В ней Daniele Polencic, руководитель проекта, делится наглядной инструкцией о том, какие шаги стоит предпринимать в случае возникновения проблем общего характера у приложений, запущенных в кластере K8s.

Визуальное руководство по диагностике неисправностей в Kubernetes - 1

TL;DR: вот схема, которая поможет вам отладить deployment в Kubernetes:Читать полностью »

«Kubernetes увеличил задержку в 10 раз»: кто же в этом виноват?

2019-12-06 в 6:28, admin, рубрики: Amazon Web Services, AWS, devops, KIAM, kubernetes, troubleshooting, Блог компании Флант, системное администрирование

Прим. перев.: Эта статья, написанная Galo Navarro, что занимает должность Principal Software Engineer в европейской компании Adevinta, — увлекательное и поучительное «расследование» в области эксплуатации инфраструктуры. Её оригинальное название было немного дополнено в переводе по причине, которую объясняет автор в самом начале.

«Kubernetes увеличил задержку в 10 раз»: кто же в этом виноват? - 1

Примечание от автора: Похоже, эта публикация привлекла гораздо больше внимания, чем ожидалось. Я до сих пор получаю гневные комментарии о том, что название статьи вводит в заблуждение и что некоторые читатели опечалены. Я понимаю причины происходящего, поэтому, несмотря на риск сорвать всю интригу, хочу сразу рассказать, о чем эта статья. При переходе команд на Kubernetes я наблюдаю любопытную вещь: каждый раз, когда возникает проблема (например, рост задержек после миграции), первым делом обвиняют Kubernetes, однако потом оказывается, что оркестратор, в общем-то, не виноват. Эта статья повествует об одном из таких случаев. Ее название повторяет восклицание одного из наших разработчиков (потом вы убедитесь, что Kubernetes тут вовсе ни при чем). В ней вы не найдете неожиданных откровений о Kubernetes, но можете рассчитывать на пару хороших уроков о сложных системах.

Пару недель назад моя команда занималась миграцией одного микросервиса на основную платформу, включающую CI/CD, рабочую среду на основе Kubernetes, метрики и другие полезности. Переезд носил пробный характер: мы планировали взять его за основу и перенести еще примерно 150 сервисов в ближайшие месяцы. Все они отвечают за работу некоторых из крупнейших онлайн-площадок Испании (Infojobs, Fotocasa и др.).Читать полностью »

3 истории сбоев Kubernetes в production: anti-affinity, graceful shutdown, webhook

2019-11-20 в 8:12, admin, рубрики: anti-affinity, devops, graceful shutdown, kubernetes, troubleshooting, webhook, Блог компании Флант, системное администрирование

Прим. перев.: Представляем вниманию мини-подборку из постмортемов о фатальных проблемах, с которыми столкнулись инженеры разных компаний при эксплуатации инфраструктуры на базе Kubernetes. Каждая заметка рассказывает о самой проблеме, её причинах и последствиях, а также, конечно, о решении, помогающем избегать подобных ситуаций в будущем.

Как известно, учиться на чужом опыте дешевле, а посему — пусть эти истории помогут быть готовыми к возможным неожиданностям. Кстати, большая и регулярно обновляемая подборка ссылок на такие «failure stories» публикуется на этом сайте (по данным из этого Git-репозитория).Читать полностью »

6 практических историй из наших SRE-будней

2019-10-24 в 6:24, admin, рубрики: sre, troubleshooting, Блог компании Флант, Серверное администрирование, системное администрирование

6 практических историй из наших SRE-будней - 1

Современная веб-инфраструктура состоит из множества компонентов разного назначения, имеющих очевидные и не очень взаимосвязи. Это становится особенно хорошо видно при эксплуатации приложений, использующих разные программные стеки, что с приходом микросервисов стало встречаться буквально на каждом шагу. Ко всеобщему «веселью» добавляются и внешние факторы (сторонние API, сервисы и т.п.), что усложняют и без того непростую картину.

В общем, даже если эти приложения и будут объединены общими архитектурными идеями и решениями, для устранения необычных проблем в них зачастую приходится пробираться через очередные незнакомые дебри. Случатся ли такие проблемы — лишь вопрос времени. Вот таким примерам из нашей последней практики и посвящена эта статья. В ролях: Golang, Sentry, RabbitMQ, nginx, PostgreSQL и другие.Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «troubleshooting»

Цифровой двойник пассажирского посадочного моста: реальный кейс решения сервисной задачи

Введение

Следствие вели, или Культура инцидент- и проблем-менеджмента в Ozon

Как решить проблему с программой для измерительного прибора, или «стрельба из микроскопа по воробьям»

Как избежать 10 частых ошибок в настройке NGINX

Post Mortem по недоступности Quay.io

Исправление проблем под Docker. Казалось бы, при чём здесь GIT?

Визуальное руководство по диагностике неисправностей в Kubernetes

«Kubernetes увеличил задержку в 10 раз»: кто же в этом виноват?

3 истории сбоев Kubernetes в production: anti-affinity, graceful shutdown, webhook

6 практических историй из наших SRE-будней