Рубрика «сбои»

Как построить эффективную стратегию мониторинга с высокой наблюдаемостью - 1

Давайте сразу определимся: самым важным в разработке сейчас является производительность и надежность вашей инфраструктуры, потому что если ваш проект лагает или работает через раз, вас не спасут никакие фичи. Клиент просто уйдет к конкурентам.

Исходя из постулата выше, роль мониторинга систем в последние годы резко возросла. Наши системы перешли от технологических новшеств к статусу критической инфраструктуры, без которой повседневная жизнедеятельность просто невозможна. Однако существует зияющая пропасть между формальным мониторингом и мониторингом, который будет соответствовать сложности и глубине современных систем.
Читать полностью »

Привет-привет! С вами снова Оля — программист Учебного центра компании «Тензор»... и радиофизик. До этого я рассказывала вам о рабочих кейсах, а сегодня поведаю о программистско-астрофизическом эксперименте.

Бывало ли на вашем пользовательском веку такое, что компьютер внезапно завис или не смог прогрузить страницу? Грешили ли в этот момент на проклятую технику? А ведь причина может быть в другом — космическое излучение могло быть источником ваших бед! В этой статье разберем уязвимость с самого известного фреймворка cwe.mitre.org.

Историческая справка

Читать полностью »

Глава комитета по информационной политике и информационным технологиям Александр Хинштейн «предложил провести учения по отключению социальных сетей для проверки отечественной инфраструктуры связи», о чём сказал журналистам на открытии второго модуля образовательной программы «Мастерская новых медиа». Он отметил, что падение Facebook 4 октября привело новых пользователей на отечественные платформы, Читать полностью »

С третьего сентября провайдеры по распоряжению Роскомнадзора начали блокировку VPN-сервисов, которые РКН считает нарушающими законодательство. У пользователей ряда сайтов и сервисов начались проблемы с доступом к ним. СМИ нашли упоминания о сбоях у:

  • World of Tanks и World of WarShips
  • Twitch
  • FlashScore (спортивные результаты в реальном времени)
  • Avito
  • Bittorrent

С блокировкой VPN проблему связали в Wargaming:

Читать полностью »

Пользователи жалуются на сбои у Avito -- на сайте и в приложении не работают чаты, людям неудобно обсуждать потенциальные сделки. Проблемы начались около 10 утра, продолжались на момент публикации.

Тем временем, директора по продукту «Авито» обманул мошенник на самом Avito, передаёт «База».

Читать полностью »

image

Мобильное приложение Robinhood, которое предлагает торговать традиционными и криптовалютными активами без комиссии, не работало в течении всего дня 2 марта. Причиной послужил системный сбой. Именно 2 марта наблюдался рост рынков, и клиенты приложения были заинтересованы в торгах, но так и не получили доступ к счетам. Читать полностью »

Аварии «часов не наблюдают»: статистическое обоснование для режима работы техподдержки 24-7 - 1

По результатам проведения многочисленных эксплуатационных оценок ЦОДов по всему миру Uptime Institute отметил, что штатная укомплектованность персонала в дата-центрах сильно варьируется от места к месту. Это наблюдение несколько озадачивает, но это неудивительно. Хотя кадровое наполнение является важным аспектом деятельности для центров обработки данных, которые пытаются сохранить эксплуатационное превосходство, множество других факторов влияют на решение организаций о требуемом уровне укомплектования персоналом.

Среди факторов, которые могут повлиять на общую штатную численность можно выделить сложность центра обработки данных, текучесть кадров, количество требуемых рабочих часов техподдержки, количество контрактов с подрядчиками и бизнес-цели обеспечения доступности. Расходы также вызывают беспокойство, поскольку каждый сотрудник является для ЦОДа прямыми затратами. Из-за этих многочисленных факторов необходимо постоянно пересматривать уровень укомплектованности центров обработки данных персоналом, чтобы обеспечить эффективную поддержку по разумной цене.

Uptime Institute часто получают вопрос: «Каков надлежащий уровень укомплектованности персонала для моего ЦОДа?». К сожалению, нет лаконичного ответа, который был бы универсален для каждого дата-центра. Надлежащее кадровое обеспечение зависит от ряда переменных.Читать полностью »

Перевод статьи Designing a Microservices Architecture for Failure.

Микросервисная архитектура благодаря точно определённым границам сервисов позволяет изолировать сбои. Однако, как и в любой распределённой системе, здесь выше вероятность проблем на уровне сети, оборудования или приложений. Как следствие зависимости сервисов, любой компонент может оказаться временно недоступен для пользователей. Чтобы минимизировать влияние частичных сбоев, нам нужно построить устойчивые к ним сервисы, которые могут корректно реагировать на определённые типы проблем.

В этой статье представлены самые распространённые методики и архитектурные шаблоны для построения и оперирования высокодоступной микросервисной системой.
Читать полностью »

Джефф Этвуд, возможно, самый читаемый программист-блоггер, опубликовал пост против использования памяти ECC. Как я понимаю, его доводы такие:

  • В Google не использовали ECC, когда собирали свои серверы в 1999 году.
  • Большинство ошибок ОЗУ — это ошибки систематические, а не случайные.
  • Ошибки ОЗУ возникают редко, потому что аппаратное обеспечение улучшилось.
  • Если бы память ECC имела на самом деле важное значение, то она использовались бы везде, а не только в серверах. Плата за такого рода опциональный материал явно слишком сомнительна.

Давайте рассмотрим эти аргументы один за другим:
Читать полностью »

Беды мировых фондовых рынков: киберпреступления, стихийные бедствия и человеческий фактор - 1

Тайфун «Нида», обрушившийся на Гонконг 2 августа, приостановил экономическую жизнь крупнейшего финансового центра Азии. Тропический циклон стал причиной отмены полутора сотен авиарейсов, закрытия торговых центров и прекращения на один день торгов на крупнейшем рынке ценных бумаг и деривативов — Гонконгской фондовой бирже. Впрочем, далеко не всегда причиной «падения» бирж становятся стихийные бедствия и локальные катаклизмы. Рассмотрим неожиданные происшествия, способные привести к «биржевым неполадкам». Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js