Рубрика «отказоустойчивость» - 5

Страх и ненависть в распределённых системах - 1

Роман Гребенников объясняет сложность построения распределённых систем. Это — доклад Highload++ 2016.

Всем привет, меня зовут Гребенников Роман. Я работаю в компании Findify. Мы делаем поиск для онлайн-магазинов. Но разговор не об этом. В компании Findify я занимаюсь распределенными системами.

Что же такое распределённые системы?
Читать полностью »

В день программистки, представляем вашему вниманию интервью с разработчиком, который смог отдебажить марсоход за 18 часов на расстоянии 100 миллионов миль. Тем более, что часть кода космического аппарата была написана на языка Ada.

image

DDJ: Вы программируете компьютеры, которые работают на поверхности другой планеты. Вот это необычно!

GR: Это необычно и для меня, могу вас заверить. Это такой микромир, где все сосредоточены на том, чтобы все задачи следующего дня были выполнены в соответствии с планом.

Вы идете домой в 3 утра, все еще в напряжении от просмотра возвращающейся информации и бессонной ночи. Ваши жена и дети уже спят, вам же точно не уснуть, а в 8 утра уже надо быть на работе. Поэтому вы включаете CNN и смотрите на свое улыбающееся лицо в контрольном центре и смотрите на те же изображения, которые вы просматривали 12 часов назад. Очень странное ощущение.

Это был маленький проект маленькой кампании, однако он очень повлиял на многих из нас. Отмечу также, что с технической точки зрения, проект был своевременным.
Читать полностью »

«Делали микросервисы до того, как это стало мейнстримом»: Сбербанк-Технологии о разработке - 1

В Сбербанк-Технологиях занимаются целым рядом интересных задач — от унификации интерфейсов громадного банка до прототипирования blockchain. В большинстве случаев разработка ведётся на Java: её в компании считают лучшим выбором для больших корпоративных систем, ценя возможность скомпоновать решение из сторонних продуктов и внутренних разработок.

На конференциях спикеры «Сбертеха» рассказывают как непосредственно о своём опыте, так и об общих выводах, которые можно из него сделать. Но в формат докладов укладывается не всё, и накануне Joker мы отдельно задали вопросы троим сотрудникам компании, выступающим на Java-конференциях. Нам ответили:

  • Сергей Владимиров (выступит на Joker 2016)
  • Александр Маторин (выступал ранее на Joker, JPoint и JBreak)
  • Максим Зелинский (выступал ранее на JPoint и JBreak)

Читать полностью »

image alt text

PSU firmware is outdated.

Когда я впервые увидел такую надпись при опросе версий прошивок HP DL380, то был несколько обескуражен. Эм, ну ладно, если очень нужно – скачай и поставь. Но что за софт может быть в банальном блоке питания? Оказалось, что для диагностики местной системы жизнеобеспечения и обработки отказов по питанию. Там натуральный кластер из блоков питания, со своим арбитром и логикой. Под катом рассказ об устройстве такого "кластера" и о том, почему 2 x 1400 = 2300W.Читать полностью »

image

Немаловажный пункт, который очень часто упускают из вида разработчики — это эксплуатация проекта. Как выбрать дата-центр? Как прогнозировать угрозы? Что может произойти на уровне фронтенда? Как балансировать фронтенд? Как мониторить? Как настраивать логи? Какие нужны метрики?

И ведь это только фронтенд, а есть ещё бекенд и база данных. Везде разные законы и логика. Подробнее об эксплуатации highload-проектов в докладе Николая Сивко (Head Hunter) с конференции HighLoad++ Junior.

Читать полностью »

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере - 1
«Зеркальный» кластер с синхронными вычислительными процессами, вид спереди

Пока тут весь интернет кричит про наш отечественный жёсткий диск на целых 50 Мегабайт массой 25 килограмм, не очень-то понимая, что эта штука может пережить две ядерных войны на дне бассейна, расскажу про серьёзные отказоустойчивые серверы и их отличия от обычного железа. К счастью, к нам как раз поступили на тестирование такие, и была возможность хорошенько над ними поиздеваться.

Эти решения особенно интересны для админов. Дело в том, что они защищены не физически — кожухами, отказоустойчивыми интерфейсами или чем-то ещё, а на уровне именно архитектуры вычислений.

Нам в руки попал флагман ftServer 6800 от Stratus. Это корпус с двумя идентичными вычислительными узлами, объединёнными в один кластер, причем обе его половинки работают синхронно и делают одно и то же «зеркально». Это старая добрая «космическая» архитектура, когда вычислительный процесс проходит сразу два независимых аппаратных пути. Если где-то возникнет баг (не связанный с кривостью кода), то один из результатов точно достигнет цели. Это важно для критичных систем в самых разных областях от банкинга до медицины, и это очень важно там, где есть «тихая потеря данных». То есть там, где во весь рост встают баги процессоров, связанные с тем, что кристаллы всё же уникальные и двух одинаковых машин не бывает в природе. Обычно это не проявляется, но на ответственных задачах требуется защититься от случайного влияния помех и возможных более явных проблем. Поэтому вот так и сделано. Читать полностью »

В 3CX Phone System v14 в целях обеспечения отказоустойчивости и легкой миграции пользовательских АТС было сделано разделение между конфигурацией сервера (хоста и сети), на котором работает система и конфигурацией конкретной пользовательской АТС. Это позволяет решить ряд важных задач:

  • В случае системного сбоя быстро перенести конфигурацию АТС организации на другой подготовленный сервер.
  • Легкая миграция АТС организации с локального сервера в облако (на виртуальную АТС) и обратно.
  • Удобство предварительного тестирования обновлений системы благодаря простому переносу рабочей конфигурации на тестовый сервер.

Перенос конфигурации АТС между серверами можно сравнить с миграцией виртуальных машин между супервизорами. Конфигурация пользовательской АТС — параметры добавочных номеров, IP телефонов, правила маршрутизации и т.п., теперь не зависит от сетевого окружения сервера, на который переносится АТС. Используя автоматическое обновление DNS, можно восстановить или перенести систему практически незаметно для пользователей.Читать полностью »

Битрикс дарит знания — все материалы #FailOverConf - 1

8-го апреля состоялась ставшая уже традиционной конференция, посвященная отказоустойчивому и быстрому вебу — FailOverConf.

Как вы уже знаете, в этот раз мы решили полностью поменять ее формат. Мы поставили цель — максимально широкий охват аудитории, которая сможет получить полезные и практические знания. Поэтому сделали конференцию полностью в онлайне и бесплатной. И, кажется, цель была достигнута. :) Около 2500 человек приняли участие в мероприятии.

А сейчас, как мы и обещали ранее, мы публикуем все материалы конференции (презентации и видео).
Читать полностью »

#FailOverConf 8 апреля! Бесплатно, без смс, но с регистрацией - 1

В этом году 8 апреля мы проводим уже ставшую традиционной 5-ую конференцию ‪#‎FailOverConf‬! Вся она посвящена отказоустойчивому вебу: надежные непадающие сайты, грамотная разработка и эксплуатация, мониторинг, защита от взломов и атак…

Есть несколько причин обязательно участвовать в этом мероприятии.
Читать полностью »

Самые надежные SSD: результаты эксперимента продолжительностью в полтора года - 1

Современные SSD-накопители достаточно надежные, а с учетом того, что цена за 1 ГБ (в долларах) постепенно падает, то использовать SSD во многих случаях даже более рационально, чем работа с HDD. Но какой SSD выбрать?

Полтора года назад журналист Tech Report решил провести эксперимент по выявлению наиболее надежных SSD. Он взял шесть моделей накопителей: Corsair Neutron GTX, Intel 335 Series, Kingston HyperX 3K, Samsung 840, Samsung 840 Pro, и поставил все шесть на цикличный процесс чтения/записи. Объем памяти каждого накопителя составлял 240-256 ГБ, в зависимости от модели.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js