Рубрика «отказоустойчивость» - 8

Добрый день, уважаемые читатели.
Хотели бы Вам рассказать о реализованном нашими инженерами проекте по построению оптического кольца высокой доступности между нашими облаками в Москве.

Оптическое кольцо высокой доступности
Читать полностью »

Проблемы индейцев
Одним из остававшихся до недавнего времени недостатком Node.js, который отпугивал бекенд-разработчиков от использования Node.js был тот факт, что непойменное исключение в потоке рушила воркера и все клиенты, которые ждали от него ответа не получали ничего.

tl;dr Eсть новое API для асинхронного trycatch. Из статьи можно скопипастить пример и поиграться.
Читать полностью »

#FailOverConf — как это было, презентации и видео

4 апреля мы провели первую FailOver Conference — конференцию, целиком и полностью посвященную отказоустойчивости сайтов и их бесперебойной работе.

Целый день, более 7 часов, мы слушали доклады от разработчиков и архитекторов облачных сервисов, системных администраторов хостинг-провайдеров, опытных DBA, обсуждали их, спорили…

Тема оказалась очень важной и востребованной — более 1200 человек зарегистрировались на онлайн-трансляцию.

Конечно, сложно сразу «переварить» такой большой объем информации. К чему-то хочется вернуться позже, попробовать применить к конкретному проекту. Именно поэтому один из самых часто звучащих вопросов как из зала, так и в онлайне (в твиттере): «А будут ли опубликованы материалы?»

Да, конечно! Мы публикуем и презентации, и видео докладов, и с удовольствием делимся ими с вами!
Читать полностью »

FailOver Conference 4 апреля — бесплатная онлайн трансляция FailOver Conference состоится уже завтра, 4 апреля! Мы сами ждем это мероприятие с огромным нетерпением, потому что работа над программой уже завершена и в нее попало только все самое «вкусное»! :-)

Самое «горячее» специальное предложение для тех, кто не сможет присутствовать лично — бесплатная онлайн трансляция всего мероприятия!

Можно будет не только посмотреть все доклады, но и задать интересующие вопросы через твиттер с хэштегом #failoverconf.

Для этого требуется самая малость — зарегистрироваться на онлайн трансляцию.

А под катом мы расскажем о наиболее интересных, на наш взгляд, докладах!
Читать полностью »

Сайты неваляшки, или Приглашаем на FailOver Conference 4 апреля «Быстро поднятое не считается упавшим!» (народная мудрость)

Понятие «FailOver» должно быть знакомо любому грамотному системному администратору. Резервные серверы, каналы, сценарии быстрого переключения на запасное оборудование… Одним словом – отказоустойчивость.

Принято считать, что такой серьезный подход к организации работы онлайн-сервиса необходим лишь крупным сайтам с миллионами хитов в сутки. На таких проектах есть штат суровых бородатых админов и круглосуточные службы экстренного реагирования во время аварий.

Про многосерверные конфигурации, гео-распределенные кластеры много пишется на том же Хабре, проводятся специализированные конференции (тот же HighLoad++, например).

А как быть средним и маленьким проектам? Для них все это может быть слишком сложно и дорого, а обеспечение отказоустойчивости — не менее важная задача. «Упавший» интернет-магазин потеряет клиентов и реальные деньги.

Хотите знать, как не «падать» (или — по крайней мере — быстро подниматься :)) — приходите или участвуйте онлайн в FailOver Conference 4 апреля!

Подробности — под катом.

Читать полностью »

Проблематика

Итак, у нас есть коммерческий online-сервис, а наши клиенты — это компании, которые используют наш сервис 24x7. Наша задача, чтобы клиенты были счастливы и наши внутренние проблемы, связанные с отказом оборудования и ПО оставались для клиента максимально незамеченными. Клиенту вовсе не надо знать о том, что у нас сгорел RAID-контроллер, а системный администратор живет в Таиланде и не привык рано вставать.
Читать полностью »

Двое английских учёных Peter Bentley и Christos Sakellariou создали компьютер, который подобно мозгу человека выполняет инструцкии не последовательно, а сегментами в случайном порядке.
По словам учёных, такой механизм позволяет этому компьютеру адаптироваться к критическим ситуациям и обходить их без остановки работы.
Читать полностью »

Почему так много сертифицированных отказоустойчивых ЦОДов аварийно встают?

Есть два основных документа, которые чаще всего упоминаются при обсуждении стандартов центров обработки данных: это стандарт TIA 942 и классификация по уровням от Uptime Institute. Оба этих документа регламентируют уровни (Tier), что часто приводит к путанице: например, Tier III по TIA 942 и Tier III по Uptime Institute — это две большие разницы.

TIA vs Uptime

TIA 942 — Telecommunications Industry Association — Telecommunications Infrastructure Standard for Data Centers:

  • Этот стандарт разработан ассоциацией телекоммуникационной промышленности США и, в первую очередь, касается вопросов организации структурированных кабельных систем в ЦОД, и в меньшей степени вопросов отказоустойчивости и других инженерных подсистем.
  • Носит рекомендательный характер.
  • Есть пошаговые инструкции и рекомендуемые схемы (помощь инженеру). «Делай как тут написано и получишь хороший результат».
  • Соответствие стандарту заявляется владельцем объекта или исполнителем проекта (на уровне «Я делал как вы сказали, честное слово»).
  • Обычно, на соответствие стандарту проверяется только проектная документация.
  • Однажды реализованный объект не теряет уровень.

Читать полностью »

Я понимаю, конечно, что Сколково, гос-корпорации, непонятное название, много псевдонаучного PR по поводу этих самых клеток и прочие негативные коннотации имеют место быть, но партия процессоров изготовлена. Их даже можно потрогать руками и посетовать на кривые ножки :) в новости на картинке не фотошоп — на сайте разработчиков и в прокремлёвской газете (не, ну мне самому стыдно, однако… против факта не попрёшь).

Читать полностью »

Практическим применением знаний о работе с массивами EVA и iLO в серверах ProLiant, которые вы получили чуть раньше, может стать развертывание высокодоступного кластера на vSphere.

Кластер может использоваться для предприятий среднего и крупного размера, чтобы уменьшить время внеплановых простоев. Поскольку для бизнеса важны такие параметры как доступность его сервиса или услуги клиенту в режиме 24x7, то такое решение основывается на кластере высокой доступности. В кластер всегда входят как минимум 2 сервера. В нашем решении серверы под управлением VMware отслеживают состояние друг друга, при этом в каждый момент времени ведущим будет только один из них, на нем будет разворачиваться виртальная машина с нашим бизнес-критичным приложением. В случае отказа ведущего сервера его роль автоматически принимает второй, при этом для заказчика доступ к бизнес-приложению не прерывается.

HA (High Available) кластер VMware vSphere на блейд серверах HP BL460c и EVA
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js