В прошлом году авиакомпания Delta потеряла более $150 млн. Причина убытков — сбой в работе дата-центра Delta, о чем мы в свое время писали. Речь о компании Delta Air Lines, многие тысячи пассажиров которой не смогли никуда улететь из-за сбоя в ДЦ, расположенном в Атланте, США. Как и у практически любой компании, в дата-центрах Delta Air Lines есть дублирующие системы, которые начинают работать, если что-то идет не так. В резервные системы были вложены десятки миллионов долларов США, но в нужное время они просто не сработали должным образом.
Тогда не было произведено переключение с основной энергосистемы на вспомогательный генератор, и сервера просто отключились после разрядки UPS. Это происшествие повлияло на работоспособность ДЦ компании. Случившееся уже в этом месяце, почти год спустя, подверг анализу вице-президент Amazon Web Services Джон Хамильтон. В частности, он рассказал, что проблема возникла из-за нескольких идущих подряд друг за другом редких сбоев. Но, по его словам, подобное случается гораздо чаще, чем принято думать.
То самое редкое стечение обстоятельств в его карьере случалось уже дважды, а случай в Delta — уже третий. Причем именно этот случай — максимально показательный. Во-первых, его негативный эффект довольно высок. Во-вторых, случившееся уже проанализировано и разобрано по полочкам, в-третьих, все это действительно случается не так часто, так что мало кто успевает подготовиться к наступлению «часа икс».
Для начала стоит вспомнить, что Delta пришлось отменить сразу 1000 полетов в один день, 775 — на следующий день и 90 — еще через день. Как уже говорилось выше, компания потеряла около $150 млн, хотя авиакомпании и так имеют не слишком высокую прибыльность, так что восполнить убыток можно будет только в течение нескольких лет.
Кстати, проблемы в дата-центрах случаются гораздо чаще, чем о них говорят. Просто в этом конкретном случае все вышло наружу, авиакомпания при всем желании ничего не могла утаить.
Но что вообще случилось? В отчете говорилось, что «механизм переключения основного питания на аварийное дал сбой, в результате чего резервная система так и не включилась». Для того, чтобы лучше понять природу проблемы, стоит вспомнить, какое оборудование обычно используется для переключения.
В обычной ситуации электричество поступает в ДЦ через трансформаторы среднего напряжения и автоматику к бесперебойникам, которые и являются конечным источником питания для критического оборудования вроде серверов, хранилищ данных и сетевого оборудования. В той же обычной ситуации автоматика обычно лишь отслеживает качество поставляемой энергии.
Служащий Delta Airlines помогает пассажиру, чей рейс отменили, разобраться в ситуации
Если автоматика фиксирует сбой, она ждет несколько секунд (в большинстве случаев) нормализации ситуации. Если энергии нет или ее параметры не те, что требуется, в работу вступают аварийные генераторы. Для ввода в работу генератора тоже хватит нескольких секунд. Как только он входит в оптимальный режим, а все параметры вырабатываемой энергии соответствуют заданным, сеть переключается на генератор, отключаясь от основного источника питания. В ходе этих нескольких секунд, которые нужны автоматике для оценки ситуация и дальнейших действий, нужный ток дают бесперебойные элементы питания — без них в таком случае никак не обойтись. Как только «приходит в себя» основной источник, идет обратное переключиение.
В большинстве случаев, все идет так, как надо. Проблемы случаются настолько редко, что подавляющее большинство компаний никогда не сталкивается с отказом автоматики в энергетической инфраструктуре. Но если автоматика подводит, тогда компания может столкнуться с проблемами и убытками, как в случае Delta. Как она может подвести? Дело в том, что производители генераторов используют специальное ПО, которое ведет мониторинг напряжения в сети во время сбоя. Если оно слишком высокое или автоматике «не нравится» еще что-то, то генератор просто не включается. Дело в том, что стоимость его может достигать миллиона долларов или даже выше, и производитель оборудования считает, что лучший выход — это не рисковать генератором.
Но в некоторых случаях миллион долларов — это ничто по сравнению с общими убытками от сбоя, поэтому инженеры дата-центров могут предпочесть запустить генератор, хотя бы и с вероятностью его порчи. В случае с Delta Airlines техники ничего не смогли сделать, поскольку автоматика приняла решение блокировать дорогостоящий генератор (в начале не зря говорилось, что в резервную систему вложено несколько десятков миллионов долларов США). 5-10 минут, и UPS разряжаются, сервера и прочее оборудование отключается. У Delta еще и пожар случился.
Причем здесь Amazon? Дело в том, что вице-президент этой компании как-то столкнулся с аналогичной проблемой. Он выехал из дата-центра, отдалившись на приличное расстояние. И тут ему одно за другим стали приходить сообщения об отключениях UPS. Вернувшись, он понял, что именно случилось — ситуация была аналогична той, что произошла в дата-центре Delta, только без пожара. Удивительным было то, что производитель автоматики отказался помочь снять блок с генератора и запустить его, несмотря на то, что команда дата-центра была готова пойти на риск порчи оборудования. В результате Amazon тоже потерпела убытки, хотя и не такие значительные, как Delta. В случае с Amazon был налажен контакт с производителем автоматики и создано кастомное ПО, которое включало генератор в любых проблемных случаях, если того требовала обстановка.
В большинстве случаев генератор будет работать в нормальном режиме, хотя возможна и нагрузка немного выше нормы. Сохранять его в условиях отключения электричества в дата-центре нет смысла, это неправильный приоритет. Когда речь идет о сотнях миллионах долларов США, то потеря еще нескольких сотен тысяч или миллиона играет не слишком большую роль. В случае Delta блокирование генератора привело к уже описанным последствиям и потере даже не сотни, а полутора сотен миллионов долларов США.
Автор: King Servers