Операция «ЦОД» и другие приключения Шурика

в 9:48, , рубрики: дата-центр, ИБП, источник бесперебойного питания, кейсы, ликбез, сервисное обслуживание, техническое обслуживание, центр обработки данных, цод
Операция «ЦОД» и другие приключения Шурика - 1

Привет! Меня зовут Саша Салтыков, я отвечаю за сервисное обслуживание инженерных систем в ИТ-компании К2Тех. Сервис – дело творческое, и часто в работе нам встречаются ситуации, о которых, как говорится, невозможно молчать. Решил поделиться с вами опытом недавнего обслуживания партнерского центра обработки данных и рассказать, как не положить ЦОД во время смены источников бесперебойного питания. Читайте историю под катом!

Пролог

С заказчиком нас связывает дружба и долгие годы плодотворного сотрудничества. В лохматые годы мы даже помогли им со строительством ЦОДа, о котором сейчас и пойдет речь. В один из прекрасных зимних вечеров работа дата-центра загнулась.  Получив тревожный звонок с просьбой помочь, мы оперативно организовали выезд на объект заказчика. Причиной аварии явилось несоблюдение последовательности действий во время работ по замене ИБП.

Немного предыстории. Система электроснабжения дата-центра включала в себя 3 ИБП Eaton мощностью 40 кВт каждый, которые работали по схеме N+1. Принцип работы данной схемы заключается в следующем: при отказе одного источника система будет оставаться работоспособной за счет перехвата нагрузки резервным ИБП. 

В связи с тем, что один из 3-х ИБП вышел из строя (здесь важно отметить, что оборудование эксплуатируется с 2008 года и на данный момент имеются проблемы с поставками комплектующих для ремонта), было принято решение о замене оборудования на новое. Мы подготовили для заказчика предложение по замене 3-х ИБП, подобрав аналогичные решения отечественного вендора. 

Заказчик разыграл конкурс, остановив свой выбор на альтернативном решении: использовать один модульный ИБП вместо трех моноблочных. В данном ИБП установлено 4 модуля по 25 кВт, последовательно объединенных в общей питающей стойке. По сути, модуль – тот же ИБП. Но если из строя выйдет 2 модуля или питающая стойка – единая точка отказа, – то загнется работа всего ЦОД. 

Стоит отметить, решение заказчика экономически обосновано: ЦОД не является критически важным, и в случае возникновения проблемной ситуации заказчик не несет суперубытков. В то же время затраты на закупку, СМР/ПНР и обслуживание подобного решения выходят куда дешевле. 

Акт первый: Коротыш

Мы оказываем круглосуточную и круглогодичную техподдержку систем кондиционирования, электроснабжения, пожаротушения (АУГПТ), мультимедиа. По заявкам реагируем в течение часа, далее – в зависимости от критичности вопроса. Нам сообщили, что ЦОД лежит, а подрядная организация производит замену ИБП. Несмотря на то, что мы проводим техническое обслуживание инженерных систем заказчика, нам не сообщали о факте и планируемых датах замены оборудования подрядчиком, не просили проконсультировать. Клиент самостоятельно принял решение, подрядная организация заехала на объект, привезла оборудование и начала заниматься демонтажом старых ИБП.

Так как мы не присутствовали на объекте и не оказывали услуг по шеф-монтажу, можем лишь догадываться, что произошло на самом деле. Подрядчику требовалось приехать на объект, перевести ИБП на внешний механический байпас, выполнить демонтаж старого оборудования и монтаж нового ИБП. Данные операции можно было выполнить без прерывания питания нагрузки. 

Краткая справка:

У большинства ИБП байпас является внутренним блоком, что также поддерживает подключение внешних шкафов или модулей байпаса. Внутренний блок позволяет пустить напряжение только в обход силовой части ИБП, а внешний шкаф или модуль способен полностью обесточить устройство, в том числе снять напряжение с его входных и выходных клемм (электроснабжение нагрузки при этом не будет прервано).

После выезда на объект и общения с коллегами мы выстроили примерную картину произошедшего: подрядчик начал работы по демонтажу неисправного ИБП, который находился в выключенном состоянии, но вероятнее всего автомат подачи питания на вход ИБП был включен. Не убедившись в отсутствии напряжения на входных клеммах, специалисты начали откручивать кабели, в результате чего произошло короткое замыкание. В момент нашего прибытия на место событий все 3 ИБП были в выключенном состоянии. Выбило верхнеуровневый автомат номиналом 630А, питающий шины СГЭ (систем гарантированного электроснабжения), от которых были запитаны все 3 ИБП. Бесперебойники перешли на АКБ, после разряда которых выключились. ЦОД лёг. 

Что делать, чтобы этого не произошло:

1. Детально изучить однолинейные схемы и убедиться в их актуальности. 

2. Составить ППР, в котором будет четко отображена последовательность действий специалистов, выполняющих работы. 

3. Перед началом работы провести осмотр, измерить напряжение на планируемых к отключению кабелях при помощи мультиметра. Убедиться в отсутствии напряжения, прежде чем что-то делать.

4. В случае с переводом на внешний байпас: проверить, что выход сфазирован с байпасом ИБП. Это также делается при помощи измерений электрических параметров. Четко убедившись в том, что выходы сфазированы и система готова к переходу, можно приступать к выполнению основных операций.

Таков путь

По пути на площадку я попросил скинуть мне однолинейные схемы СБЭ (системы бесперебойного электроснабжения), чтобы действовать оперативно по прибытии. Получил фактуру: произошло короткое замыкание, все 3 ИБП не работают, ЦОД лежит, бизнес-процессы прерваны. 

Изучив однолинейные схемы, нашел нужный автомат, питающий нагрузку ЦОДа в обход СБЭ. В нормальном состоянии этот автомат выключен и включается только в экстренных ситуациях, когда нужно исключить из цепи бесперебойники. Позвонил заказчику и поэтапно проговорил последовательность действий для безопасного переключения питания нагрузки. Заказчик ретранслировал мои рекомендации подрядчику, но ребята были шокированы происшествием и лезть в щиты не захотели. Нужно понимать, что если выбило верхнеуровневый автомат на 630А, то «бабах» был знатный.

Согласитесь, даже короткое замыкание в бытовых условиях однофазной сети является неприятным. Что уж говорить о «коротыше» трехфазной сети в 380 вольт, где нагрузка течет по силовым кабелям толщиной с большой палец. Для справки, если положить гаечный ключ между проводниками 3-х фазной сети, то в момент короткого замыкания от ключа не останется ничего, здесь мы даже не говорим о каком-либо процессе плавления. «Скидыщ» – по выражению классика.

Приехав на объект, я уже был ознакомлен с документацией и знал, в каких шкафах мне предстоит делать переключения. Осмотрел распределительный щит бесперебойного питания (РЩБП), где были смонтированы автоматы на вход и выход с ИБП. От РЩБП питание распределяется на небольшие межэтажные щиты и, соответственно, приходит в щит питания дата-центра, расположенном на одном из этажей. Питание пропало, но автоматы в щитах были включены. 

Предварительно выключив их, я подал питание в обход ИБП через внешний байпас и начал совместно с представителем заказчика поэтапно включать автоматы в межэтажных щитах. 

При эксплуатации серверного оборудования существуют две классические широко распространённые проблемы, требующие внимательного отношения к планированию включения оборудования и восстановления сервисов после полной пропажи электропитания.

Проблема 1:

В случае если серверное оборудование запитано от ИБП, при попытке включения всего оборудования одновременно после полного обесточивания совокупные пусковые токи могут превысить максимальный ток установленного ИБП, в результате чего ИБП переходит в режим перегрузки и оборудование просто не включается. В нашем случае питание нагрузки осуществлялось через байпасную линию, но лучше перестраховаться, постепенно включая автоматы. 

Проблема 2:

При включении серверов информационных систем до того, как стартовали и заработали инфраструктурные сервисы (такие как сеть, DHCP, DNS, NTP, AD), серверы информационных систем могут остаться в состоянии ошибки и ожидать ручного вмешательства для их корректного запуска.

После того как питание ЦОДа было восстановлено, пообщался с подрядчиками: подсветил, что нельзя использовать кабельные трассы от старых ИБП для питания нового. Во-первых, изначально заложенный на нагрузку в 40 кВт кабель планировали использовать для питания ИБП в 2,5 раза мощнее предыдущего. Во-вторых, гибкий кабель также имеет срок годности, и перед повторным использованием необходимо провести измерение сопротивления изоляции. На этом мы распрощались.

Акт второй: Гирлянда

На следующий день опять случилось ЧП. После сборки батарейного массива ребята приступили к подключению ИБП на старые кабельные трассы. Немного цифр. Для подключения одного бесперебойника от РЩБП проложено 10 кабелей – 5 на вход и 5 на выход. В нашей системе, как вы помните, было 3 ИБП, следовательно, 30 кабелей.

В щите можно понять, куда и откуда идет кабель, так как однолинейные схемы были актуальны, а автоматы промаркированы, но во время отключения монтажники не позаботились о маркировке кабелей со стороны ИБП. В итоге гирлянда проводов, болтаясь, свисала с лотка. Похоже, что во время монтажа подрядчик пальцем проводил по каждому из проводов, определяя, тот ли кабель подключает. 

Также подрядчик не изолировал оголенные провода. Выбрав 10 необходимых для подключения кабелей из гирлянды и подключив их к ИБП, ребята решили проверить наличие напряжения на входных клеммах нового ИБП, включив соответствующий автомат. Чуда не произошло, так как один из фазных проводов был перепутан, соответственно, в оголенной гирлянде оказался кабель под напряжением. Щитовую посетил старый товарищ-коротыш. Выбило автоматы. ЦОД снова лег.

Как делать правильно:

1. Если заранее известно, что для подключения ИБП будет использоваться существующая кабельная трасса, демонтаж еще не выполнен, а кабельные трассы подключены к когда-то эксплуатируемому оборудованию, то необходимо (для упрощения своей же работы) убедиться, что на кабельных трассах отсутствует «напруга».

2. Далее стоит пробирковать / промаркировать их. Для этого мы используем стикеры, напечатанные на переносном принтере, наклеив их на каждый конец кабеля. Неважно, как маркировать, главное, чтобы в процессе было понятно, что это за кабель, откуда он идет.

3. Уточнить у заказчика, нужны ли ему эти кабельные трассы в дальнейшем. Если нет, демонтировать лишние.

4. Открутил кабель – изолируй. Тут все средства хороши: термоусадка, изолента, колпачки. Банальная безопасность. Не дай Бог кто-то придет в щит и взведет автоматы.

5. Напомню про 380 вольт. Напомню про наличие тестовых отверток и мультиметров.

В итоге изолировали кабели мы совместно с главным инженером заказчика. Повторил историю перевода питания нагрузки на внешний байпас с, так сказать, «мягким запуском» оборудования. 

Дальнейший запуск оборудования проходил уже под нашим присмотром. Все это – глубокой зимней ночью. Романтика! По завершении совместных работ мы подали питание на ИБП. Убедившись в том, что все хорошо, соблюдая последовательность, мы перевели нагрузку с внешнего байпаса на ИБП. Центр обработки данных ожил, как и бизнес-процессы заказчика.

Мы всегда готовы делиться накопленной экспертизой с коллегами по отрасли. Как правило, это предотвращает аварийные ситуации, позволяет избежать ошибок, уже совершенных в прошлом. Надеюсь, что мой рассказ поможет вам не попасть в аналогичную ситуацию. Господа инженеры, берегите себя, оборудование и близких.

P.S. ИБП мы взяли на плановое обслуживание.

3 сентября в Москве К2Тех организует конференцию Tech2b Conf: время инфраструктурных решений. Вас ждут 4 тематические дискуссии про разные сегменты отечественного ПО и оборудования, а также демо-зона, где вы увидите более десятка решений от российских производителей!

Автор: ASaltykov

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js