Привет! В этом году – 10 лет, как запущен наш первый ЦОД OST-1. За это время мы с коллегами из службы эксплуатации и капитального строительства успели провести не одну модернизацию инженерной инфраструктуры дата-центра. Сегодня расскажу про самые интересные случаи.
200-тонный кран устанавливает новый чиллер Stulz на раму. Модернизация системы холодоснабжения системы дата-центра OST-1 в 2015 году.
Дата-центр – живой организм, он растет, меняется, ломается:) Все, что можно отнести к модернизации, я условно делю на:
- плановые замены и ремонты. Оборудование морально устаревает, истекает его срок эксплуатации. Такие работы мы бюджетируем, планируем и делаем без спешки, когда нам удобно (например, полный апргейд «внутренностей» ИБП или замену выработавших свой срок аккумуляторных батарей).
- ошибки проектирования. По заветам Uptime, все должно расходоваться и заканчиваться одновременно. Из-за неправильного проектирования баланс «холод – электричество – место» может нарушиться, например: есть куда ставить стойки, но зал уже не тянет по электричеству или кондиционированию. Самое неприятное с этими ошибками то, что всплывают они не сразу, а когда ЦОД приближается к проектной мощности.
- аварии. Бывает, что оборудование повреждается окончательно, бесповоротно и неожиданно, и его нужно менять.
На плановых заменах/ремонтах останавливаться не буду. Там практически все в нашей власти. Расскажу три истории об ошибках проектирования и послеаварийной модернизации.
История 1. Машинному залу не хватало холода
Это история про один из наших первых залов на Боровой. Он до сих пор работает. Зал с проектной мощностью 80 стоек по 5 кВт.
По мере заполнения зала перестало хватать холода: температура в холодных коридорах была выше, чем надо, постоянно возникали локальные перегревы. Это уже потом, с высоты своего опыта, мы поняли, что наделали ошибок в проектировании, и из-за этого страдало кондиционирование.
Ошибка | Проблема |
Длинный ряд стоек – больше 20 в ряду | Горячий воздух застаивался в середине ряда |
Низкие потолки – до 3 метров | Недостаточно места для правильного воздухообмена. Возникали зоны локального перегрева |
Низкий фальшпол со множеством коммуникаций под ним | Помехи для циркуляции холодного воздуха под фальшполом |
Ряд настолько длинный, что кондиционеры на противоположном конце едва видно. Фото 2009 года.
Какой-то «волшебной таблетки» от этих проблем мы тогда не видели, поэтому решили действовать поэтапно и по всем фронтам.
Сначала мы проверили, все ли оборудование установлено правильно и стоят ли заглушки в свободных юнитах. Мы также перепроверили раскладку перфорированных плиток и убрали лишние, установили дополнительные направляющие воздуха под фальшполом. Постарались найти и заделать все дырки, куда мог убежать холодный воздух. Советую вам тоже проверить, что у вас между кондиционером и стеной. Зазор в 5-7 см – это уже много.
Вот такой результат нам дало простое размещение заглушек в свободных юнитах.
Стало лучше, но недостаточно хорошо. Тогда мы решили изолировать холодные коридоры. Построили крышу, двери из поликарбоната. Получилось дешево и сердито. В результате мы избавились от паразитного смешения горячего и холодного воздуха и повысили КПД системы холодоснабжения.
Изолированный холодный коридор того же зала.
Мы понимали, что этого хватит ненадолго. С ростом ИТ-нагрузки нехватка мощности снова даст о себе знать.
Эту проблему попытались решить добавлением фреонового кондиционера, хотя зал работал на гликолевом охлаждении. Нас очень заботили габариты кондиционера (пройдет ли он в дверь, хватит ли угла поворота), поэтому подбирали модель с возможностью частичной разборки. Кондиционер установили не со стороны горячего коридора, как обычно это делают, а куда смогли втиснуть. Это добавило нам 80 киловатт по охлаждению.
Вот тот самый «гуттаперчевый» кондиционер Emerson.
Вся эта история оказалось непростой: нужно было придумать, как подвести фреоновые трассы до внешних блоков, как подвести к этим кондиционерам электричество, куда поставить внешние блоки кондиционера. Все это в работающем зале.
Просто для понимания, насколько там мало места.
После всех этих манипуляций мы избавились от локальных перегревов, температура распределялась равномерно в холодных и горячих коридорах. Получилось увеличить мощность зала и размещать в нем заявленные пятикиловаттные стойки.
Мораль этой истории в том, что не стоит бояться решать проблему мелкими шажками. Само по себе каждое из действий может показаться (и нам тогда казалось) неэффективным, но суммарно это дает результат.
История 2. В машинном зале закончились кондиционирование и энергоснабжение
Под клиента был спроектирован машинный зал на 100 стоек по 5 кВт. Проектная ширина стойки 800 мм, в каждом ряду 10 стоек. Потом клиент передумал заезжать, и зал сдавали на общих основаниях. В жизни стойки шириной 800 мм нужны в основном под сетевое оборудование, для всего остального нужны шестисотые. В итоге вместо 10 стоек в ряду у нас получилось 13, и еще оставалось место. А вот электричества и холода уже не хватало.
В ходе модернизации выделили новое помещение под два дополнительных ИБП по 300 кВт.
В зале появились дополнительные распределительные щиты.
Новую мощность нужно было распределить равномерно. Чтобы разделить новые и старые лучи, под фальшполом проложили отдельные кабельные лотки. Часть работающего ИТ-оборудования переключили на новые распределительные щиты поочередным переключением каждого луча питания.
Чтобы решить вопрос с нехваткой холода, поставили 1 дополнительный кондиционер на 100 кВт холода.
Во время такелажа, установки и пусконаладки всего оборудования зал продолжал работать в штатном режиме. Это было самым сложным моментом в проекте.
В результате модернизации мы добавили залу электричества и холода на еще 30 стоек по 5 кВт.
Проектная мощность и емкость зала увеличена на 30%.
История 3. Про замену чиллеров
Немного предыстории. Началось все в 2010 году, когда 3 чиллера дата-центра OST сильно пострадали во время урагана. Тогда, чтобы выжить, пришлось гонять чиллеры без защиты несколько суток, и компрессоры быстро загнулись. Сначала меняли их.
ИТ-нагрузка росла по мере заполнения ЦОД, а чиллеры Emicon так и не вышли на заявленную холодильную мощность. В 2012-м поставили дополнительный чиллер Hiref в ту же гидравлическую схему. Так мы прожили еще три года.
Со временем у чиллеров Emicon обострились эксплуатационные проблемы. Их мощности не хватало, поэтому в жару приходилось поливать водой из керхеров. С годами теплообменники обросли известковыми отложениями. В зазор между теплообменником фрикулинга и фреоновым конденсатором набивался тополиный пух и прочий мусор, который не удалишь из-за специфики строения теплообменников. Там образовался настоящий валенок, который не пропускал нормально воздух.
В 2015 году мы как раз закупали партию чиллеров Stulz для NORD-4. Решили под это дело заменить два из трех чиллеров Emicon. Теперь подробности.
Установка дополнительного чиллера Hiref без доустановки насосов. ИТ-нагрузка росла, а КПД чиллеров, пострадавших в урагане, падал. Летом резерва едва хватало. Мы решили добавить еще один чиллер, чтобы увеличить их суммарную мощность. На время работ система холодоснабжения должна была продолжать функционировать. Самое сложное в этой операции – организация гликолевого контура. Мы сделали гликолевую обвязку: от каждого чиллера было отведено гликолевое кольцо к новому чиллеру. Чиллеры поочередно выводили из эксплуатации, и подводили к новому чиллеру гликолевую трубу.
Фрагмент принципиальной схемы гидравлики. На ней видно, что от каждого из трех чиллеров были сделаны ответвления к новому чиллеру.
Основная задача этого чиллера – поддержка системы холодоснабжения летом. Благодаря Hiref у нас появился гарантированный резерв N+1 в жаркие месяцы. Но поврежденные в урагане чиллеры потихоньку начали издыхать, и нам пришлось задуматься об их замене.
Тот самый «летний» чиллер Hiref.
Замена Emicon на Stulz. Такие замены лучше делать осенью или весной: летом без резерва совсем страшно, а зимой просто неприятно проводить работы. Операцию запланировали на февраль/март, но готовиться начали еще в октябре.
За эти подготовительные месяцы мы проложили новые кабели, варили участки трубопровода, разработали план подъезда машины с оборудованием (на заднем дворе у нас тесно), очистили территорию для подъезда крана. Чиллеры предстояло менять в работающем дата-центре, и примерно на 1,5 суток он оставался без резервного чиллера. На этапе подготовки мы провели тесты, чтобы понимать, как дата-центр будет чувствовать себя без резерва, напридумывали различные ситуации, когда что-то могло пойти не так во время работ (например, длительный блэкаут во время замены чиллеров), и разработали план действий. Вот краткая хроника тех работ.
В ночь приехал чиллер. После успешного заезда крана на территорию дата-центра можно было начинать отключать старый чиллер.
Старый чиллер еще на месте, пока ведутся подготовительные работы. Варим раму для нового чиллера.
Потом к непосредственному месту работ должна была подъехать машина с чиллером. У нас там, мягко говоря, тесновато. Пришлось попотеть, чтобы вписаться во все эти сложные повороты в ограниченном пространстве.
Разобранный и распиленный пополам чиллер демонтировали.
Старый и новый чиллер отличаются размерами. Ушло еще какое-то время на подготовку металлической рамы. Дело осталось за подъемом и установкой чиллера.
На заднем плане фото видно, что параллельно довариваются участки гликолевого контура для нового чиллера.
После установки на раму монтируется вся гидравлика, чиллер подключают к электропитанию. В ночь делается опрессовка. На следующий день проходит пусконаладка и подключение к системе мониторинга.
На всю операцию ушло меньше двух суток: утром старый чиллер выключили, в конце следующего дня включили уже новый чиллер.
Через две недели меняли второй чиллер. Казалось бы, нужно было просто все сделать по отработанной схеме, но что-то пошло не так. Всю ночь шел снег. Сначала пришлось потратить время на расчистку территории, чтобы кран смог заехать. Начали демонтировать старый чиллер, как в двухстах метрах от нас ломается машина с новым чиллером. Точка невозврата уже пройдена, а у фуры сломался поворотный механизм колес прицепа (пульт управления от него).
Отремонтировать на месте не получилось, ездили за дополнительным пультом, который в субботу чудом оказался в офисе этой компании. С пультом удалось докрутить машину. В итоге на прохождение одного поворота у нас ушло больше 3 часов. Со всеми логистическими накладками работы растянулись до ночи. Хорошо, что мы продумали освещение для работ в темное время суток. Оставшиеся работы прошли в штатном режиме, и с понедельника в дата-центре заработал еще один новый чиллер.
В марте этого года мои коллеги провели замену уже третьего чиллера, последнего из переживших ураган. Теперь на Боровой работают три чиллера Stulz и один Hiref. Благодаря такой поэтапной модернизации у нас теперь есть большой запас по холоду, и мы не боимся самой жаркой погоды и тополиного пуха. Новые чиллеры поддерживают режим фрикулинга на большем температурном диапазоне, потребляют меньше энергии и работают очень тихо. Еще их очень удобно обслуживать из-за отдельных компрессорных отсеков: ремонтные работы можно проводить без полной остановки чиллера.
Автор: kshadskiy