Система охлаждения NORD-4.
Мониторинг инженерной инфраструктуры в дата-центре. Часть 1. Основные моменты
Мониторинг инженерной инфраструктуры в дата-центре. Часть 2. Система энергоснабжения
Мы уже рассказывали о том, что такое система мониторинга и почему ее необходимо проектировать на этапе строительства. В статье «Мониторинг инженерной инфраструктуры в дата-центре» мы рассмотрели общие ситуации, в которых необходимо проводить комплексный мониторинг, а также рассказали об особенностях наших систем.
Сегодня поговорим о том, как устроена система мониторинга холодоснабжения на примере дата-центра NORD-4. Перед прочтением рекомендуем ознакомиться со статьей о том, как создавалась система холодоснабжения.
Для проекта NORD-4 мы выбрали водно-гликолевую систему охлаждения. На схеме выше она обозначена желто-синими линиями. Поскольку холодоносителем в системе является жидкость, крайне важно следить за:
- температурой;
- влажностью и протечками;
- давлением в контуре;
- работой чиллеров, насосов и прочего оборудования.
Все кондиционеры и чиллеры подключены к общей системе мониторинга. Мы следим за показателями каждого устройства.
Дашборд с параметрами.
В системе мониторинга также отображается статус работы оборудования: отключен, штатная работа, авария, ведется ремонт.
Зеленым цветом обозначены штатно работающие чиллеры, белым – отключенные. Если что-то пошло не так, индикатор загорается красным цветом.
Датчики температуры
Параметр-фронтмен в системе мониторинга – это температура в холодных коридорах машинных залов. Средняя температура в залах колеблется в пределах от 23 до 27 Сº. При такой температуре оборудование еще не греется, но уже не покрывается инеем :). Этот параметр прописан в SLA, и за его несоблюдение придется платить штраф заказчику. От него мы и «пляшем», настраивая всю систему холодоснабжения в дата-центре.
Стабильность температуры в залах – это не дискретный параметр, а процесс, который обеспечивается оборудованием системы холодоснабжения.
Температура в машинном зале на дашборде системы мониторинга. Показатели температуры отражают расположение датчиков в зале.
Во всех холодных коридорах мы разместили по три температурных датчика. Предвидим в комментариях спор об их оптимальном количестве и месте размещения. Наша практика показывает, что трех штук вполне достаточно, и вот почему:
- Если возникнут проблемы с холодоснабжением в целом, мы увидим изменения температуры на всех датчиках. Частные же изменения в рамках одной стойки говорят о проблемах в установке оборудования или локальной неисправности стойки, а не о проблемах в системе холодоснабжения.
- По желанию заказчика мы можем установить на его стойки отдельный набор датчиков, которые обеспечат максимальный контроль, но это, скорее, исключение.
В горячих коридорах установлено по одному датчику. Их показания несут исключительно информационный характер.
В двух словах, используйте датчики рационально и без паранойи. Избыточное количество датчиков создает «шум» на панели наблюдения и не дает инженерам сосредоточиться.
Температурный датчик, установленный на стойке.
Температура жидкости. Вода охлаждается по следующей схеме. Чиллер охлаждает гликоль, который поступает в теплообменник. За счет холодного гликоля в теплообменнике теплая вода охлаждается. После того, как вода и гликоль «обменялись» температурами, вода идет в кондиционеры в залах, а гликоль возвращается в чиллер.
Взаимодействие наружного и внутреннего контуров в чиллерной схеме.
В первую очередь, для системы важна температура воды, которая поступает в кондиционеры. Она должна стабильно держаться на заданном уровне. Для нашей системы это 18 Сº.
Для регулировки температуры мы используем трехходовой клапан (ТХК). Он регулирует объем воды, выходящей из теплообменника. Если температура повышается, клапан открывается сильнее и подает больше воды в теплообменник. Текущий процент открытия ТХК выводится в интерфейс системы мониторинга.
Осталось разобраться с мониторингом температуры гликоля и воды в самих контурах. Температура отслеживается на всей протяжённости трубопровода, датчики мы разместили так:
- на входе и выходе чиллера;
- на входе и выходе теплообменника;
- на входе и выходе из кондиционера.
Температура «за бортом». Этот показатель не касается дата-центра напрямую, но он также важен в мониторинге. Мы не пользуемся средними показателями по Москве, так как температура воздуха на Боровой и на Коровинском может иметь перепад в несколько градусов. Нас интересует погода именно там, где стоит оборудование.
На каждой локации установлена независимая метеостанция, считывающая температуру, влажность и скорость ветра. Эти данные показывают, как работает система кондиционирования в реальных погодных условиях на конкретном объекте. Поскольку в Москве годовой перепад может составлять от –35 Сº до +35Сº, мы обязаны следить за погодой и заранее готовиться к ее причудам.
Так выглядит установленная на объекте независимая метеостанция.
К примеру, каждым летним вечером дежурный инженер получает прогноз погоды из трех источников. Если ожидается температура выше 30 Сº, ответственные специалисты получают sms-рассылку с призывом быть бдительнее.
Данные температуры и влажности с метеостанции в дата-центре на дашборде системы мониторинга.
В целом же мониторинг не имеет сезонного деления, в отличие от оборудования, которое нужно готовить к зиме/лету.
Другие датчики
Датчики протечек. В каждом машинном зале NORD-4 установлено по 14 кондиционеров Stulz. Они оснащены заводскими датчиками протечек, но для мониторинга их недостаточно. В местах задвижек, стыков труб, на теплообменнике, под кондиционерами и в других критичных узлах мы установили независимую сеть датчиков. Данные от них собираются и поступают в общую систему.
Весь четвертый этаж дата-центра выделен под систему кондиционирования: там находятся теплообменники, насосы, баки. Мы не ставим датчики протечек под каждой единицей охлаждающего оборудования, так как в полу сделана «разуклонка». Если образуется протечка, вода уйдет по сливам в накопительные емкости. Перед каждой сливной воронкой стоят датчики протечек. Иными словами, мониторится не устройство, а зона, откуда может потечь вода.
Так на дашборд выводятся сработавшие датчики протечек.
Давление жидкости. Помимо температуры и влажности, мы отслеживаем давление жидкости в охлаждающем контуре. Поскольку система замкнута, падение давления может означать разгерметизацию – читай, протечку. Резкое падение – это уже серьёзная проблема, предусмотренная в аварийной инструкции.
Мониторинг давления осуществляется в разных точках на всех этажах дата-центра. Показатель нормы для давления слегка плавающий: это страхует систему от ложных срабатываний из-за перепада высот.
Сложности в построении системы мониторинга
На первый взгляд кажется, что пуск системы мониторинга – линейный процесс: установили датчики, объединили их в сеть, усадили людей за пульт и забили в систему пороговые значения. Но в случае с NORD-4 были нюансы: залы заполняются постепенно, мы не знаем заранее, что за оборудование и на каких стойках будет размещено.
Запуская систему мониторинга, мы выставляли пороговые значения, руководствуясь проектным решением. Так, показатель WATER OUT (вода, которая поступает в кондиционеры в залах) должен составлять стабильные 18 Сº. Исходя из этого вычисляем остальные значения и создаем таблицу «идеальных» параметров.
По мере заполнения ЦОДа контрольная панель может начать выдавать ложные предупреждения. Это крайне опасно, так как внимание специалиста рассеивается, и он может пропустить настоящую проблему. Мы называем это «перемониторингом»: на новом оборудовании показатели могут слегка плавать внутри пороговых значений, создавая варнинги.
Поэтому тонкая настройка происходит в процессе работы. Все изменения пороговых значений и параметров мониторинга сначала согласуются с техническим директором и руководителем эксплуатации, и только после этого заносятся в систему.
Пара советов
Оповещения. Чтобы вовремя узнавать о неполадках, настройте разные оповещения в системе мониторинга. У нас предусмотрено три вида автоматических оповещений:
- Звуковое оповещение в центре мониторинга.
- Отображение на экране. За дашбордом круглосуточно следит минимум один инженер.
- SMS- и email-уведомления ответственным специалистам.
В комментариях к прошлым статьям нас спросили, как мы боремся с человеческим фактором: рассеянностью, естественными потребностями и т.д. Ответ прост: мы не экономим на персонале, обучении и тренингах. Каждая дежурная смена, включая ночную, состоит из четырех инженеров. Поэтому если кому-то захочется выпить кофе или выйти в туалет, панель не останется без наблюдения. Как мы отбираем и готовим дежурных инженеров, читайте в этой статье.
По инструкции, как только появляется «красный код», у специалиста есть буквально несколько минут, чтобы всех оповестить и вернуть работоспособность оборудования. О нашей службе техподдержки мы рассказывали в мае.
Дежурная смена за работой.
Мониторинг N+1. Продумайте резервирование системы мониторинга, чтобы исключить утрату контроля над дата-центром. У нас большинство устройств последовательно соединены по протоколу ModBus RS-485, и на этапе проектирования дата-центра мы продумывали, как пойдут трассы системы мониторинга, и прокладывали резервные маршруты.
Маркировка. Еще одна обязательная практика. Маркируйте датчики и составляйте схемы расположения так, чтобы инженеры без труда понимали, где их искать.
Сбор статистики. Собирайте как можно больше данных по оборудованию и системам. Даже если для текущего мониторинга эти данные не нужны, они будут полезны в будущем. Проанализировав данные статистики, можно определить, какие ещё показатели, кроме основных, отличались от нормы перед поломкой. Например, оборудование вибрировало или шумело. Это поможет планировать диагностику с большей точностью, а иногда и предугадать возможную поломку.
На этом всё. В следующей статье серии мы расскажем о мониторинге сетевой инфраструктуры. Ждём ваших вопросов.
Автор: dataline