О животрепещущем в эксплуатации дата-центра

в 7:13, , рубрики: dataline, Блог компании DataLine, дата-центры, ит-инфраструктура, хостинг, хранение данных, ЦОДы, эксплуатация цод

У нас прошла ровно половина курса “Управление инженерной инфраструктурой дата-центра”. Так получалось, что определенные темы звучали почти на каждом семинаре, – не важно, рассказывали мы нашим слушателям про подготовку дата-центра к лету, работу с подрядчиками или выстраивание собственной службой эксплуатации. Мы решили собрать небольшой гайд по самым животрепещущим темами и рекомендациям из нашего опыта.

О животрепещущем в эксплуатации дата-центра - 1

Маркировка оборудования

Эта тема – рекордсмен по упоминаниям в наших семинарах. О маркировке нужно знать следующее:

  1. Система маркировки продумывается и согласовывается со службой эксплуатации еще на этапе проектирования дата-центра или серверной. Если у проектировщиков и строителей свой принцип маркировки, непонятный службе эксплуатации, то инженерам придется расшифровать все это наследие или промаркировать все заново в понятной для них системе координат.
  2. Все элементы всех систем должны быть промаркированы. Свой номер должен быть не только у кондиционера, чиллера, ИБП, но и у каждого автомата, вентиля, видеокамеры. Часто без опознавательных знаков остаются кабельные трассы, кроссировки. Особое внимание обращайте на “времянки“ – они тоже должны быть промаркированы.
  3. Принцип маркировки должен быть прозрачен и понятен каждому инженеру. Например, первая цифра в шифре может обозначать дата-центр, вторая – зал, третья – ряд, четвертая – номер стойки. Тогда получается, что стойка 5H3C030 находится в дата-центре 5, в машинном зале H3, в ряду C под номером 030.

    Для распределительных щитов принцип может быть следующим: тип щита, зал, луч, номер щита. Тогда инженеру будет понятно, что ЩР2.2.1 – это распределительный щит номер 1, запитанный от второго луча, во втором зале.

  4. Маркировка должна быть заметной и читаемой, чтобы инженеру легко было опознать оборудование. Для бОльшей наглядности используйте цвет. У нас, например, “цветовая дифференциация штанов” используется для маркировки лучей питания и труб системы холодоснабжения.
  5. Маркировка должна быть актуальной. Если оборудование переезжает в другой зал, меняется схема расположения, не забудьте отразить все это в маркировке.

О животрепещущем в эксплуатации дата-центра - 2
Маркировка трубопроводов водяного контура холодоснабжения NORD-4. На каждой из труб обозначен номер, направление подачи и температура воды (теплая или холодная).

Мониторинг

Дата-центр или серверную любых размеров сложно эксплуатировать и обслуживать без системы мониторинга. Нет мониторинга – нет информации, а значит дата-центром или серверной придется управлять вслепую.

Наша рекомендация по джентльменскому набору для мониторинга следующие. Отслеживайте:

  1. Состояние инженерного оборудования (включено, выключено, есть ли ошибки): вводы от города, ДГУ, ИБП, уровень заряда АКБ, время автономной работы на ИБП, уровень топлива в ДГУ.
  2. Показатели, которые фигурируют в вашем SLA: температуру, влажность в кондиционерах, напряжение и токи для ИБП.

Когда программа минимум выполнена, можно дополнительно добавить:

  • автономные датчики протечки под элементами трубопроводов;
  • автономные температурные датчики в машинных залах;
  • анализаторы тока в распределительных щитах;
  • пирометры в трансформаторных подстанциях.

На 80-м lvl мониторинга уже отслеживается работа элементов внутри оборудования. Например: с какой скоростью крутится вентилятор внешнего блока, какое давление в фреоновой системе или на сколько процентов сейчас загружен компрессор в чиллере. В дальнейшем это поможет понять, есть ли резерв у оборудования (не работает ли оно на 100% от своей мощности), отследить потенциальную проблему и проанализировать работу систем в разных условиях.

Большое количество отслеживаемых параметров – еще не показатель качества работы мониторинга. Все должно быть еще и правильно настроено. Вот основные заветы:

  1. Устанавливайте разное время опроса для разных систем. Для кондиционирования достаточно минуты, а для энергоснабжения минута – слишком редко. За это время может отвалиться луч, не сработать переключение на АКБ, не завестись ДГУ. Поэтому данные с оборудования энергоснабжения снимаем настолько часто, насколько это возможно. Мы, например, получаем показания каждую секунду.
  2. Визуализируйте основные показатели мониторинга на экранах, чтобы они всегда были на виду. Из схем и графиков легче извлекать информацию, чем из таблиц с цифрами. Но не перегружайте экран, иначе потеряется наглядность.
  3. Прописывайте критические значения, по достижении которых будут срабатывать оповещения. Лучше предусмотреть два уровня оповещения – предупреждения (warning) и критические ошибки (alarm).
  4. Следите за актуальностью данных. На экране для оповещений не должны висеть “просроченные” алармы. Такая ситуация может возникнуть, когда в системе мониторинга срабатывает предупреждение об аварии. После того, как инцидент по аварии заведен, не забывайте изменить статус аварии на “ведутся работы”. Так новый аларм не затеряется среди старых. При необходимости можно настроить почтовые и смс-оповещения для предупреждений и алармов.

О животрепещущем в эксплуатации дата-центра - 3
Принципиальная схема дата-центра NORD-3 в системе мониторинга позволяет быстро оценить состояние энергоцентра, температуры в холодных коридорах машинного зала.

О животрепещущем в эксплуатации дата-центра - 4
Дежурные инженеры следят за работой NORD-3 в центре управления и мониторинга.

Это совсем опционально, но так как мы коммерческий дата-центр, то для своих клиентов мы настроили трансляцию всех основных показателей в Личный кабинет и мобильное приложение DL Monitor.

Сбор статистики

Все параметры нужно не только наблюдать в режиме реального времени, но и собирать по ним статистику. В будущем это поможет лучше понять, как ведет себя оборудование в течение жизненного цикла, как часто необходим ремонт, есть ли запас по мощности. Это поможет спланировать периодичность техобслуживания, оценить необходимое количество ЗИП, сформировать бюджет на закупку и обслуживание оборудования.

Как это работает? Например, у нас есть долгосрочная статистика по кондиционированию и информация о метеоусловиях (на каждой нашей площадке работает метеостанция). Мы можем проследить, как работала система охлаждения прошлым летом в +32 °С. Если ожидается жаркое лето, то мы сможем оценить, есть ли у системы холодоснабжения запас по мощности или нужно как-то ее усиливать. Также из истории поломок и ремонтов мы можем спрогнозировать, какие запасные детали скорее всего понадобятся.

Для ведения такой статистики не нужны специализированные программы. Единственный совет: удобнее работать с системой мониторинга, которая умеет строить графики. Там, где информация не подразумевает отображения в виде графиков (например, содержание инцидентов, ремонтов, аварий и ТО), можно занести данные в обычный Excel.

Вот как может выглядеть сводная таблица для ДГУ. Проставьте активные ссылки на информацию по договору, гарантийному обслуживанию, графику ТО, ремонтам, тестовым запускам и инструкциям, и вся информация по конкретному ДГУ всегда будет под рукой.

О животрепещущем в эксплуатации дата-центра - 5

ЗИП и расходники

ЗИП и расходники всегда должны быть под рукой. Если есть возможность хранить их рядом с серверной, то это идеальный вариант. Если с местом под склад туго, то можно поручить подрядчику хранение и предоставление ЗИП по запросу.

Что нужно иметь про запас из ЗИП и расходников для срочных ремонтов:

  • для фреоновых кондиционеров – масло и фреон, вентиляторы для внешних блоков (да, у нас он расходник, так как их более 1000);
  • для энергоснабжения – автоматы, плавкие вставки, кабели разного типа;
  • для мониторинга – датчики;
  • для систем безопасности – несколько комплектов СКУД (контроллер, считыватель, магнитный замок).
  • для телеком-инфраструктуры – свитчи, линейные карты, шасси, маршрутизаторы.

Доступными должны быть и долгоедующие запасные части (компрессоры, контроллеры, вводные автоматы ГРЩ), чтобы дата-центр не оставался без необходимого резерва.

О животрепещущем в эксплуатации дата-центра - 6
Склад ЗИП для системы кондиционирования.

Установка оборудования в стойки

Про правильную установку оборудования у нас было отдельное занятие, но про частые ошибки мы вспоминаем почти на каждом семинаре. Почему? Все просто. Неправильно установленный сервер в стойке может вызвать локальные проблемы даже в отлично спроектированном дата-центре с грамотной службой эксплуатации.

Вот основные ошибки:

  1. ИТ-оборудование с двумя блоками питания подключено к одному PDU.
  2. Оборудование с одним блоком питания подключено без АВР.
  3. Оборудование подключено в соседние стойки.
  4. Перегруженные секции PDU.
  5. Оборудование установлено “лицом” в горячий коридор.
  6. Нет заглушек, которые препятствуют паразитному теплообмену, в свободных юнитах.

О животрепещущем в эксплуатации дата-центра - 7
Правильная схема подключения серверов с одним и двумя блоками питания.

На этом завершаем наш хит-парад животрепещущих тем для инженера эксплуатации. Делитесь в комментариях своими наблюдениями, задавайте вопросы. На ближайшем семинаре будем рассказывать, как тестировать инженерные системы дата-центра и как выстроить систему мониторинга.

Еще статьи про устройство и эксплуатацию дата-центров:

» Как создавалась система холодоснабжения дата-центра NORD-4
» Ошибки в проекте дата-центра, которые вы ощутите только на этапе эксплуатации
» Путь электричества в дата-центре
» Экскурсия по самом большому дата-центру в России

Автор: DataLine

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js