За время своей работы я часто встречался с проблемами нехватки ресурсов корпоративных ЦОД, которые можно сформулировать, например, следующим образом: «У нас не хватает физического места для размещения оборудования», «У нас не хватает подведенной мощности» и так далее и тому подобное. Решение подобных проблем «в лоб» ведет к очевидному ответу – выключить и вывести из эксплуатации часть ИТ-оборудования, либо произвести замену оборудования на более эффективное по соотношению производительность/потребление/физические размеры.
В большинстве случаев оказывается, что ресурсов на самом деле в избытке, но используются они, мягко скажем, расточительно. Проблема заключается зачастую в банальном раздолбайстве либо развитии корпоративного ЦОДа экспансивно, так сказать по унаследованным принципам. Принимаемые решения не проверяются на предмет эффективного использования имеющихся ресурсов, в организациях нет методики их проверки и, в результате, мы получаем то, что получаем.
Если вы для себя поняли, что так дальше жить нельзя, рекомендую начать с чтения блогов таких компаний как: Крок, Билайн, Data Line. У них можно найти статьи, где они делятся своим опытом в области энергоэффективности. Их методы работают — PUE коммерческих площадок находится в пределах 1,3-1,4 (у кого-то поменьше даже) что при TIER III является отличным результатом. Однако в какой-то момент вы поймете, что у них там своя вечеринка с мегаваттами, резервами и опытным персоналом. И вам на ней не место.
Что же делать простым смертным, у которых ЦОД – это 10 стоек, 200 кВт мощности, всегда не хватает рук и времени?
В идеале, нужен простой для понимания контрольный список, который вы возьмете в руки и пойдете гулять по своей площадке, делая отметки. Желательно чтобы этот документ помогал вам, хотя бы приблизительно, оценить влияние предлагаемого метода на эффективность (у вас ведь нет опыта и best practices). Было бы неплохо, чтобы предлагаемые методы были разделены по этапам жизненного цикла. Собрались вы, например, докупать сервера и СХД, заглянули в соответствующий раздел методички, а там рекомендации по параметрам закупаемого железа.
В общем, не буду томить, есть такой документ, который называется «EU Code of Conduct on Data Centres». Сразу скажу, что я практически ни разу не встречался с людьми, которые руководствуются им в своей деятельности, что меня очень удивляет. Лежит в открытом доступе.
Итак, что это за документ, и почему он будет вам полезен:
- Это сборник лучших практик в области повышения эффективности дата-центров, в написании которого приняли участие эксперты из различных областей.
- Он хорошо структурирован по этапам жизненного цикла ЦОД, что позволит вам легко подготовиться к замене, например ИТ-оборудования.
- Он хорошо структурирован по подсистемам. Поэтому, если у вас есть группа эксплуатации серверов, они могут легко оценить свой вклад.
- Любая практика имеет оценку потенциального влияния (от 1 до 5, 1-небольшое влияние, 5- максимальное). Это позволит вам провести оценку на стадии планирования, исходя из затрат на внедрение и ожидаемой отдачи.
Предлагаю пробежаться по документу, понять, как с ним работать и рассмотреть пару примеров.
Однако сначала небольшое предупреждение. Надежность и энергоэффективность – это два параметра, которые зачастую тянут ваш ЦОД в разные стороны (не всегда, но часто). В качестве примера – повышение температуры в ЦОДе. Приводит к снижению потребления кондиционерами. Но одновременно мы наблюдаем повышение числа оборотов вентиляторов охлаждения в серверах, что приводит к повышению потребления сервером (упс…). И снижает ресурс самих вентиляторов, и когда он закончится, вентиляторы встанут, а за ними встанет и сервер по температуре. Поэтому к любому изменению нужно подходить осторожно, отслеживать его влияние на смежные системы и всегда иметь план отката на первоначальные позиции.
Итак, берем словарик, начинаем читать. Сразу идем в пункт 2.2 на странице 3, где расшифрована цветовая кодировка практик.
Зеленый — подходы, аудиты, мониторинг и т.п. Самые эффективные с точки зрения материальных вложений пункты. Большинство предполагает либо минимальные вложения (5.1.4 Установка панелей-заглушек в шкафы) либо вообще нулевые вложения за счет изменения подходов в эксплуатации (4.3.1. Аудит неиспользуемого оборудования).
Красный — внедрение нового софта. Полная ерунда, типа «смотрите чтобы процессы в фоне не висели и не нагружали ЦП». Можно смело пропускать. Хотя, если у вас сотни приложений…
Желтый – на что обращать внимание при закупке нового ИТ-оборудования.
Голубой – что нужно сделать при ближайшей реконструкции или проведении техобслуживания. Есть примеры так называемого «ретрофита», т.е. усовершенствования существующих устройств. Например, при замене батарей ИБП заменить свинцовые на Li-Ion, что позволит отказаться от системы кондиционирования и освободить часть площади. Или при обслуживании кондиционера установить устройство регулировки скорости вращения.
Белый – опциональные практики, соблюдение которых не требуется для кандидатов.
Здесь необходимо небольшое отступление. Рассматриваемая методичка была создана для операторов, желающих вступить в добровольную программу «The European Code of Conduct for Data Centres». Поэтому в документе повсеместно встречается термин «кандидат», что не должно вас смущать. В «белых» практиках содержатся хорошие рекомендации относительно подходов к эксплуатации и строительству ЦОДа.
Далее прыгаем сразу на страницу 9 к главе №3. Дальнейшее движение по документу следует осуществлять последовательно. Подсистемы описаны в порядке их влияния на энергопотребление ЦОДа (ИТ-оборудование, холод, электроснабжение, прочее).
Попробуем применить и мысленно протестировать практики разных цветов из разных подсистем.
«Зеленая», пункт 4.3.1. Влияние – 5. Рекомендуется провести аудит используемого оборудования, мест его установки и сервисов, которое оно предоставляет. Как бы смешно это не звучало, но во многих организациях я сталкивался с ситуацией, когда на вопрос «а что это за сервер?» все инженеры пожимали плечами. И это в серверных, где 30 серверов, максимум. И это не говоря про сервера, которые крутят сервис, используемый 3-мя людьми в организации. Серьезно, особенно если вы недавно пришли в компанию, посмотрите на парк серверов с этой точки зрения.
Естественным образом выглядит пункт 4.3.2. Влияние – 5. «Выведите неиспользуемое оборудование из эксплуатации и регулярно проводите аудит на предмет незагруженных устройств».
Замечательный пункт 4.3.8. Влияние – 4. «Проведите аудит на предмет требований оборудования к окружающей среде. Пометьте такое оборудования на замену или перенос». Допустим, у вас есть несколько свежих серверов, например под ERP. И несколько постарше, с жесткими требованиями по температуре — не выше 25 градусов. Стоят себе и работают, но они не позволяют вам повысить температуру в машзале. И вот однажды ERP которая крутится на свежих серверах, разрослась и требует более мощного железа. Покупается новый сервер, который заменяет парочку предыдущих. В данном случае методичка рекомендует замененный сервер не на e-bay выкладывать, а поставить на замену древних машин, которые имеют ограничения по температуре. Т.е. фактически вы производите миграцию на новое железо не одного сервиса, а нескольких с выводом из эксплуатации самого старого железа. Хотя апгрейд вы делали ради ERP. В общем, смотрите глубже и дальше.
«Зеленая» пункт 5.1.4 Установка панелей-заглушек в шкафы. А с ним 5.1.7 и 5.1.8. С минимальными затратами вы сможете серьезно уменьшить перемешивание горячего и холодного воздуха и повысить эффективность охлаждения.
Теперь перейдем в раздел, касающийся механических систем (холодоснабжение). Пункт 5.1.2. Влияние – 5. Данный пункт предлагает нам разделить потоки горячего и холодного воздуха путем применения контейнеризации холодного и горячего воздуха. Практика «голубая», т.е. ретрофит. Несмотря на то, что методичка рекомендует модернизацию производить в периоды запланированных простоев, конкретно эти работы можно провести и на работающем ЦОДе, поскольку вы затрагиваете только конструктивы шкафов. Сейчас есть решения по постройке изолирующих коридоров практически без инструментов и без сверловки. И в очередной раз напомню о взаимосвязях. Сделали контейнеризацию – пересмотрите настройки кондиционеров, наверняка можно будет, как минимум, повысить уставки температуры подаваемого воздуха. И сразу же можно сделать заметку на пункты 5.4.2.4 (Влияние – 2) и 5.5.1 (Влияние – 4) Оснастить внутренние блоки плавной регулировкой скорости вращения вентиляторов и компрессоров.
«Желтые» практики практически полностью сосредоточены в подглавах 4.1 и 4.2. Они касаются в основном закупок ИТ-оборудования. Так уж случилось, что инженерные системы имеют срок жизни не меньше 10 лет. И то, что вы имеете сейчас, вы можете только модернизировать (т.е. «голубые» практики). ИТ-оборудование меняется гораздо чаще, есть возможность применить «желтые» практики уже в следующем квартале. В качестве примера приведу следующие рекомендации. «При составлении ТЗ на закупку нового железа обращайте внимание на температурный режим эксплуатации». Таким образом, вы сможете создать себе основу для внедрения методов управления энергопотреблением без ограничений, которые создают ваши сервера, СХД и т.п. «Требуйте наличия встроенных средств мониторинга энергопотребления и температуры на воздухозаборе сервера». Это позволит вам постепенно перейти от оценки ресурсов на основании паспортных данных, к оценке на основании данных в реальном времени. Естественно, всё это потребует изменений подходов к мониторингу и отчетности, которые прописаны в главе 9.
«Красные» практики я не рассматриваю в виду моего пренебрежительного к ним отношения. Буду рад, если в комментариях кто-то сможет продемонстрировать их эффективность.
«Белые» практики являются абсолютным хардкором для корпоративного ЦОДа. Повсеместно встречаются лозунги «Даешь класс A4 ASHRAE!», «Дуй воздух прямо с улицы!», «Используешь ИБП – не мужик!». Это как раз тот случай, когда игры с энергоэффективностью снижают надежность.
Резюме:
- Предложенные практики достаточно просты для понимания и внедрения, не rocket science. Можете начать прямо сейчас.
- В самом начале обратите внимание на «зеленые» методики. Они имеют большое влияние, просты, дешевы и позволят поменять подход к планированию и эксплуатации. Что в большинстве запущенных случаев дает быстрый видимый эффект.
- Естественно, движение должно идти от наиболее влиятельных (5) к наименее (1).
- Составьте план. В результате внедрения «зеленых» методик вы получите полную картину того, что у вас есть сейчас. В том числе и понимание технологий, которые вы используете. Создайте план по модернизации для всех подсистем, которые вы используете, с указанием пунктов из методички. Проведите бюджетную оценку изменений, примените поправочные коэффициенты на основании влияния методик, и вы получите план первоочередных мероприятий.
- Не забывайте про связь систем и отслеживайте взаимное влияние. А для этого начните мониторить всё, до чего руки дотянутся.
И чуть не забыл про кейс из заголовка.
Компания Х обратились с просьбой просчитать бюджет расширения корпоративного ЦОДа на дополнительные площади. Им требовалось поставить 2 высоконагруженные стойки. С их слов, физического места для размещения стоек в действующем машзале не было, запасов по холоду не было, ИБП работали на 85% мощности в пике и их не хватало. Бюджет мы прикинули, получилась та самая куча денег. Пошли смотреть площадку. В процессе осмотра было выявлено следующее:
- 1. В машзале на 40 стоек использовалась раздача воздуха через фальшпол. При этом не было системы изоляции воздуха, в шкафах нашлось множество пустых юнитов не закрытых заглушками. С холодопроизводительностью существующей системы стало более-менее понятно. Одновременно появилось решение проблемы с физическим размещением.
- 2. Посмотрели логи ИБП и увидели, что нагрузка на ИБП растет в ночные часы. По логике, она должная снижаться, либо оставаться плюс-минус такой же. Очень похоже на создание резервных копий, обновление каких-то баз или приложений. Однако выяснилось, что обновление приложений происходит только в выходные дни, базы живут сами по себе, а резервное копирование идет в реальном времени на другую площадку вот уже как два года. В теории. На практике оказалось, что какие-то нехорошие люди не вывели из эксплуатации часть инфраструктуры, ответственной за резервирование. Там же на месте посчитали, что выключив ненужное железо получим необходимые киловатты.
- 3. Задали вопрос: «Аудит заказывать будете, или сами всё поняли?». «Поняли-поняли», — ответили они, и пропали на продолжительное время.
После нашей беседы, заказчик силами 2-х своих инженеров за пару недель раскидал бардак, который копился 2 года. Были заказаны и изготовлены конструкции для изоляции холодных коридоров, заглушки в шкафы. Были физически выведены из эксплуатации резервные железки, в процессе они нашли ещё несколько неиспользуемых серверов. Прибрали провода под фальшполом. В результате получили свои необходимые киловатты и юниты даже с запасом. Наши затраты составили 3 131 руб. на бензин и рабочее время. Но мы их выставлять заказчику не стали, потому что это некультурно.
А стойки свои высоконагруженные они потом так и не поставили.
Автор: ksopt