Год назад мировые дата-центры потребляли 2% всей генерируемой на планете электроэнергии. По прогнозам аналитиков, эта цифра вырастет до 5% к 2020 году. При этом примерно половина всей этой энергии расходуется на охлаждение. Эти затраты и призваны сократить системы ИИ.
Сегодня поговорим о последних разработках в этой области.
/ фото The National Archives (UK) CC
Проект Google
В 2016 году DeepMind и Google разработали систему искусственного интеллекта, которая мониторила отдельные компоненты ЦОД. Она давала администраторам в дата-центре рекомендации о том, как оптимизировать энергопотребление серверов. Решение позволило сократить энергозатраты на работу систем охлаждения на 40% и снизить коэффициент PUE на 15%.
По словам операторов ЦОД, подсказки машинных алгоритмов были полезны в работе, но на их обработку уходило слишком много времени. Поэтому Дэн Фюнффингер (Dan Fuenffinger), один из инженеров Google, предложил полностью передать интеллектуальным решениям управление системами кондиционирования. Это должно было разгрузить операторов дата-центра, так как тем пришлось бы проводить только тонкую настройку и контролировать весь процесс.
Последующие два года компания совершенствовала свою систему ИИ, и теперь она полноценно управляет охлаждением серверных залов. Например, машинный алгоритм «догадался», что зимой холодный воздух сильнее охлаждает воду в чиллерах, и воспользовался этим, чтобы оптимизировать расход электроэнергии. Это сократило энергозатраты еще на 30%.
В Google считают, что их разработка и ее аналоги в дальнейшем помогут владельцам ЦОД снизить расходы на системы охлаждения как минимум в два раза и снизить выбросы CO2 в атмосферу.
Как это работает
Всю систему охлаждения в дата-центре компании мониторят тысячи физических датчиков. Данные с них поступают на вход системы ИИ, развернутой в облаке. Это нейросеть из пяти скрытых слоев с 50 нейронами в каждом.
Она работает с 19 различными параметрами, среди которых числится общая нагрузка на серверы, количество работающих водяных помп, влажность воздуха на улице и даже скорость ветра. Каждые пять минут система считывает показания датчиков (это приблизительно 184 тыс. сэмплов — для обучения сети нужны были 70% из них, а оставшиеся 30% использовали для перекрёстной проверки) и использует их для оптимизации значения PUE.
Она строит список прогнозов, как то или иное изменение в системе повлияет на энергопотребление дата-центра и температуру в машинном зале. Например, изменение температуры «холодного» коридора может вызвать колебания нагрузки на чиллеры, теплообменники и помпы, что, как результат, приведет к нелинейным изменениям в производительности оборудования.
Из составленного списка выбираются наиболее эффективные действия, которые сильнее других снизят энергопотребление и не приведут к сбоям в работе ЦОД. Далее, эти инструкции направляются обратно в дата-центр, где локальная система управления еще раз проверяет, соответствуют ли они требованиям безопасности (и их реализация не приведет к непоправимым последствиям).
Поскольку на системы ИИ переложили часть ответственности за бесперебойную работу сервисов вроде Google Search, Gmail и YouTube, разработчики предусмотрели ряд защитных мер. Среди них числятся алгоритмы расчета показателя неопределенности. Для каждого из миллиардов возможных действий система ИИ проводит оценку достоверности и сразу отсеивает те из них, у которых этот показатель получился низким (то есть с высокой вероятностью сбоя).
Другим методом защиты стала двухуровневая верификация. Оптимальные действия, рассчитанные алгоритмами МО, сравниваются с набором политик безопасности, прописанным операторами ЦОД. Только если все в порядке, в работу систем кондиционирования вносятся изменения.
При этом операторы всегда готовы отключить «автоматический» режим и взять управление на себя.
Похожие разработки
Компания Google не единственная, кто разрабатывает решения на базе машинного обучения для управления системами охлаждения в ЦОД. Например, компания Litbit работает над технологией Dac для мониторинга потребляемых вычислительных ресурсов и электроэнергии.
/ фото reynermedia CC
Чтобы следить за состоянием оборудования Dac использует IoT-сенсоры. Система может «слышать» ультразвуковые частоты и «ощущать» аномальные вибрации пола. Анализируя эти данные, Dac определяет, все ли оборудование работает правильно. В случае возникновения неполадок, система оповещает администраторов, формирует тикет в техподдержку и даже самостоятельно отключает «железо» (в критической ситуации).
Похожее решение создает Nlyte Software, которая объединилась с IoT-командой IBM Watson. Их система собирает данные о температуре, влажности, потреблении электричества, загруженности оборудования в дата-центре и дает инженерам советы по оптимизации рабочих процессов. Решение работает как с облачной, так и on-premise инфраструктурой.
Внедрение систем ИИ в дата-центрах позволит выйти за рамки привычных DCIM-решений (программных продуктов для мониторинга ЦОД). Среди экспертов ИТ-индустрии есть мнение, что в скором времени большинство процессов, протекающих в ЦОД, будет автоматизировано. В результате администраторы в дата-центрах смогут сконцентрироваться на других, более важных задачах, влияющих на рост и развитие компаний.
P.S. Материалы по теме из Первого блога о корпоративном IaaS:
- Почему хороший IaaS-провайдер не должен иметь собственный ЦОД
- Как разместить ИТ-инфраструктуру в облаке IaaS-провайдера и не пожалеть об этом
- Наш unboxing: блейд-сервер Cisco UCS B480 M5
Автор: it_man