Практически все аварии в правильно спланированных дата-центрах предсказуемы и могут быть выявлены на стадии «до аварии». Но как заранее понять куда «подстелить соломки»? Под катом наш опыт повышения надежности дата-центра на ул. Пришвина (e-Style Telecom).
Инфраструктура дата-центра должна обслуживаться и проверяться, а отключения, конечно же, при этом не допустимы. Как этого достичь?
Как устранить потенциальную проблему еще до того, как она сможет влиять на работоспособность системы?
Реальная надежность дата-центра в нашей стране определяется всего тремя факторами:
1. степень пофигизма и глупости проектировщиков-строителей ЦОДов;
2. внешними рисками по компании, помещению и подключениям;
3. степенью беспечности и разгильдяйства сотрудников дата-центра.
Благодаря болезненному и дорогому опыту, основанному на своих и чужих ошибках, мы смогли обнаружить значительное количество недочетов и глупости на этапах планирования, проектирования и оснащения дата-центра. И, что самое главное, вовремя их устранить.
По рискам компании, помещению и подключениям все получилось – здание и трансформаторные строилось «для себя», все в собственности, а наша компания в одном из крупнейших IT холдингов – R-Style / e-Style.
Осталось только обеспечить грамотное обслуживание и эксплуатацию… легко сказать! Как? Наши шаги на этом пути:
Первый шаг, базовый: две параллельные системы мониторинга, общий интерфейс SNMP, изолированная сеть управления. Абсолютно все оборудование дата-центра e-Style Telecom было оснащено /доукомплектовано средствами самодиагностики и мониторинга. Информации уже хватало, чтобы понять текущее состояние систем.
Второй — дополнительно добавлены сотни датчиков температуры (в разных точках аппаратной, в разных зонах). Стало намного информативней, распределение мощностей и температур, изменения при переключении блоков кондиционеров. На этом этапе мы смогли уже не в слепую «по проекту» размещать новое оборудование, а видеть и сравнивать реальную тепловую картину и планировать загрузку аппаратной.
Третий – регулярно проводить обследование инфраструктуры и серверного оборудования тепловизором. Когда нашли этот метод – очень обрадовались. Тепловизор позволяет оперативно получить много информации для анализа.
Аккумуляторы, клемы, соединения, диски в СХД, провода, фильтры, вентиляторы, воздушные потоки, переток воздуха между коридорами – теперь видно заранее. После каждого обхода, как правило, что-то подозрительное выявляется и устраняется. Сегодня, например, обнаружили повешенную на 7 градусов температуру кабеля в одном шкафу – клиент запитал 5кВт нагрузки через один кабель, игнорируя другие розетки в PDU.
Снимок холодного коридора, в котором сразу видны шкафы без оборудования в нижней части, через которые идет переток воздуха из горячих коридоров.
Инженер в холодном коридоре:
Снимок блейда IBM, с равномерно нагруженными лезвиями:
Снимок аккумуляторного шкафа во время тестирования батарей:
Кабели электропитания в шкафах:
Избыточное выделение тепла очень часто является хорошим предсказанием возможных проблем, главное вовремя увидеть. Мы сделали, что смогли, чтобы знать заранее куда «подстелить соломки».
Автор: kapushin
, Повышаем надежность дата-центра, тепловизор – сила! (фото внутри)