Мы в Acronis защищаем данные более 5 миллионов пользователей и 500 000 компаний в 150 странах мира. Это десятки и сотни петабайт данных, которые хранятся в наших дата-центрах, расположенных в Токио и Сент-Луисе, во Франкфурте на Майне и Сиднее, в Москве и Лондоне. В общей сложности наши данные размещаются в 14-и дата-центрах, расположенных в разных странах, разных часовых поясах и в разных частях света. Всем этим «хозяйством» каждый день необходимо управлять. И нужно признаться, что дело это крайне интересное, и поэтому мы решили поделиться с вами нашим опытом в данном вопросе, и подготовили небольшой гайд для начинающего менеджера дата-центра.
Как начинающему руководителю отдела построить свой рабочий день?
Рабочий день руководителя отдела должен начинаться с проверки состояния работы его дата-центра. Если у вас под управлением только один сервер в одном дата-центре, то это не должно составить больших проблем. Но если речь идет о нескольких дата-центрах в нескольких странах мира, то это будет немного сложнее. Мы в Acronis используем автоматические системы и дашборды, которые позволяют в режиме реального времени отслеживать происходящее в каждом из дата-центров, оценивать статистику по их заполнению, и на основании этого по необходимости адаптировать свой список задач на день. В первую очередь необходимо проверять текущее состояние сети, состояние серверного оборудования и его загрузку. Еще одним, очень важным параметром является темп роста загрузки серверов. Зная его, можно избежать такой часто встречающейся проблемы, как падение серверов под нагрузкой, и правильно спланировать ввод в эксплуатацию нового оборудования. Вообще капасити планнинг при наших темпах ростах становится весьма нетривиальной задачей, требующей креативного подхода и ежедневого внимания.
После того, как вы убедились, что с вашим дата-центром все в порядке и нет никаких срочных задач, то можно переходить к «административным вопросам», заняться разбором накопившейся электронной почты и сделать важные телефонные звонки. Нельзя сказать, что утро — это самое идеальное время для этого, но для хорошего менеджера важно всегда быть на связи, оперативно отвечать на просьбы и запросы своих коллег, поддерживать связь с поставщиками и следить за последними новостями из профессиональной области.
Когда с «административными задачами» будет покончено, то самое время переходить к выполнению сформированного в начале дня списка задач. Планировать апдейты, заказывать новое оборудование, формировать запросы для управляющих компаний дата-центров и т.д. Обычно, за выполнением задач из списка проходит весь день, но если вы работаете в глобальной компании и/или у вас есть сервера в других часовых поясах, например, в Северной Америке, то после обеда, когда Западное полушарие просыпается, вы снова столкнетесь с «административными задачами». Вы снова отвечаете на почту и телефонные звонки, синхронизируете свои действия с коллегами из других стран, и за этим, как правило, проходит вторая половина дня.
Иногда, особенно тогда, когда у вас есть сотрудники, находящиеся в минус десяти часах от вас, вторая половина дня может незаметно перейти в первую дня следующего. А что делать, внимание сотрудникам, тем более удаленным, нужно всегда, иначе тим спирит может слабеть.
Примерно таковы будни руководителя дата-центра: проверка оборудования, планирование капасити, разбор почты и телефонные звонки, работа над текущими задачами, и снова разбор почты и телефонные звонки.
И грянул гром!
Но не всегда все идет по описанному выше плану, иногда случаются и различного рода неприятные ситуации, вроде падения серверов, DDOS атак и прочие прелести современного технологичного мира. Если в вашей компании хорошо продуманная инфраструктура, как минимум с одним резервным критическим элементом, как у нас в Acronis, и вы используете системы резервного копирования и аварийного восстановления, то, скорее всего, это поможет вам избежать фатальных проблем и достаточно быстро выбраться из сложившихся трудностей. Если же продуманная инфраструктура и системы резервного копирования — это не про вас, то «безумству храбрых поем мы песню!», придется обзавестись парой седых волос.
Прежде всего, необходимо попробовать «оживить» сервер удаленно, IPMI в помощь. Если восстановить работоспособность сервера удаленно не получается, то вам ничего не остается, как написать запрос в техническую поддержку дата-центра, в котором максимально подробно и максимально простым языком объяснить, что именно случилось. Часто бывает, что техническая поддержка реагирует на такие обращения через час или два, поэтому, если этот дата-центр находится недалеко от вас и восстановление его работоспособности жизненно необходимо, то вам следует туда отправиться самостоятельно и самому решить все проблемы на месте (если заранее не подумали о хорошем саппорт контракте).
Если же дата-центр находится в другой области или другой стране, и оперативно добраться до него самостоятельно не представляется возможным, то вы можете последовать нашему примеру, и заключить контракт с внешними специалистами, которые станут вашими удаленными глазами и руками. Размещая свое оборудование в новом дата-центре в другой области или стране, мы всегда стараемся найти внешнего специалиста, который в случае какой-то нештатной ситуации сможет оперативно добраться до нужного дата-центра и устранить появившуюся проблему. Таких людей мы ищем среди руководителей небольших местных ИТ-компаний, которые достаточно технически подкованы и могут самостоятельно диагностировать и решать подобные проблемы.
Когда в дата-центре расположена критически важная для вашей компании и вашего бизнеса инфраструктура, рассчитывать на техническую поддержку дата-центра не строит, как я отмечал выше, ждать их ответа приходится слишком долго и при этом бывают случаи, когда неправильно поняв, что именно от них требовалось, они делали только хуже. Поэтому мы рекомендуем найти таких внешних специалистов, заключить с ними все необходимые соглашения (контракт, NDA и т.д.), и держать с ними связь. Воспринимать их следует как страховку, вовсе не факт, что их услуги вам понадобятся. Однако если такая ситуация наступит, они сэкономят вам время и нервы.
Мы сталкивались с ситуациями, когда было необходимо оперативно заменить жесткий диск в сервере или произвести инсталляцию нового оборудования. Стандартное время выполнения таких запросов дата-центром как правило часы или даже дни, а с помощью внешнего специалиста мы осуществили эти действия в течение одного часа. А это очень важно для нас, ведь когда твоими услугами пользуются несколько миллионов человек, время является решающим фактором. Даже минуты идут на счет.
Помимо времени, которое всегда хочется ускорить, на глобальном уровне сильно помогает стандартизация и унификация используемого оборудования и софта. Звучит просто и легко, но по факту в ситуациях, когда компания быстро растет и развивается, активно участвует в сделках M&A, то поддержка унифицированной инфраструктуры — задача тяжелая. Но если задача выполняется, то общая управляемость глобальными дата-центрами становится гораздо беспроблемней.
И, конечно, всегда нужно помнить о триаде, которая позволяет спать ночами – капасити планнинг, реданданси и бэкап. С ними хорошо, без них плохо. Коллектив, а коллектив у нас в Acronis Data Center Operations отличный, проникается этим сразу, и у кого-то элементы триады даже переходят в никнеймы/прозвища. Есть, например, Владимир по прозвищу Redundancy. Вся сетевая инфраструктура, которую строит Владимир в наших дата-центрах, полностью соответствует прозвищу)
Как правильно работать с поставщиками?
В задачи руководителя входит не только поддержание дата-центра в рабочем состоянии, но и участие в закупках различного оборудования и услуг для его функционирования. На профильных ресурсах почти нет информации, о том, как правильно находить поставщиков, вести с ними переговоры и заключать контракты – это деликатная информация, часто отличающаяся в зависимости от региона, поэтому не лишнем будет немного рассказать и об этом.
Основываясь на своем опыте, могу сказать, что самое важное в закупках — это построение хороших взаимоотношений с поставщиками. Если вы много и часто покупаете, то всегда можете рассчитывать на более выгодные условия: по цене, по способу оплаты, доставке и т.д., нежели в ситуации, когда вы просто придете «с улицы». Так, например, один из наших постоянных поставщиков предоставляет нам на тестирование последние новинки hardware, которые мы можем проверить в требуемых нам условиях и под требуемыми нам нагрузками. Ведь часто бывают случаи, когда одно оборудование не совсем корректно работает в паре с другим, а, покупая жесткие диски сотнями и тысячами, стоимостью много-много долларов, мы рассчитываем, что они будут хорошо работать на наших серверах и с нашим софтом
И поскольку случаи бывают разные, то нельзя не ценить такие отношения, когда под «честное слово» поставщик чуть ли не овернайтом может отправить сервер на другой конец света тогда, когда это очень нужно (реальный кейс: из Лондона в Токио).
Еще одним хорошим способом заключить выгодный контракт является возможность открыто обозначить собственные потребности в оборудовании и подтвердить их. Помните, что поставщики всегда ищут возможности на долгосрочное сотрудничество, так они могут грамотнее управлять собственными товарными запасами, не «замораживая» деньги в товаре, эффективно формировать свои финансовые потоки и нарабатывать базу постоянных клиентов. Поэтому, если вы сможете достаточно точно обозначить свои потребности в оборудовании и услугах на долгосрочную перспективу, вы смело сможете рассчитывать на хорошую скидку, которая в некоторых случаях будет существенно выше 50% от розничной цены.
Личный контакт и долгосрочный контракт не единственный способ заключить выгодный контракт, есть еще одна, третья, возможность для получения скидки. На Западе есть такое «волшебное словосочетание» — «target price». Что это такое? Любой производитель напрямую заключает контракты только с крупными дистрибьюторами, которые уже доводят товар до рынка, где мы с вами его и покупаем. Ни для кого не станет секретом, что дистрибьютор приобретает товар у производителя по гораздо более низкой цене, чем продает его на рынке, а разница между ценой покупки и ценой продажи формирует его доход. Узнать за какую точную цену дистрибьютор покупает товар у производителя не всегда можно, но, проведя простой анализ рынка, можно определить среднюю стоимость оборудования и услуги, и исходя из этого наметить свою «target price». Может ли она быть ниже чем в среднем по рынку? Конечно, но требуя цену, которая на 70-80% ниже средней по рынку, вы можете попросту обидеть поставщика и не добиться вообще ничего! Продаст ли дистрибьютор по вашей «target price» вам товар? Не обязательно, но вы всегда должны держать ее в голове, когда идете на переговоры. На переговорах у вас, скорее всего, будет идти торг, по итогам которого вы и сможете заключить хороший контракт. Практика показывает, что это особенно хорошо работает при пролонгации истекающих контрактов, когда удается пересматривать цены особенно эффективно, достигая свой «target price».
Пользуясь тремя этими приемами, вы всегда сможете заключать выгодные контракты и строить со своими поставщиками долгосрочное сотрудничество. Вы можете подумать, что подобными приемами могут пользоваться только большие компании, но это не совсем верно. Даже небольшая, начинающая компания, руководствуясь написанными выше рекомендациями, сможет заключать хорошие контракты. Да, возможно речь будет идти не о скидках в 40-50%, но получить скидку в 20% и заложить основу хорошим долгосрочным отношениям она сможет.
Рационализация и оптимизация!
Последняя тема по счету, но не по важности, — это вопрос рационализаторства в ИТ. В период кризиса, компании чаще всего начинают сокращение расходов с ИТ, и в такие моменты спрос на рациональное использование ИТ-инфраструктуры резко возрастает. И если руководитель дата-центра самостоятельно выступит с рационализаторским предложением перед руководством компании, это будет вам только в плюс.
Для начала давайте разберемся, что же такое рациональное использование ИТ-инфраструктуры. Как я отмечал выше, любая инфраструктура должна иметь «избыточные» мощности, такие, чтобы покрывать постоянно возрастающие запросы в мощности. Но этот «избыток» будет необходим в какой-то будущий момент времени, и когда именно он настанет, не всегда известно. Некоторые компании идут по самому простому пути, покупают «здесь и сейчас» самое топовое «железо», в надежде, что в ближайшие год-два они смогут использовать его на полную. Проходит год, выходят новые, более совершенные «железки», купленное оборудование морально устаревает, но до его полной загрузки еще далеко. Проходит второй год, оборудование успевает устареть уже и физически, но загрузка опять не полная. Выходит, что за эти два года компания потратила лишние деньги на оборудование и поддержание его в рабочем состоянии, и в итоге не смогла использовать его по «полной программе». Дополнительной проблемой могло стать и то, что, купив сразу самый топ один раз и «с запасом», компания могла не получить скидку, рассказав о своих потребностях на перспективу, о которой мы говорили ранее. Как рационализировать данную ситуацию? Прежде всего, ежедневно следите за потребностями в новых мощностях и стройте графики. Да-да, тот самый капасити планнинг, не один раз уже упоминавшийся. Он верен, правдив и актуален для всего, что касается дата-центров: каналы связи, утилизация всех ресурсов, всего оборудования согласно его ролям и функциям, пропускная способность файрволлов (а вдруг завтра ваша компания решит сертифицироваться по PCI DSS, и у вас неожиданно попросят включить IDS/IPS, что снизит пропускную способность файрволла в 3 раза?). Очень редко потребность в мощностях в течении короткого промежутка времени возрастает в два раза и удерживается на этом уровне, как правило она растет постепенно. Составив график, посчитав, какое именно оборудование потребуется сейчас, как быстро его можно закупить и установить, и когда нужно будет вводить в эксплуатацию новое, можно идти к поставщикам оборудования, беседовать с ними и заключать долгосрочные контракты, руководствуясь моими рекомендациями выше.
Бывает и другая ситуация, когда для разных задач компания использует схожее, во многом дублирующее друг друга оборудование. С одной стороны, каких-то особенно «избыточных мощностей» не создается, с другой стороны, это оборудование занимает место в стойках и расходует электроэнергию. Именно в этой ситуации мы и оказались не так давно. Два главных продукта Acronis — это Acronis Backup Cloud и Acronis Disaster Recovery. Для оказания услуг в рамках этих продуктов используются разные, отличающиеся по своим спецификациям наборы «железа». Несмотря на это, было понимание, что здесь есть место для оптимизации, и мы решили, что необходимо сопоставить характеристики и спецификации этих наборов железа в каждом из наших американских дата-центров. На основе этого анализа мы смогли выделить четыре основных спецификации, которые могут использоваться и которые отвечают главным требованиям: максимальные ресурсы на один рэк юнит и минимально возможное энергопотребление. Так как 36-и месячный цикл амортизации имеющегося оборудования подходил к своему концу, мы решили централизованно закупить оборудование, исходя именно из полученных спецификаций, и обновить свои дата-центры в США к концу года. По нашим расчетам, количество занимаемых мест в стойках должно уменьшится примерно в 2 раза (ура, OPEX на колокейшн снижаем!), а объем ресурсов – сторидж, оперативная память процессорные ядра – значительно увеличивается.
Что хочется сказать в завершении этого поста. Управление дата-центром очень ответственная и интересная задача, особенно, когда понимаешь, что за петабайтами данных скрываются важные документы, фотографии из семейных архивов, наброски стихов или что-то вроде этого. Что файлы, которые мы храним, являются элементами чьей-то цифровой личности. В таких международных компаниях, как Acronis, когда дата-центры разбросаны по всему миру, управление ИТ-инфраструктурой — это еще и серьезный профессиональный вызов. Утром ты работаешь с Токио, в обед — со Страсбургом, а вечером — с Далласом. Каждый из дата-центров обладает своими особенностями, мы уже рассказывали про это в одном из предыдущих постов, и за один рабочий день ты совершаешь своего рода «путешествие вокруг света», знакомясь с «культурами» разных стран и народов. Само собой в такой работе есть и своя специфика: рабочий день может начаться в 6.00 и продлиться до 22.00, попутно испытав ваши нервы и смекалку на прочность, но такие челленджи делают из нас настоящих профессионалов своего дела.
https://www.linkedin.com/pulse/senior-linux-system-administrator-wanted-alexander-ragel?trk=prof-post
http://www.acronis.com/ru-ru/company/employment/vacancy/
Автор: Acronis