В топике — основные действия по обеспечению непрерывности бизнеса, которые дают базовый результат. Эти действия помогут избежать катастрофы, выполнить аварийное восстановление и выйти из ситуации с минимальными потерями.
Напоминаю, руководство внедрением — задача очень ценимая руководством, и, почти всегда в России, ведущая к карьерному росту.
Предыдущий пост был про теорию непрерывности деятельности собственной компании. Тема долгая. От того момента первых идей до проведения учений по планам аварийного восстановления может пройти много месяцев. Есть вещи, с которых стоит начать для получения промежуточного результата. Итак, действия:
1. Сформируйте аварийный комитет
Это группа руководителей от разных направлений, которые первыми начинают действовать при возникновении чрезвычайной ситуации – в любое время дня и ночи. Это должны быть люди, давно работающие в компании и хорошо понимающие, что требуется сотрудникам для выполнения их повседневных задач.
При этом надо понимать, что часть аварий, способных остановить ваш бизнес, может быть весьма масштабна. Следовательно, чем ближе члены аварийного комитета живут к месту работы, тем лучше. Также надо позаботиться о наличии у них нескольких видов коммуникаций. Только мобильный номер – серьезная точка отказа. Распечатайте хотя бы часть контактов всех членов аварийного комитета на карточке формата визитки, чтобы она всегда была с собой у каждого.
Если у вас достаточно большая компания, помимо аварийного комитета нужно сформировать команды аварийного восстановления по каждому направлению деятельности.
2. Пропишите процедуру запуска плана аварийного восстановления
Не каждая авария требует этого. Ключевой момент – привела ли она к тому, что восстановить работу штатными средствами за какое-то заранее определенное время невозможно. Период восстановления может быть от нескольких часов до нескольких дней, в зависимости от отрасли, размера компании и других факторов. Установите его заранее, потому что потом будет поздно.
3. Определите процедуры для коммуникаций при аварии
Один из самых простых и эффективных организационных методов называется call tree. У каждого потенциального члена команды аварийного восстановления есть ламинированная карточка с контактами нескольких коллег, которых он обязан оповестить, когда узнает об аварии. Один звонит троим, каждый из них еще троим, и в итоге все заинтересованные лица оказываются в курсе случившегося очень быстро. Гораздо эффективнее чем кому-то одному сидеть на телефоне и вызванивать десятки человек. Теория распределённых сетей и построения революционных ячеек вам в помощь.
Технически необходимо предусмотреть альтернативные способы коммуникаций — почтовый ящик на Gmail, 2-3 номера телефона итд.
4. Подготовьте базовые планы аварийного восстановления
Надо помнить, что пока вы работаете над временным решением, и надо решительно отсекать лишние детали, чтобы не погибнуть под их грузом. Достаточно того, что вы заранее продумали высокоуровневые шаги и их не придется с ходу изобретать в стрессовой ситуации.
- Выделите ключевые бизнес-процессы (функции) организации. Если у вас нет формального перечня, эта задача может поставить в тупик. Не отчаивайтесь, начинайте с высокоуровневых процессов. В этом вам поможет организационная структура компании (она-то точно есть). Выделите логистику, маркетинг, продажи, производство, сервисное обслуживание и т д. Соберите знающих коллег и пишите вместе как пишется.
- Когда список бизнес-процессов будет готов, выполните примерную сортировку процессов по их важности для выживания организации. Все не могут быть одинаково важными, в чрезвычайной ситуации при недостатке ресурсов придется расставлять приоритеты. Лучше подумать об этом заранее.
- Определите ресурсы, которые нужны для восстановления каждого бизнес-процесса из списка. Если вы трудитесь над непрерывностью работы компании в целом, потребуется учесть многое – ключевых спецов, здания, оборудование, бумажные документы и прочее. Если в качестве «пробного шара» выступает ИТ, речь будет идти о централизованных ИТ-системах, рабочих местах пользователей и нескольких инфраструктурных сервисах (LAN и WAN, телефония, Active Directory и прочее).
- Можно на пару дней запереть ключевых гуру вашей организации в переговорной вместе с человеком, имеющим опыт аналогичных проектов и знакомым с методами управления непрерывностью. Здесь может очень пригодиться внешний консультант. При описании систем и подготовке планов одно всегда цепляется за другое, прерывать полет мысли здесь очень вредно. То, что можно сделать за два дня непрерывной работы, будет делаться несколько месяцев если собраться два раза в неделю на два часа.
5. Выберите альтернативные площадки для работы сотрудников
Ваше основное зданием может быть повреждено или недоступно. Вот несколько рецептов, которые помогут восстановить ключевые функции компании.
- Удаленная работа. Если ЦОД уцелел, возможно, многие сотрудники смогут работать с нужными им приложениями из дома при помощи терминального доступа или виртуальных рабочих станций (VDI). Само собой, для этого у них должны быть инструкции и заранее подготовленное рабочее место. Очень помочь может дублирование базовой инфраструктуры «в облаке».
- Переезд сотрудников в уцелевшие офисы, если их несколько, либо в офис дружественной вам компании. Там тоже должны быть готовы принять ваших коллег.
- Переход на альтернативные способы ведения бизнеса – Excelевские таблицы, ушедшие после внедрения DRP вместо ERP, электронная почта вместо документооборота. Если, например, у производственной компании недоступен головной офис, производство несколько дней вполне может работать автономно при наличии нужных процедур.
6. Подумайте, что можно сделать чтобы предотвратить возможные последствия аварии
- Проверьте, что делаются резервные копии всего, что жизненно важно для деятельности компании, включая важные данные, расположенные на рабочих станциях пользователей. То, что там они не должны храниться, – отдельный вопрос. Если у вас профили лежат централизованно на СХД – супер!
- Организуйте хранение резервных копий вне офиса. Отлично, если это будет бекап в «облаке», но и регулярный вывоз кассет из библиотеки в другой офис или специальное хранилище это лучше, чем ничего.
Однажды я наблюдал такой перегрев в серверной, что все стены были мокрые от конденсата (а воздух там обычно очень сухой). Десятки серверов вышли из строя. Представьте, что при такой температуре случилось с данными на лентах в стоящей там же библиотеке. - Оцифруйте бумажные документы (а лучше максимально откажитесь от них). Бумажные копии храните в выделенной части офиса, желательно, в несгораемых шкафах.
- Проверьте систему аварийного предупреждения о пожаре и пожаротушения, в том числе в серверной.
- Проведите тестирование ИБП, кондиционеров, дизель-генератора, если он у вас есть.
Подавляющее большинство длительных простоев ЦОДа которые я видел и о которых слышал, начинаются с того, что на одной из линий питания, приходящих в ЦОД, начинаются работы. Затем что-то происходит на второй, запускаются ИБП, но не заводится дизель, либо не срабатывает система переключения нагрузки на него. - Проведите учения по эвакуации и оказанию первой помощи. Самый важный актив бизнеса — это люди, и их безопасность должна быть превыше всего в системе управления непрерывностью бизнеса.
Кстати, многие компании не проводят массовые конференции руководства и прочие тим-билдинги в других городах и странах. Когда вся верхушка находится в одном самолете, это плохо с точки зрения риск-менеджмента
7. Оформите планы аварийного восстановления в виде хорошо структурированных документов
В этом также могут помочь консультанты – они писали такие документы и знают, как все должно выглядеть. Раздайте бумажные копии всем участникам команд аварийного восстановления. Одна копия должна обязательно храниться на работе, вторая – дома.
8. Проведите учения по планам
Начать можно с «штабных» учений, когда сотрудники аварийного комитета и команд аварийного восстановления по ролям зачитывают планы: кто кому звонит и кто что делает. При этом шаги обсуждаются, уточняются и документируются по результатам. Представьте, сколько будет ругани между всеми этими начальниками и экспертами компании.
Затем следует провести симуляцию, когда все делается по-настоящему – системы восстанавливаются из бэкапов, люди переезжают в другой офис и пытаются работать оттуда и проч. По опыту, лучше всего выделить для учений выходные (конечно, компенсировав их отгулами после). Обычно, требуется 2-3 итерации – тестируем, корректируем план, тестируем снова.
Да, это сложно, иногда страшно, но результата добьются только те занудные типы, которым хватит смелости и организаторских способностей провести такую масштабную симуляцию.
9. Актуализация
Определите дату, когда будет проведена актуализация планов и повторные учения.
10. Улучшение
По итогам этого проекта донесите до руководства необходимость более серьезных инвестиций времени и денег в тему непрерывности, и стартуйте полноценный проект.
Все описанные шаги можно выполнить за месяц, при наличии времени и желания. Но нельзя ожидать что получившийся результат будет панацеей. Как я говорил ранее, непрерывность бизнеса — это непрерывная тема, заниматься ей нужно постоянно.
В следующем своем топике я сконцентрируюсь на решениях для защиты централизованных ИТ-систем, которые хорошо себя показали в наших проектах обеспечения непрерывности и построения резервных ЦОДов.
Автор: Dmitry_Doshaniy