- PVSM.RU - https://www.pvsm.ru -
Когда 16 сентября 2022 года загорелся небоскрёб China Telecom [1] со столбом пламени в десятки метров и взрывами, то первым делом возник вопрос — что так сильно горит в 42-этажном офисном здании? Вскоре выяснилось, что здание не совсем офисное. Оказалось, на нескольких этажах размещался ЦОД. А все мы знаем, что по правилам резервирования Tier 2 [2] дата-центр обязан хранить запасные энергоносители на случай отключения основного питания.
Что такое «запасные энергоносители»? Это могут быть заряженные аккумуляторы, ну, или дизельное топливо…
По предварительным оценкам [3], в здании China Telecom на момент возгорания могло быть около 35 тонн дизельного топлива. В результате, фасад 220-метрового небоскрёба в городе Чанша провинции Хунань выгорел буквально за 20 минут.
Цистерны с дизтопливом в офисном здании — совершенно невероятная картина, но в Китае и не такое можно представить.
Китай в этом плане вообще уникальная страна со своими культурными особенностями. Там иногда встречаются вещи, которые нам кажутся дикими. Например, недавно был случай, что сотрудники дата-центра Guizhou Cloud Big Data в Гуйчжоу (крупнейший дата-центр Apple, который китайские власти забрали под свой контроль в 2017 году) больше недели не покидали рабочие места [4] из-за ковидных ограничений. То есть сотрудники некоторое время буквально жили в ЦОДе, как колония рабочих муравьёв в муравейнике.
Guizhou Cloud Big Data
Кто-то может сказать, что это особенности китайской культуры, где ценность человеческой жизни и личности не настолько высоко ценится, как в нашей цивилизации. Но это весьма спорное утверждение. На самом деле такие происшествия происходят не только в китайских, но и в западных ЦОДах. От пожаров никто не застрахован.
Ещё не стёрся в памяти cгоревший дата-центр OVHCloud в Страсбурге [5] в 2021 году.
Здание SBG-2 было частью кампуса SBG из четырёх ЦОД. В нём предоставлялись услуги аренды выделенных серверов (dedicated) и облачные сервисы. В пожаре были уничтожены 15 000 серверов.
Из российских происшествий многие помнят возгорание кровли в дата-центре Dataline на Боровой [6] («Одноклассники», Mail.ru), пожары в дата-центре Selectel в Санкт-Петербурге [7] («Вконтакте»), дата-центре «Технологии Будущего» [8] (где размещались восемь хостингов, так что из-за пожара ушло в офлайн около 2500 веб-сайтов разных компаний) и много других аварий как у нас, так и за рубежом.
Место, где начался пожар в дата-центре Dataline (5 июня 2019 года)
Некоторые из самых необычных происшествий последних лет:
8 августа 2022 года в дата-центре Google г. Каунсил-Блафс [9] (штат Айова) произошёл взрыв с человеческими жертвами (трое раненых с серьёзными ожогами). В результате поиск и картографический сервис Google на непродолжительное время стали недоступны в разных частях света. По информации пользователя Council Bluffs Scanner, который прослушивает радиопереговоры спасателей и полиции в своём городке, причиной стал «крупный электрический взрыв без возникновения пожара» на территории ЦОДа.
Электрический взрыв — возникновение электрической дуги огромной мощности. Причины инцидента неизвестны. Возможно, это связано с аномальной жарой, которая стояла в Айове.
Иногда серверы приходится обесточивать просто в силу неблагоприятных погодных условий. В июле 2022 года Google была вынуждена отключить серверы Google Cloud [10] в лондонском дата-центре из-за проблем с их охлаждением в связи с жарой (40° С в тени). Отключение ЦОДов привело к перенаправлению нагрузки, что вызвало затруднения в работе сервисов.
Лондон, 18 июля 2022 года. Фото: Jose Sarmento Matos/Bloomberg
Компания Oracle тоже сняла нагрузку со своего дата-центра в Лондоне [11] в тот же период времени.
В других дата-центрах пришлось прибегнуть к экстренным мерам, в том числе спрыскивать водой крыши зданий [12], понижая температуру воздуха около змеевиков кондиционеров для улучшения теплообмена.
В сентябре 2018 года несколько техасских дата-центров Microsoft оказались в эпицентре урагана. Как сообщается [13], удары молний привели к продолжительным перебоям в электропитании ЦОДов.
Один из ЦОДов перешёл на резервные генераторы, что привело к повышению температуры в машинном зале. Система охлаждения не справилась, а часть серверов вышла из строя. Инженеры приняли решение полностью отключить машинные залы от электропитания, то есть увели ЦОД полностью в офлайн.
Ещё одна необычная авария случилась [14] в апреле 2018 года в новеньком дата-центре DigiPlex (на севере Стокгольма), который обслуживает систему хранения данных фондовой биржи Nasdaq Nordic. Из-за ошибочного включения системы газового пожаротушения произошёл выпуск газа, а ударная волна вывела из строя дисковые накопители серверов.
Авария привела к остановке торгов Nasdaq Nordic на пять часов.
У облачных провайдеров тоже случаются сбои. При этом выходят из строя службы, которые должны масштабироваться в разных дата-центрах.
Например, 13 марта 2019 года случился глобальный сбой [15] в обслуживании почты Gmail и файлового хранилища Google Drive, которые полностью ушли в офлайн на несколько часов. Причины не назывались.
В результате упомянутого ранее инцидента с молниями в Техасе временно вышел из строя крупный дата-центр Azure. Перебои в работе облачного сервиса Microsoft продолжались несколько дней.
В ноябре 2020 года сбой AWS в регионе US-EAST-1 положил значительную часть интернета [16]. Сервисы AWS начали выходить из строя 25 ноября около 11:00 ET. По информации AWS, первым упал Kinesis Data Streams, потянув за собой всё остальное: ACM, Amplify Console, API Gateway, AppStream2, AppSync, Athena, CloudFormation, CloudTrail, CloudWatch, Cognito, Connect, DynamoDB, EventBridge, IoT Services, Lambda, LEX, Managed Blockchain, Resource Groups, SageMaker, Support Console и Workspaces. Полная работоспособность восстановили только в 4:16 на следующий день, то есть даунтайм продолжался почти сутки. Пострадали тысячи сайтов, сервисов и мобильных приложений, которые размещают бэкенд на AWS, включая 1Password [17], Adobe Spark [18], Autodesk [19], Coinbase [20], Glassdoor [21], Flickr [22], iRobot [23], Roku [24] и др.
Другой крупный сбой AWS произошёл в июне 2021 года [25]. Тогда ненадолго ушли в офлайн многие популярные сайты, как Twitch, Reddit, Twitter, Hulu, HBO Max, Shopify и Amazon.
В принципе, нет особых причин полагать, что облачные центры данных будут выходить из строя реже, чем отдельные серверы, установленные у себя (on-prem). С одной стороны, в коммерческих дата-центрах формально действуют правила резервирования питания и дублирования всех важных систем. С другой стороны, в нежилых помещениях ЦОДов выше вероятность инцидента: там больше горючих материалов, больше нагрузка на оборудование, больше посторонних сотрудников и больше причин для инцидентов, чем у вас в офисе или дома (хотя бывает и наоборот).
Получается, что в любом случае клиент должен сам думать о резервировании данных. Никакой ЦОД или отдельное облако не даёт полной гарантии. Требуется резервирование в глобальном масштабе.
В последнее время всё более популярным становится тема гибридных облаков, мультиоблачных решений и «мультицодовости».
Гибридное облако — сочетание моделей развёртывания публичного и частного облака (on-prem).
Мультицодовость дополняет концепцию гибридных облаков и мультиоблачных решений, когда ваше распределённое хранилище данных включает в себя несколько дата-центров от одного или нескольких провайдеров.
Если внедрять мультицодовость в локальном масштабе, то лучшая стратегия сохранения данных — взять несколько виртуальных машин в разных ЦОДах.
У нас в RUVDS как раз подготовлена целая сеть из 11 дата-центров — для резервирования ваших данных почти по всему миру, давайте кратко по ним пробежимся:
НЕ LOOKING GLASS [39]
Не стоит забывать о правиле резервного копирования 3-2-1, которое можно адаптировать для своих нужд.
Оригинальное правило 3-2-1 [40] простое и понятное:
Это самые минимальные требования к сохранности информации, которые идеально описывают потребности отдельного пользователя по сохранности личного информационного архива. В продакшне требования более серьёзные. Конечно, правило можно (и нужно) изменять под свои потребности и возможности. Например, таким образом:
Провайдер
Стратегия 4-3-2 просто добавляет один избыточный уровень резервирования к правилу 3-2-1. Это логика минимизации рисков. Вкратце её можно сформулировать в виде правила десантников, которые в важных деталях привыкли считать, что «два — это один», а «один — это ноль». Поэтому добавляем по единице к каждому уровню.
Эта стратегия более детально указывает разнообразие накопителей/локаций, добавляет офлайновое хранилище, отключённое от интернета, а также вводит инструментарий типа Object Lock [43]. Он работает по модели Write Once, Read Many (WORM), предотвращая изменение или удаление каких-либо объектов в хранилище.
Telegram-канал [44] и уютный чат [45]
Автор:
oldadmin
Источник [46]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/rezervnoe-kopirovanie/379280
Ссылки в тексте:
[1] загорелся небоскрёб China Telecom: https://abcnews.go.com/International/wireStory/fire-engulfs-42-story-building-china-deaths-reported-90008978
[2] правилам резервирования Tier 2: https://uptimeinstitute.com/tiers
[3] предварительным оценкам: https://gagadget.com/en/167559-china-telecom-skyscraper-burned-down-in-20-minutes-it-was-storing-35-tons-of-fuel-for-servers/
[4] больше недели не покидали рабочие места: https://www.bloomberg.com/news/articles/2022-09-08/apple-s-china-icloud-operator-warns-of-dire-covid-lockdown
[5] cгоревший дата-центр OVHCloud в Страсбурге: https://habrastorage.org/getpro/habr/upload_files/829/cec/679/829cec6794eb7d8e26ac21c0e0d39605.jpg
[6] возгорание кровли в дата-центре Dataline на Боровой: https://www.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:%D0%A6%D0%9E%D0%94_DataLine_%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0_%D0%91%D0%BE%D1%80%D0%BE%D0%B2%D0%B0%D1%8F,_7
[7] в дата-центре Selectel в Санкт-Петербурге: https://www.fontanka.ru/2016/03/16/116/
[8] дата-центре «Технологии Будущего»: https://habr.com/ru/post/89172/
[9] дата-центре Google г. Каунсил-Блафс: https://www.google.com/about/datacenters/locations/council-bluffs/
[10] отключить серверы Google Cloud: https://status.cloud.google.com/incidents/fmEL9i2fArADKawkZAa2
[11] тоже сняла нагрузку со своего дата-центра в Лондоне: https://www.bloomberg.com/news/articles/2022-07-19/google-oracle-data-centers-knocked-offline-by-london-heat
[12] спрыскивать водой крыши зданий: https://www.bloomberg.com/news/articles/2022-07-19/how-to-keep-cool-in-heatwave-uk-data-centers-use-hosepipes-on-roofs
[13] сообщается: https://www.datacenterdynamics.com/en/opinions/hit-azure-outage-watch-out-hurricane-florence/
[14] случилась: https://www.datacenterdynamics.com/en/news/fire-suppression-failure-at-digiplex-brings-down-nordic-nasdaq/
[15] глобальный сбой: https://www.theguardian.com/technology/2019/mar/13/googles-gmail-and-drive-suffer-global-outages
[16] положил значительную часть интернета: https://www.theverge.com/2020/11/25/21719396/amazon-web-services-aws-outage-down-internet
[17] 1Password: https://twitter.com/1Password/status/1331697241132847105
[18] Adobe Spark: https://twitter.com/AdobeSpark/status/1331644328947552263
[19] Autodesk: https://twitter.com/autodesk/status/1331664145301852163
[20] Coinbase: https://twitter.com/CoinbaseSupport/status/1331679494378164224
[21] Glassdoor: https://twitter.com/Glassdoor/status/1331672377470701568
[22] Flickr: https://twitter.com/FlickrHelp/status/1331636739513978882
[23] iRobot: https://twitter.com/iRobot/status/1331667670383685635
[24] Roku: https://twitter.com/RokuSupport/status/1331649921557041152
[25] в июне 2021 года: https://www.engadget.com/a-huge-outage-is-affecting-large-swaths-of-the-internet-102354305.html
[26] Image: https://bit.ly/advantagesruvds
[27] ДАТА-ЦЕНТР RUCLOUD (РОССИЯ, МОСКВА): https://bit.ly/RUCLOUD
[28] писали историю размещения в нём: https://habr.com/ru/company/ruvds/blog/527152/
[29] ДАТА-ЦЕНТР М9 (РОССИЯ, МОСКВА): https://bit.ly/RUVDSMos
[30] ДАТА-ЦЕНТР ZUR1 (ЦЮРИХ, ШВЕЙЦАРИЯ): https://bit.ly/ZURRUVDS
[31] ДАТА-ЦЕНТР TELEHOUSE (ФРАНКФУРТ, ГЕРМАНИЯ): https://bit.ly/frankfurtRUVDS
[32] ДАТА-ЦЕНТР EQUINIX LD8 (ЛОНДОН, АНГЛИЯ): https://bit.ly/EQUINIXR
[33] ДАТА-ЦЕНТР LINXDATACENTER (САНКТ-ПЕТЕРБУРГ, РОССИЯ): https://bit.ly/LINXDATACENTER
[34] ДАТА-ЦЕНТР IT PARK (КАЗАНЬ, РОССИЯ): https://bit.ly/ITPARKruv
[35] ДАТА-ЦЕНТР ЕКАТЕРИНБУРГ (ЕКАТЕРИНБУРГ, РОССИЯ): https://bit.ly/ekaterinburgruvds
[36] ДАТА-ЦЕНТР НОВОСИБИРСК (НОВОСИБИРСК, РОССИЯ): https://bit.ly/novosibirskruvds
[37] ДАТА-ЦЕНТР AMS9 (АМСТЕРДАМ, НИДЕРЛАНДЫ): https://bit.ly/AMSruvds
[38] ДАТАЦЕНТР ОСТАНКИНО (РОССИЯ, МОСКВА): https://bit.ly/ostankinoruvds
[39] НЕ LOOKING GLASS: https://bit.ly/3OCgJWq
[40] правило 3-2-1: https://www.veeam.com/blog/321-backup-rule.html
[41] хостинга: https://www.reg.ru/?rlink=reflink-717
[42] называет: https://www.backblaze.com/blog/the-3-2-1-backup-strategy/
[43] Object Lock: https://www.backblaze.com/blog/object-lock-101-protecting-data-from-ransomware/
[44] Telegram-канал: https://bit.ly/3KZeaxv
[45] уютный чат: https://bit.ly/3qoIOXs
[46] Источник: https://habr.com/ru/post/690566/?utm_source=habrahabr&utm_medium=rss&utm_campaign=690566
Нажмите здесь для печати.