
В прошлый понедельник у нас случилась очередная крайне идиотская авария. Идиоты тут мы, если что, и сейчас я расскажу детали.

В прошлый понедельник у нас случилась очередная крайне идиотская авария. Идиоты тут мы, если что, и сейчас я расскажу детали.
27 ноября после запуска ракеты-носителя «Союз-2.1а» с экипажем и кораблём «Союз МС-28» со стартовой площадки 31/6 космодрома Байконур произошла авария. Запуск прошёл успешно, и экипаж в составе космонавтов Роскосмоса Сергея Кудь-Сверчкова и Сергея Микаева, а также астронавта НАСА Кристофера Уильямса благополучно прибыл на МКС. Однако беспилотник, пролетавший над стартовым комплексом, зафиксировал, что на стартовое сооружение упала кабина обслуживания 8У216.
На дальнем крае России, на просторах степей Приморского края, стоит в ложбине между сопками закрытый город Фокино. Его омывают воды залива Стрелок, к которому с запада примыкает бухта Чажма, хранящая в себе невидимую смерть. Время низвело её силу до нуля и вылечило раны, нанесённые природе, но оказалось неспособно исцелить души людей, оставшиеся в роковом дне 10 августа 1985 г.
Самый главный страх обывателя, живущего неподалёку от любой ГЭС — это то, что плотина не выдержит. Страшно. Страшно, что вода смоет тело плотины, или перевернёт весь этот бетонный щит, или просочится по трещинам, или хотя бы перехлестнёт через гребень — а уж тогда все эти накопленные в водохранилище миллионы кубометров устремятся вниз, сметая всё на своём пути. И число жертв рукотворного цунами пойдёт на многие десятки тысяч...
Инженерам и механикам авиакомпаний нередко приходится работать в крайне сложных условиях. Это жара или холод, непростые поломки двигателей или иных компонентов самолета. Но то, что совершили инженеры швейцарской авиакомпании SWISS, можно назвать трудовым подвигом. Им удалось поменять один из самых больших и тяжелых в мире авиационных двигателей в экстремальных условиях арктического региона Канады.

Итак, оператор связи в дата-центре М9 запланировал техработы с 23:00 4 июля до часу ночи 5 июля по Москве. Предварительно — им нужно было обслужить и при необходимости поменять коммутатор уровня ядра плюс провести ещё ряд сопутствующих работ. Обещали до 2 часов без связи. Для нас это считается простоем (несмотря на то, что виртуальные машины работают и некоторые VDS-хостинги не рассматривают ситуацию без отключения сервера как простой) — мы оповестили своих клиентов, чьи ВМ физически были размещены в этом ЦОДе.
Примерно под конец планового времени простоя дата-центр сообщил про продление работ до 06:00 5 июля, то есть ещё на 5 часов. Уведомить об этом продлении в адекватное время мы не успели, потому что в этот момент как раз и закрутилась история. Читать полностью »

Из-за этого мы сейчас переживаем крупнейший передел рынка хостинга в России.
С 1 декабря новый федеральный закон запрещает заниматься хостингом тем, кто не в специальном реестре. В специальный реестр можно попасть, грубо говоря, если выполнить требования по хранению трафика клиентов и их авторизации по паспорту, «Госуслугам» или платёжной карте. Там куча нюансов, но примерно так.
Ещё в этом году в ЦОДы начало поступать полностью отечественное железо из отечественной компонентной базы и отечественных плат (на самом деле — нет), отвалилась страховка от киберрисков от AIG (вместе с AIG), и пришлось искать российский аналог. Были скандал и мир с Казахстаном при открытии двух новых площадок, мы взяли премию «Хостер года», запустили собственный бесплатный DNS (аналог Route53), перешли на OpenAPI в хостинге, открыли ещё две площадки: ЦОДы во Владивостоке и в Турции в Измире (это там, где было наводнение), запустили и сломали спутник (дважды), пережили крупную аварию и после неё ввели понятное SLA на доступность с денежной гарантией.
В общем, сложный был год. Налоги, катастрофы, проституция, бандитизм и недобор в армию. С последним мириться было нельзя… Простите, рассказываю по существу. Читать полностью »
![Что пошло не так с нашим космическим запуском: сама авария на орбите [это не про лунную миссию] - 1 image](https://www.pvsm.ru/images/2023/08/16/chto-poshlo-ne-tak-s-nashim-kosmicheskim-zapuskom-sama-avariya-na-orbite-eto-ne-pro-lunnuyu-missiyu.jpeg)
Вот рой вышел с орбитальной базы, снято камерой материнской станции
Проблема была в том, что наш запуск изначально был запланирован на осень (после ряда переносов и развала «Орбитального экспресса»), а потом, когда некоторые западные партнёры почему-то решили отменить свои миссии, нам сообщили, что «парни, вы летите через полтора месяца».
За месяц до запуска нужно отдать полностью снаряжённый, заряженный и протестированный спутник с роем пико-спутников внутри.
Разработка в таких условиях шла, скажем так, несколько напряжённо и далеко не по TDD. Из самого важного — у нас были огромные планы на контрольный контур, на возможность удалённой перезаливки прошивки и много чего ещё. Всё это отправилось в бэклог второго запуска. Мы успели только сделать так, что пакеты из блока связи записываются на диск. С ними уже можно что-то делать дальше в режиме админа.
Но зато мы поставили рекорд по срокам подготовки спутника. 8 месяцев с момента начала подготовки до запуска миссии — это рекорд российской космонавтики. Но какой ценой! Читать полностью »

Вот тут пост про нашу аварию на прошлых выходных. Там всё было по горячим следам, потом я обещал подробнее ответить на вопросы. Отвечаю. Самое главное, пожалуй, что бы я хотел донести, — в комментариях к первому посту было очень много советов, что можно сделать, чтобы избежать такой же аварии. Но большинство из этого мы делать не будем. Потому что это ошибка выжившего: защищаться надо от вероятных рисков, а не от крайне маловероятных, где совпадает сразу пять факторов. Точнее, можно и от них, но есть критерий экономической обоснованности.
Но давайте обо всём по порядку.
— Сколько клиентов пострадало?
— На три часа и более в одном ЦОДе отключилось 7–10 % из 14 наших, то есть менее 0,5 % от общего числа клиентов хостинга (точнее, хостов). Тем не менее мы очень подробно рассказываем про эту аварию, потому что она вызвала очень много вопросов. Читать полностью »
Когда в бизнес приходят "эффективные менеджеры", стоит ждать беды. С программами урезания расходов, подкручиваниями KPI и прочими странными решениями бизнес может в краткой перспективе получить даже какую-то выгоду для себя, но довольно быстро сталкивается с проблемами: сложно продать или просто угробить курицу, несущую золотые яйца, и ожидать, что золотые яйца продолжат появляться.