Дополнение (2 июля 2018 г): сотрудники поддержки Google Cloud Platform (GCP) заверили, что такое больше не повторится. Их слова: «Многие люди (в рамках GCP) заинтересованы в том, чтобы улучшить ситуацию не только для вас, но для всех клиентов».
Примечание: это пост не о качестве облачных сервисов Google. Они превосходны, наравне с AWS. Речь идёт о «резких движениях без предупреждения», когда они полностью отключают все ваши системы, если сотрудники (или машины) вдруг решили: что-то не так. C нами это случилось второй раз.
Предыстория
Наш проект в продакшне использует GCP для мониторинга сотен ветроэнергетических установок (ВЭУ) и десятков солнечных электростанций, разбросанных по восьми странам. У нас центры управления с экранами на всю стену: там приборные панели, набитые метриками, за которыми следят круглосуточно. Менеджеры объектов используют эту систему для контроля в реальном времени состояния отдельных ВЭУ и солнечных установок. Если требуется вмешательство, оно производится немедленно. Команды разработки и прогнозирования используют систему для отработки алгоритмов на данных в BigQuery. Все действия непосредственно транслируются в нашу прибыль. Мы имеем дело с ветровой/солнечной энергией — скоропортящимся товаром. Если мы генерируем излишек, то не можем сохранить его и продать позже. Если генерируем недостаточно, то платим штрафы. По этой причине объекты нужно отслеживать 24/7, чтобы не выходить за рамки потребностей энергосистемы и заключенных соглашений о покупке электроэнергии.
Что случилось
Сегодня рано утром (28 июня 2018 года) я получил предупреждение от аптайм-бота, что весь сайт ушёл в офлайн. Шквал писем от Google, в которых говорится, что обнаружена некая «потенциальная подозрительная активность» и все мои системы были отключены. ВСЁ ВЫКЛЮЧЕНО. МАШИНА ОТКЛЮЧИЛА НАС БЕЗ ПРЕДУПРЕЖДЕНИЯ. Сайт не работает, движок приложений и базы данных недоступны, несколько сообщений от Firebase говорят, что меня понизили и поэтому произошло превышение лимитов.
Одинокое облачко
Чат поддержки клиентов выключен. Телефона у нас нет. Пришло электронное письмо с просьбой заполнить форму, загрузить фотографию кредитной карты и ID государственного образца с фотографией владельца карты. Отлично, разбудим финансового директора, который является владельцем карты.
Мы удалим проект в течение трёх рабочих дней
«Мы удалим ваш проект, если владелец счёта не исправит нарушение, заполнив форму подтверждения аккаунта в течение трёх рабочих дней. Эта форма подтверждает вашу личность и право собственности на платёжный инструмент. Непредставление запрошенных документов может привести к окончательному закрытию счёта».
Что делать, если владелец карты в отпуске и недоступен в течение трёх дней? Мы потеряли бы всё — годы работы — миллионы долларов дохода.
Я заполняю форму с деталями и, к счастью, в течение 20 минут все сервисы начали возвращаться к жизни. Когда это случилось в первый раз, даунтайм продлился несколько часов. В целом мы потеряли доступ ко всей информации примерно на час. Приходит автоматическое письмо с извинениями за причинённые неудобства. К сожалению, у машины нет понятия о количестве «неудобств».
Нельзя просто всё отключить, а затем попросить объяснений
Я понимаю, что Google нужно отслеживать и предотвращать подозрительную активность. Но важно, что именно вы делаете после обнаружения подозрительной активности. Здесь необходимо человеческое участие — то, что не заменяется ни на какое количество кода или систему ИИ. Нельзя просто всё отключить, а затем попросить объяснений. Нужно делать наоборот.
Это первый проект, который мы полностью построили на Google Cloud. Все предыдущие работали на AWS. По нашему опыту, AWS гораздо гуманнее справляется с проблемами выставления счетов. Они предупреждают вас о подозрительной деятельности и дают время, чтобы объяснить и разобраться. Они не пинают тебя с лестницы.
Надеюсь, что команда GCP прислушается и поменяет ситуацию к лучшему. До тех пор я никогда не буду размещать никакие проекты на GCP.
Автор: m1rko