23 августа 2012 года с 02:00 до 16:30 часть сети МногоБайт функционировала неправильно, что привело к частичной или полной потери связи у примерно трети клиентов компании. Чтобы развеять слухи сразу по горячим следам мы решили рассказать о том, что было и о том, что было сделано, чтобы такого не повторилось.
Начну издалека. Примерно год назад начался бурный рост трафика на всей сети МногоБайт. Этому способствовали и адекватные тарифы на полосы пропускания и трафик, и хорошая связность по России, и общий рост количества клиентского оборудования, размещаемого в наших дата-центрах. В результате роста трафика коммутаторы и маршрутизаторы Cisco Catalyst серий 6500 и 7600, установленные нами в 2007 и в 2008 годах, стали недостаточны для дальнейшего роста. Всё предельно просто: 2х20Гбит/сек на слот и всего 4 полноскоростных порта на слот – это предел. Поэтому, в начале 2012 года мы запланировали перевод ядра сети на маршрутизаторы Juniper и общий апгрейд сети с целью подогнать наше «кольцо», соединяющее узлы на ММТС-9, ММТС-10 и дата-центры, для предоставления клиентам возможности подключения на скорости 10Гбит/сек и, соответственно, пропуска трафика на этой же скорости во внешний мир.
Juniper MX960 3D
Получая необходимое оборудование (DWDM-мультиплексоры, DWDM-SFP+, 10Гбит/сек коммутаторы, роутеры Juniper) мы переводили «кольцо» на новое оборудование. Так 5 июля 2012 года мы провели успешную замену роутера на нашем узле на ММТС-9 и почти никто из клиентов дата-центров этого не заметил. Хотя работы были тяжёлыми – центральный роутер, всё же!
23 августа 2012 года нами был запланирована очередная замена роутера. Теперь задача стояла куда сложнее: предстояло переключить больше десятка access-свитчей и около 130 клиентских подключений, включенных напрямую в роутер. Мы подготовились к работам довольно основательно: в наше кольцо был включен отдельный свитч, куда в несколько этапов переключались клиенты. Маршрутизация этих клиентов также осуществлялась другим роутером. В ночь 23 августа мы планировали переключить access-свитчи в этот же «кусочек кольца» и унести клиентов на другие роутеры. Суммарный простой у клиентов составил бы менее часа. А 130 прямых подключений никуда не деть – им бы пришлось ждать включение нового Juniper’а. Для читателя также замечу, что 130 подключений – это не только 1Гбит/сек, но и 10Гбит/сек порты тоже.
Juniper EX8216
В 02:00 по плану мы начали работы с переноса роутинга клиентов на другой роутер и переключения access-свитчей. Однако уже после переноса подключений и начала демонтажа роутера Cisco Catalyst начались странные проблемы с резервным свитчём: ему стало мало памяти и CPU периодически был сильно загружен. Мы постарались решить проблему, но она поддалась лишь частично. В итоге часть access-свитчей так и осталась без доступа к сети. Вернуть всё обратно мы уже не могли. Мы продолжаем изучать проблему, ибо этот же свитч в той же конфигурации до этого без проблем пропускал через себя около 15Гбит/сек трафика и даже не напрягался.
Из-за проблем с access-свитчами наш сайт, а также телефония временно были выведены из работоспособности. Этим-то и вызваны жалобы клиентов, что они не могли до нас дозвониться. Но довольно скоро проблема решилась и всё заработало.
Новый Juniper был запущен по запланированному времени. Началось переключение access-свитчей и пользовательских подключений. Вместе с подключениями возникли новые проблемы, которые также сейчас изучаются нами. Например, образовалась «петля», поймать которую удалось не сразу. Ловля петли отняла дополнительное время. Петля зацепила часть клиентов и в других наших дата-центрах.
Во время подключения access-свитчей также выяснилось, что Cisco Catalyst не очень хотят дружить с оборудованием Juniper и пришлось прыгать с бубном консолью около каждого свитча. И перенастраивать его. К 11:00, с опозданием на 5 часов от запланированного времени, бОльшая часть клиентов дата-центра работала и не испытывала проблем.
Но это был еще не конец проблем того дня. Разные мировоззрения производителей Juniper Networks, Extreme Networks и Cisco Systems на, казалось бы, полностью стандартизованные протоколы STP и MPLS оставили без связи часть клиентов. Глюк с прохождением пакетов большого размера отлавливался нами до 16:30. В 16:30 пострадавшими остались только чуть меньше 100 подключений к access-свитчам дата-центра. Некоторые свитчи клиентов, подключенных к нашим access-свитчам, также были некорректно настроены и влияли на нашу сеть. После разъяснительных бесед с клиентами, перенастройки их оборудования и установки множества различных фильтров на данные порты проблема наконец-то была решена и около 18:30 последние пострадавшие клиенты получили доступ к сети без проблем.
Что дальше
Все пострадавшие клиенты получат компенсации и приятные бонусы – в этом можно не сомневаться. Как я уже говорил, трафик на сети МногоБайт растёт. Заканчивающаяся модернизация позволит нам и дальше удовлетворять потребности наших существующих и новых клиентов. Мы, кстати, одни из немногих дата-центров Москвы, которые предоставляют возможность подключения для клиентских серверов на скорости 10Гбит/сек. Стоит ждать новых вкусных тарифов и более гибкой тарифной политики. Нет худа без добра, как говорится!
Спасибо всем нашим клиентам, которые годами остаются с нами и проявили терпение в этот тяжёлый для нас и для них день!
Автор: MnogoByte