«ВКонтакте» рассказала детали о крупной аварии, которая произошла 4 августа и во время которой соцсеть была полностью или частично неработоспособна на протяжении пяти часов.
По словам пресс-службы к аварии привело «фатальное стечение обстоятельств» — несколько неполадок наложились одна на другую и усилили эффект.
Причиной аварии стал обрыв линий связи между дата-центрами ВКонтакте, который сопровождался выходом из строя и системы автоматического переключения на резервную трассу. Фактически все линии связи между основными дата-центрами ВКонтакте были недоступны. Из-за резких перепадов в нагрузке социальной сети произошли сбои на сетевом оборудовании.
В течение трёх часов команде инженеров ВКонтакте и дата-центра «Селектел» пришлось восстанавливать основные каналы связи и работу всего серверного оборудования. Фатальное стечение ряда обстоятельств привело к аварии такого масштаба, восстановление стабильной работы после которой даже у инженеров ВКонтакте с их опытом реагирования в экстренных ситуациях заняло несколько часов: нашим специалистам пришлось восстанавливать один за другим сотни сервисов ВКонтакте, которые работают на десятках тысяч серверов.
Чтобы избежать подобных инцидентов в будущем, мы планируем модернизировать систему резервирования сетевого оборудования и оптоволоконных трасс. Также команда инженеров ВКонтакте работает над повышением отказоустойчивости сервиса, чтобы полностью справляться как с возросшим уровнем нагрузок, так и с возможными внештатными ситуациями на оборудовании самой социальной сети и её поставщиков: в начале июня для обеспечения бесперебойности работы ВК и снижения зависимости от внешних подрядчиков был приобретён и существенно модернизирован дата-центр ИЦВА.
Последовательная работа по модернизации сетевой архитектуры и инфраструктуры хранения данных позволит избежать подобных аварий в будущем.
Мы приносим свои искренние извинения нашим пользователям за доставленные неудобства.