Лежим
Заказчик, чьи сайты я поддерживал ранее, обратился с тем, что сайт лежит и отдает 500 ошибку. У него стандартный сайт на ASP.NET WebForms, не скажу, что очень нагруженный, но бывали проблемы с производительностью базы данных (MS SQL Server на отдельном сервере). Недавно сервер БД поменяли и перенесли данные.
Этот сайт не основной бизнес заказчика, поэтому практически не обслуживался. У него не настроено никакого мониторинга и сбора метрик и вообще за ним особо не следят.
Данные телеметрии
Какие аномалии бросились в глаза:
- Процесс w3wp использовал более 50% CPU (обычно сильно меньше).
- Количество потоков в этом процесс стабильно прирастало (сайт не успевал обслужить клиентов).
- Диск на сервере БД использовался на 100% (Active Time).
- Длина очереди обращений к диску с базами проекта была большой (обычно в районе нуля-единиц).
- Оперативная память на сервер БД использована полностью.
- Профайлер показал, что есть один горячий метод, который ходит в БД.