На сбой OOM (Out of Memory) — приходится 30% всех сбоев. В этом модуле ты разберешь сценарий и научишься:
В 2020 году Slack столкнулся с серьезным инцидентом, который привел к 48-минутному простою сервиса. Проблема началась с резкого роста количества 503 HTTP ошибок, что привело к невозможности подключения пользователей. В социальных сетях появился шквал жалоб, а инженерам пришлось срочно увеличить пул серверов на 75% для восстановления работоспособности системы.
Причиной инцидента стала нехватка памяти (OOM - Out of Memory) в кластере Kubernetes, что привело к перезапуску подов и каскадному отказу сервисов. Этот случай наглядно демонстрирует, как проблемы с памятью могут привести к масштабному сбою даже в хорошо спроектированной системе.