На сбой OOM (Out of Memory) — приходится 30% всех сбоев. В этом модуле ты разберешь сценарий и научишься:

  • Определять признаки нехватки памяти
  • Анализировать метрики использования памяти
  • Находить процессы, потребляющие избыточное количество ресурсов
  • Применять стратегии предотвращения OOM-ошибок
Описание эксперимента
Эксперимент моделирует ситуацию нехватки памяти в production-окружении. Позволяет изучить признаки OOM, научиться анализировать метрики памяти и предотвращать подобные сбои.
Приложение «Цитаты великих умов»
Стандартное web-приложение, которое генерирует и отображает философские фразы на странице. А что? Хороший источник для постов в социальную сеть. :)
Историческая справка
 

В 2020 году Slack столкнулся с серьезным инцидентом, который привел к 48-минутному простою сервиса. Проблема началась с резкого роста количества 503 HTTP ошибок, что привело к невозможности подключения пользователей. В социальных сетях появился шквал жалоб, а инженерам пришлось срочно увеличить пул серверов на 75% для восстановления работоспособности системы.

Причиной инцидента стала нехватка памяти (OOM - Out of Memory) в кластере Kubernetes, что привело к перезапуску подов и каскадному отказу сервисов. Этот случай наглядно демонстрирует, как проблемы с памятью могут привести к масштабному сбою даже в хорошо спроектированной системе.