Учим видеть сбои на графиках, чтобы не паниковать, когда это случится на твоей работе.
Доступность — способность объекта выполнять требуемые функции в определенный момент времени
Надежность — это свойство системы сохранять работоспособность в заданных условиях
Chaos Mesh — инструмент для хаос-инжиниринга в Kubernetes, позволяющий тестировать отказоустойчивость систем
Обзор доклада о применении SRE-практик в управлении ЖКХ
Post Mortem — это анализ причин, шагов, последствий инцидента, который проводится после его завершения
Обзор популярных инструментов для мониторинга IT-систем: Prometheus, Grafana, ELK Stack и другие
Практические тренажеры для обучения DevOps без риска для продакшена
Incidenta — тренажер IT-инцидентов для тех, кто релизит и тех, кто чинит
SRE (Site Reliability Engineering) — инженерная дисциплина, объединяющая разработку и эксплуатацию систем
Оставайся в курсе событий: подпишись на нашу RSS-ленту
Освой сбои на темы
Очереди
База данных
Сеть
Диск
Приложение
Ресурсы
Как хочешь двигаться дальше?