Дисциплина, объединяющая аспекты разработки ПО и системного администрирования
Цель уровня обслуживания, определяющая ожидаемую производительность сервиса
Способность понимать внутреннее состояние системы по внешним выходным данным для эффективного мониторинга
Процесс управления инцидентами для быстрого восстановления сервиса и минимизации влияния на бизнес
Соглашение о качестве сервиса между поставщиком и клиентом с определением уровня доступности и времени реакции.
Ключевая метрика для измерения качества работы сервиса в реальном времени.
Внутренняя целевая метрика уровня сервиса для контроля качества и надежности системы.
Ручная и повторяющаяся, низкозатратная по интеллектуальной ценности работа, которую желательно автоматизировать.
Допустимый объём ошибок, который не влияет на удовлетворённость пользователей и помогает балансировать стабильность с и…
Наблюдение за состоянием сервисов и инфраструктуры для выявления инцидентов и контроля производительности.
Механизм оповещения о критических событиях или отклонениях показателей для быстрого реагирования на проблемы.
Процесс анализа инцидентов и поиска корневых причин без поиска виноватых для улучшения процессов.
Основы разработки программного обеспечения, алгоритмы, паттерны проектирования
Python программирование, библиотеки, фреймворки и экосистема
Работа с моделями Django, ORM, миграции, PostgreSQL и оптимизация запросов
Освой сбои на темы
Очереди
База данных
Сеть
Диск
Приложение
Ресурсы
Как хочешь двигаться дальше?