Что такое Incident Management?

Incident Management

Incident Management — это процесс управления инцидентами, направленный на быстрое восстановление нормальной работы сервиса и минимизацию влияния на бизнес. Это критически важная практика в SRE и DevOps.

Фазы инцидента

Detection — обнаружение инцидента
Response — первоначальная реакция
Mitigation — временное устранение проблемы
Resolution — полное решение проблемы
Post-mortem — анализ после инцидента

Роли в управлении инцидентами

Incident Commander — координирует действия
Communications Lead — управляет коммуникациями
Technical Lead — руководит техническим решением
Subject Matter Expert — эксперт в конкретной области

Классификация инцидентов

P0/Critical — полная недоступность сервиса
P1/High — серьезное влияние на пользователей
P2/Medium — частичное влияние
P3/Low — минимальное влияние

Best practices

Быстрое признание — подтвердить получение алерта
Коммуникация — регулярные обновления статуса
Документирование — записывать все действия
Фокус на восстановление — не на поиске виновных
Эскалация — привлекать дополнительные ресурсы при необходимости

Post-mortem процесс

Временная линия — хронология событий
Root cause analysis — анализ причин
Action items — конкретные шаги для предотвращения
Blameless culture — культура без обвинений

Инструменты для управления инцидентами

PagerDuty — платформа управления инцидентами
VictorOps — коллаборативная платформа
Opsgenie — алертинг и эскалация
Incident.io — современный инструмент
Slack/Teams — для координации команды

Пример Incident Response Playbook

# incident-response.yml
incident_types:
  - name: "Database Outage"
    priority: "P0"
    steps:
      - "Acknowledge incident in monitoring system"
      - "Create incident channel in Slack"
      - "Notify stakeholders via status page"
      - "Check database connectivity"
      - "Review recent deployments"
      - "Engage database expert if needed"
    escalation_time: 15  # minutes

  - name: "API Slowdown"
    priority: "P1"
    steps:
      - "Check API response times"
      - "Review application logs"
      - "Monitor resource utilization"
      - "Scale infrastructure if needed"
    escalation_time: 30

Метрики Incident Management

MTTD — Mean Time To Detection
MTTA — Mean Time To Acknowledgment
MTTR — Mean Time To Resolution
Incident Frequency — частота инцидентов

FAQ

Что важнее при инциденте — скорость восстановления или поиск причины?

Скорость восстановления. Сначала восстановите сервис, потом ищите причину в спокойной обстановке.

Как проводить эффективные post-mortem?

Фокусируйся на процессах, а не на людях. Создай безопасную среду для обсуждения ошибок и обязательно выполняй action items.