Incident Management
Incident Management — это процесс управления инцидентами, направленный на быстрое восстановление нормальной работы сервиса и минимизацию влияния на бизнес. Это критически важная практика в SRE и DevOps.
Фазы инцидента
- Detection — обнаружение инцидента
- Response — первоначальная реакция
- Mitigation — временное устранение проблемы
- Resolution — полное решение проблемы
- Post-mortem — анализ после инцидента
Роли в управлении инцидентами
- Incident Commander — координирует действия
- Communications Lead — управляет коммуникациями
- Technical Lead — руководит техническим решением
- Subject Matter Expert — эксперт в конкретной области
Классификация инцидентов
- P0/Critical — полная недоступность сервиса
- P1/High — серьезное влияние на пользователей
- P2/Medium — частичное влияние
- P3/Low — минимальное влияние
Best practices
- Быстрое признание — подтвердить получение алерта
- Коммуникация — регулярные обновления статуса
- Документирование — записывать все действия
- Фокус на восстановление — не на поиске виновных
- Эскалация — привлекать дополнительные ресурсы при необходимости
Post-mortem процесс
- Временная линия — хронология событий
- Root cause analysis — анализ причин
- Action items — конкретные шаги для предотвращения
- Blameless culture — культура без обвинений
Инструменты для управления инцидентами
- PagerDuty — платформа управления инцидентами
- VictorOps — коллаборативная платформа
- Opsgenie — алертинг и эскалация
- Incident.io — современный инструмент
- Slack/Teams — для координации команды
Пример Incident Response Playbook
1# incident-response.yml
2incident_types:
3 - name: "Database Outage"
4 priority: "P0"
5 steps:
6 - "Acknowledge incident in monitoring system"
7 - "Create incident channel in Slack"
8 - "Notify stakeholders via status page"
9 - "Check database connectivity"
10 - "Review recent deployments"
11 - "Engage database expert if needed"
12 escalation_time: 15 # minutes
13
14 - name: "API Slowdown"
15 priority: "P1"
16 steps:
17 - "Check API response times"
18 - "Review application logs"
19 - "Monitor resource utilization"
20 - "Scale infrastructure if needed"
21 escalation_time: 30
Метрики Incident Management
- MTTD — Mean Time To Detection
- MTTA — Mean Time To Acknowledgment
- MTTR — Mean Time To Resolution
- Incident Frequency — частота инцидентов
FAQ
Что важнее при инциденте — скорость восстановления или поиск причины?
Скорость восстановления. Сначала восстановите сервис, потом ищите причину в спокойной обстановке.
Как проводить эффективные post-mortem?
Фокусируйся на процессах, а не на людях. Создай безопасную среду для обсуждения ошибок и обязательно выполняй action items.