Что такое Postmortem (Постмортем анализ)?

Postmortem (Постмортем)

Postmortem — это детальный анализ инцидента после его завершения, включающий описание причин, последствий и выработку конкретных решений для предотвращения повторения подобных проблем. Культура postmortem является основой Blameless Culture в SRE.

Принципы Blameless Postmortem

Без обвинений — фокус на процессах, а не на людях
Обучение — извлечение уроков из инцидентов
Прозрачность — открытое обсуждение проблем
Системное мышление — анализ системы в целом

Структура Postmortem

Краткое описание — что произошло
Временная линия — хронология событий
Root cause analysis — анализ корневых причин
Воздействие — влияние на пользователей и бизнес
Что сработало хорошо — положительные моменты
Что можно улучшить — области для развития
Action items — конкретные шаги для улучшения

Пример шаблона Postmortem

# Postmortem: Database Outage - 2025-01-27

## Краткое описание
27 января 2025 года в 14:30 UTC произошел полный отказ основной базы данных, 
что привело к недоступности API в течение 45 минут.

## Воздействие
- Полная недоступность API для всех пользователей
- 100% error rate на критических эндпоинтах
- Потеря ~1000 запросов пользователей
- Нарушение SLO (99.9% → 98.9% за месяц)

## Временная линия (UTC)
- 14:30 - Первые алерты о высокой задержке DB
- 14:32 - Полный отказ подключений к базе
- 14:35 - Incident Commander назначен
- 14:40 - Переключение на резервную базу начато
- 14:50 - Восстановление трафика на standby
- 15:15 - Полное восстановление сервиса

## Root Cause Analysis
### Основная причина
Исчерпание дискового пространства на основном сервере БД 
из-за неконтролируемого роста логов.

### Способствующие факторы
- Отсутствие алертов на дисковое пространство
- Отключенная автоматическая ротация логов
- Недостаточный мониторинг роста данных

## Что сработало хорошо
- Быстрое обнаружение проблемы (2 минуты)
- Эффективная коммуникация в команде
- Резервная база была готова к переключению

## Action Items
| Действие | Ответственный | Срок | Статус |
|----------|---------------|------|--------|
| Настроить алерт на дисковое пространство | @sre-team | 2025-02-03 | В работе |
| Включить автоматическую ротацию логов | @db-team | 2025-02-01 | Выполнено |
| Автоматизировать failover процедуру | @sre-team | 2025-02-15 | Запланировано |

## Извлеченные уроки
- Важность мониторинга всех ресурсов, не только производительности
- Необходимость регулярного тестирования disaster recovery процедур
- Ценность автоматизации рутинных операций

Процесс проведения Postmortem

Сразу после инцидента — собрать первичные данные
В течение 24-48 часов — провести встречу команды
Через неделю — финализировать документ
Через месяц — проверить выполнение action items

Инструменты для Postmortem

# Автоматизация сбора данных для postmortem
import json
from datetime import datetime, timedelta
import requests

class PostmortemDataCollector:
    def __init__(self, prometheus_url, grafana_url):
        self.prometheus_url = prometheus_url
        self.grafana_url = grafana_url
        
    def collect_incident_metrics(self, start_time, end_time):
        """Сбор метрик за период инцидента"""
        metrics = {}
        
        # Запрос метрик из Prometheus
        queries = {
            'error_rate': 'rate(http_requests_total{status=~"5.."}[5m])',
            'latency_p95': 'histogram_quantile(0.95, rate(http_request_duration_seconds_bucket[5m]))',
            'cpu_usage': 'avg(cpu_usage_percent)',
            'memory_usage': 'avg(memory_usage_percent)'
        }
        
        for metric_name, query in queries.items():
            try:
                response = requests.get(
                    f"{self.prometheus_url}/api/v1/query_range",
                    params={
                        'query': query,
                        'start': start_time.timestamp(),
                        'end': end_time.timestamp(),
                        'step': '1m'
                    }
                )
                metrics[metric_name] = response.json()
            except Exception as e:
                print(f"Error collecting {metric_name}: {e}")
                
        return metrics
        
    def generate_timeline(self, log_entries):
        """Генерация временной линии из логов"""
        timeline = []
        for entry in log_entries:
            timeline.append({
                'timestamp': entry['timestamp'],
                'event': entry['message'],
                'source': entry.get('source', 'unknown')
            })
        return sorted(timeline, key=lambda x: x['timestamp'])
        
    def create_postmortem_template(self, incident_data):
        """Создание шаблона postmortem"""
        template = {
            'title': f"Postmortem: {incident_data['title']}",
            'date': incident_data['date'],
            'duration': incident_data['duration'],
            'impact': incident_data['impact'],
            'timeline': incident_data['timeline'],
            'root_cause': '',  # Заполняется вручную
            'action_items': [],  # Заполняется вручную
            'lessons_learned': []  # Заполняется вручную
        }
        return template

# Установка через pip
pip install requests jinja2

# Установка через poetry
poetry add requests jinja2

FAQ

Зачем нужен постмортем?

Постмортем помогает команде учиться на ошибках, улучшать процессы и инфраструктуру, а также предотвращать повторение аналогичных инцидентов в будущем.

Кто должен участвовать в постмортеме?

Все участники реагирования на инцидент: инженеры, менеджеры, представители бизнеса. Важно включить разные точки зрения для полного понимания проблемы.