Что такое Alerting (Алертинг)?

Alerting (Алертинг)

Алертинг — это система автоматических оповещений, которая срабатывает при критических событиях или отклонениях показателей от нормальных значений. Алертинг позволяет командам быстро реагировать на проблемы и минимизировать время простоя сервисов.

Типы алертов

Симптомные алерты — основаны на пользовательском опыте
Причинные алерты — показывают конкретные проблемы инфраструктуры
Пороговые алерты — срабатывают при превышении лимитов
Аномальные алерты — обнаруживают отклонения от нормы

Уровни критичности

P0/Critical — полная недоступность сервиса
P1/High — серьезное влияние на пользователей
P2/Medium — частичное влияние на функциональность
P3/Low — предупреждения и информационные алерты

Настройка алертинга

# Пример конфигурации алертов в Prometheus
groups:
  - name: web-service-alerts
    rules:
      - alert: HighErrorRate
        expr: rate(http_requests_total{status=~"5.."}[5m]) > 0.1
        for: 5m
        labels:
          severity: critical
        annotations:
          summary: "High error rate detected"
          description: "Error rate is {{ $value }} errors per second"

      - alert: HighLatency
        expr: histogram_quantile(0.95, rate(http_request_duration_seconds_bucket[5m])) > 0.5
        for: 2m
        labels:
          severity: warning
        annotations:
          summary: "High latency detected"
          description: "95th percentile latency is {{ $value }}s"

      - alert: ServiceDown
        expr: up{job="web-service"} == 0
        for: 1m
        labels:
          severity: critical
        annotations:
          summary: "Service is down"
          description: "{{ $labels.instance }} is not responding"

Каналы уведомлений

Email — для некритичных уведомлений
SMS — для критичных алертов
Slack/Teams — для командной коммуникации
PagerDuty — для эскалации и дежурств
Webhooks — для интеграции с другими системами

Best practices алертинга

Алертить на симптомы — не на причины
Минимизировать false positives — избегать ложных тревог
Группировка алертов — объединять связанные проблемы
Эскалация — автоматическая передача выше при неотвечении
Документирование — runbook для каждого алерта

Пример Python-интеграции

# Интеграция с системой алертинга
import requests
import json
from datetime import datetime

class AlertManager:
    def __init__(self, webhook_url):
        self.webhook_url = webhook_url
        
    def send_alert(self, severity, title, message, tags=None):
        """Отправка алерта через webhook"""
        payload = {
            "timestamp": datetime.utcnow().isoformat(),
            "severity": severity,
            "title": title,
            "message": message,
            "tags": tags or []
        }
        
        try:
            response = requests.post(
                self.webhook_url,
                data=json.dumps(payload),
                headers={'Content-Type': 'application/json'},
                timeout=10
            )
            response.raise_for_status()
            return True
        except requests.RequestException as e:
            print(f"Failed to send alert: {e}")
            return False
            
    def check_service_health(self, service_url):
        """Проверка здоровья сервиса и отправка алерта при проблемах"""
        try:
            response = requests.get(service_url, timeout=5)
            if response.status_code != 200:
                self.send_alert(
                    severity="high",
                    title="Service Health Check Failed",
                    message=f"Service returned status {response.status_code}",
                    tags=["health-check", "service-down"]
                )
        except requests.RequestException:
            self.send_alert(
                severity="critical",
                title="Service Unreachable",
                message=f"Cannot connect to {service_url}",
                tags=["health-check", "service-unreachable"]
            )

# Установка через pip
pip install requests alertmanager-api

# Установка через poetry
poetry add requests alertmanager-api

FAQ

Какие бывают алерты?

Основные типы: симптомные (на основе пользовательского опыта), причинные (конкретные проблемы), пороговые (превышение лимитов) и аномальные (отклонения от нормы).

Как избежать alert fatigue?

Настраивай алерты только на действительно важные события, группируй связанные алерты, используй правильные пороги и регулярно пересматривай настройки.