Как исправить Service health check failed в CI/CD

Что такое Service health check failed?

Ошибка Service health check failed возникает, когда проверка состояния сервиса в CI/CD пайплайне завершается неудачно, что указывает на проблемы с работоспособностью приложения.

Причины возникновения

Сервис не запустился после деплоя
Проблемы с конфигурацией приложения
Недостаточно ресурсов (CPU, память, диск)
Проблемы с сетевым подключением
Ошибки в коде приложения
Проблемы с зависимостями
Неправильные настройки health check
Проблемы с правами доступа

Как отладить ошибку

Проверь логи сервиса - найди причину неудачного запуска
Проверь ресурсы системы - убедись в достаточности CPU, памяти
Проверь сетевые настройки - убедись в доступности портов
Проверь конфигурацию - убедись в правильности настроек
Проверь зависимости - убедись в доступности БД и других сервисов

Как исправить ошибку

1. Настрой правильный health check endpoint

# Django health check endpoint
from django.http import JsonResponse
from django.db import connection

def health_check(request):
    try:
        # Проверка подключения к БД
        with connection.cursor() as cursor:
            cursor.execute("SELECT 1")
        
        # Проверка других зависимостей
        return JsonResponse({
            'status': 'healthy',
            'database': 'connected',
            'timestamp': time.time()
        })
    except Exception as e:
        return JsonResponse({
            'status': 'unhealthy',
            'error': str(e)
        }, status=500)

2. Настрой Docker health check

# Dockerfile с health check
FROM python:3.11-slim

WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt

COPY . .

# Настройка health check
HEALTHCHECK --interval=30s --timeout=10s --start-period=5s --retries=3 \
    CMD curl -f http://localhost:8000/health/ || exit 1

EXPOSE 8000
CMD ["python", "manage.py", "runserver", "0.0.0.0:8000"]

3. Настрой Kubernetes health check

# k8s-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: my-app
  template:
    metadata:
      labels:
        app: my-app
    spec:
      containers:
      - name: my-app
        image: my-app:latest
        ports:
        - containerPort: 8000
        livenessProbe:
          httpGet:
            path: /health/
            port: 8000
          initialDelaySeconds: 30
          periodSeconds: 10
          timeoutSeconds: 5
          failureThreshold: 3
        readinessProbe:
          httpGet:
            path: /health/
            port: 8000
          initialDelaySeconds: 5
          periodSeconds: 5
          timeoutSeconds: 3
          failureThreshold: 3

4. Настрой мониторинг ресурсов

#!/bin/bash
# health-check-script.sh

# Проверка CPU
cpu_usage=$(top -bn1 | grep "Cpu(s)" | awk '{print $2}' | cut -d'%' -f1)
if [ "$cpu_usage" -gt 90 ]; then
    echo "High CPU usage: ${cpu_usage}%"
    exit 1
fi

# Проверка памяти
memory_usage=$(free | grep Mem | awk '{printf("%.2f", $3/$2 * 100.0)}')
if [ "$memory_usage" -gt 90 ]; then
    echo "High memory usage: ${memory_usage}%"
    exit 1
fi

# Проверка диска
disk_usage=$(df / | tail -1 | awk '{print $5}' | cut -d'%' -f1)
if [ "$disk_usage" -gt 90 ]; then
    echo "High disk usage: ${disk_usage}%"
    exit 1
fi

echo "System resources OK"

5. Настрой CI/CD для health check

# .github/workflows/deploy.yml
name: Deploy with Health Check
on: [push]

jobs:
  deploy:
    runs-on: ubuntu-latest
    steps:
    - uses: actions/checkout@v3
    
    - name: Deploy to staging
      run: |
        # Деплой приложения
        kubectl apply -f k8s/
    
    - name: Wait for deployment
      run: |
        kubectl rollout status deployment/my-app --timeout=300s
    
    - name: Health check
      run: |
        # Ждем готовности подов
        kubectl wait --for=condition=ready pod -l app=my-app --timeout=300s
        
        # Проверяем health check endpoint
        for i in {1..30}; do
          if curl -f http://staging.myapp.com/health/; then
            echo "Health check passed"
            break
          fi
          echo "Health check failed, retrying..."
          sleep 10
        done
        
        if [ $i -eq 30 ]; then
          echo "Health check failed after 30 attempts"
          exit 1
        fi

Как мониторить подобные ошибки

Настрой алерты на failed health checks
Мониторь время ответа health check
Отслеживай доступность сервисов
Настрой мониторинг ресурсов системы
Используй метрики для анализа проблем

FAQ

В: Как часто должен выполняться health check?

О: Обычно каждые 30-60 секунд, но зависит от критичности сервиса и требований к мониторингу.

В: Что делать, если health check падает периодически?

О: Проверь стабильность зависимостей, настрой retry логику, оптимизируй производительность.

В: Как настроить health check для микросервисов?

О: Создай отдельный endpoint для каждого сервиса, настрой circuit breaker, используй service mesh.

Лучшие практики

Создавай легкие и быстрые health check endpoints
Проверяй критические зависимости в health check
Настрой правильные таймауты и интервалы
Используй разные проверки для liveness и readiness
Мониторь производительность health check
Настрой автоматическое восстановление