Как исправить Liveness probe failed в Kubernetes

Что такое Liveness probe failed?

Ошибка Liveness probe failed возникает, когда Kubernetes определяет, что приложение не работает корректно и перезапускает контейнер.

Причины возникновения

Приложение зависло или не отвечает
Высокое использование ресурсов
Ошибки в коде приложения
Проблемы с зависимостями
Неправильная конфигурация probe
Проблемы с сетью внутри контейнера

Как отладить ошибку

Проверь логи приложения - kubectl logs pod-name
Проверь предыдущие логи - kubectl logs pod-name --previous
Проверь события пода - kubectl describe pod pod-name
Проверь ресурсы - kubectl top pod pod-name
Проверь health endpoint - kubectl exec pod-name -- curl localhost:8080/health

Как исправить ошибку

1. Настрой правильный liveness probe

apiVersion: v1
kind: Pod
metadata:
  name: my-app
spec:
  containers:
  - name: app
    image: nginx:latest
    livenessProbe:
      httpGet:
        path: /health
        port: 8080
      initialDelaySeconds: 30
      periodSeconds: 10
      timeoutSeconds: 5
      failureThreshold: 3
      successThreshold: 1

2. Создай надежный health endpoint

# Пример для Python/Flask
from flask import Flask
import threading
import time

app = Flask(__name__)
health_status = True

def background_task():
    global health_status
    while True:
        try:
            # Проверь критичные компоненты
            check_database()
            check_redis()
            health_status = True
        except Exception as e:
            health_status = False
            print(f"Health check failed: {e}")
        time.sleep(30)

@app.route('/health')
def health_check():
    if health_status:
        return {'status': 'healthy'}, 200
    else:
        return {'status': 'unhealthy'}, 503

if __name__ == '__main__':
    # Запусти background task
    thread = threading.Thread(target=background_task)
    thread.daemon = True
    thread.start()
    
    app.run(host='0.0.0.0', port=8080)

3. Исправь проблемы с ресурсами

apiVersion: v1
kind: Pod
metadata:
  name: my-app
spec:
  containers:
  - name: app
    image: nginx:latest
    resources:
      requests:
        memory: "256Mi"
        cpu: "250m"
      limits:
        memory: "512Mi"
        cpu: "500m"
    livenessProbe:
      httpGet:
        path: /health
        port: 8080
      initialDelaySeconds: 60
      periodSeconds: 30

4. Настрой exec probe для сложных проверок

apiVersion: v1
kind: Pod
metadata:
  name: my-app
spec:
  containers:
  - name: app
    image: nginx:latest
    livenessProbe:
      exec:
        command:
        - /bin/sh
        - -c
        - |
          if [ $(ps aux | grep nginx | grep -v grep | wc -l) -eq 0 ]; then
            exit 1
          fi
          if [ $(curl -f http://localhost:8080/health || echo "FAIL") = "FAIL" ]; then
            exit 1
          fi
      initialDelaySeconds: 30
      periodSeconds: 15

5. Исправь проблемы с зависимостями

apiVersion: v1
kind: Pod
metadata:
  name: my-app
spec:
  initContainers:
  - name: wait-for-dependencies
    image: busybox
    command: ['sh', '-c', 'until nc -z db 5432 && nc -z redis 6379; do echo waiting for dependencies; sleep 2; done;']
  containers:
  - name: app
    image: nginx:latest
    livenessProbe:
      httpGet:
        path: /health
        port: 8080
      initialDelaySeconds: 30
      periodSeconds: 10

6. Настрой restart policy

apiVersion: v1
kind: Pod
metadata:
  name: my-app
spec:
  restartPolicy: Always
  containers:
  - name: app
    image: nginx:latest
    livenessProbe:
      httpGet:
        path: /health
        port: 8080
      initialDelaySeconds: 30
      periodSeconds: 10

Как мониторить подобные ошибки

Мониторь количество перезапусков подов
Настрой алерты на liveness probe failures
Проверяй метрики приложения
Логируй все probe failures

FAQ

В: Как часто должен выполняться liveness probe?

О: Обычно каждые 10-30 секунд, но зависит от приложения и требований.

В: Что делать, если приложение медленно отвечает?

О: Увеличь timeoutSeconds, настрой правильный failureThreshold.

В: Как избежать бесконечных перезапусков?

О: Исправь корневую причину проблемы, настрой правильные probe параметры.

Лучшие практики

Создавай легкие и быстрые health endpoints
Не включай тяжелые операции в liveness probe
Настрой правильные timeout и failureThreshold
Мониторь количество перезапусков
Исправляй корневые причины проблем