Как оптимизировать Django ORM для производительности

Оптимизация Django ORM для производительности

Продвинутые методы оптимизации запросов для высоконагруженных приложений. Правильная оптимизация ORM может ускорить твое приложение в разы.

Анализ производительности запросов

Сначала научись анализировать запросы:

from django.db import connection
from django.test.utils import CaptureQueriesContext

# Подсчет количества запросов
with CaptureQueriesContext(connection) as context:
    books = Book.objects.all()
    for book in books:
        print(book.author.name)  # N+1 проблема!

print(f"Выполнено запросов: {len(context.captured_queries)}")

# Анализ медленных запросов
from django.db import connection
for query in connection.queries:
    print(f"Время: {query['time']} сек")
    print(f"SQL: {query['sql']}")

Оптимизация загрузки полей

only() - загружаем только нужные поля:

# Загружаем только нужные поля
books = Book.objects.only('title', 'author__name', 'price')

# Вместо полной модели загружаем только необходимые данные
book_titles = Book.objects.only('title').values_list('title', flat=True)

# Для списков используй values() для словарей
book_data = Book.objects.values('id', 'title', 'author__name')

defer() - откладываем загрузку больших полей:

# Откладываем загрузку больших полей
books = Book.objects.defer('description', 'content', 'full_text')

# Можно комбинировать only() и defer()
books = Book.objects.only('title', 'author').defer('author__bio')

# Проверяем, какие поля загружены
print(books.query.get_loaded_field_names())

Оптимизация связанных объектов

select_related() - для ForeignKey (JOIN):

# Без select_related - N+1 проблема
books = Book.objects.all()
for book in books:
    print(book.author.name)  # Отдельный запрос для каждой книги

# С select_related - один запрос с JOIN
books = Book.objects.select_related('author', 'publisher')
for book in books:
    print(book.author.name)  # Данные уже загружены

prefetch_related() - для ManyToMany и reverse ForeignKey:

# Без prefetch_related
authors = Author.objects.all()
for author in authors:
    print(f"{author.name}: {author.books.count()} книг")  # N+1 проблема

# С prefetch_related
authors = Author.objects.prefetch_related('books')
for author in authors:
    print(f"{author.name}: {len(author.books.all())} книг")  # Данные предзагружены

# Для сложных связей
authors = Author.objects.prefetch_related(
    'books',
    'books__publisher',
    'books__reviews'
)

Bulk операции

bulk_create() - массовое создание:

# Создаем много объектов за один запрос
books = [
    Book(title=f'Book {i}', author=author, price=10.99 + i)
    for i in range(1000)
]

# batch_size для больших объемов
Book.objects.bulk_create(books, batch_size=100)

# С ignore_conflicts=True для избежания дубликатов
Book.objects.bulk_create(books, ignore_conflicts=True)

bulk_update() - массовое обновление:

# Обновляем много объектов за один запрос
books = Book.objects.filter(category='fiction')
for book in books:
    book.price = book.price * 1.1
    book.updated_at = timezone.now()

# Обновляем только указанные поля
Book.objects.bulk_update(books, ['price', 'updated_at'], batch_size=100)

# С exclude_fields для исключения полей
Book.objects.bulk_update(books, ['price'], exclude_fields=['updated_at'])

Оптимизация агрегаций

Используй агрегации вместо Python-логики:

from django.db.models import Count, Avg, Sum, Max, Min

# Вместо Python-цикла используй агрегацию
# Плохо:
total_price = sum(book.price for book in Book.objects.all())

# Хорошо:
total_price = Book.objects.aggregate(Sum('price'))['price__sum']

# Сложные агрегации
stats = Book.objects.aggregate(
    total_books=Count('id'),
    avg_price=Avg('price'),
    max_price=Max('price'),
    min_price=Min('price')
)

# Группировка по полям
books_by_category = Book.objects.values('category').annotate(
    count=Count('id'),
    avg_price=Avg('price')
).order_by('category')

Оптимизация фильтрации

Используй эффективные фильтры:

# Избегай отрицательных фильтров
# Плохо:
books = Book.objects.exclude(category='fiction')

# Лучше:
categories = ['non-fiction', 'sci-fi', 'mystery']
books = Book.objects.filter(category__in=categories)

# Используй __in вместо множественных OR
# Плохо:
books = Book.objects.filter(
    Q(category='fiction') | Q(category='sci-fi') | Q(category='mystery')
)

# Лучше:
books = Book.objects.filter(category__in=['fiction', 'sci-fi', 'mystery'])

# Избегай __contains для больших текстов
# Плохо:
books = Book.objects.filter(description__contains='python')

# Лучше:
books = Book.objects.filter(description__icontains='python')

Raw SQL для сложных запросов

Когда ORM не справляется:

from django.db import connection

# Сложный запрос с JOIN и подзапросами
with connection.cursor() as cursor:
    cursor.execute("""
        SELECT
            a.name as author_name,
            COUNT(b.id) as book_count,
            AVG(b.price) as avg_price
        FROM myapp_author a
        LEFT JOIN myapp_book b ON a.id = b.author_id
        WHERE b.published_date >= %s
        GROUP BY a.id, a.name
        HAVING COUNT(b.id) > 5
        ORDER BY avg_price DESC
    """, [date(2020, 1, 1)])

    results = cursor.fetchall()

# Raw SQL с параметрами
books = Book.objects.raw("""
    SELECT * FROM myapp_book
    WHERE price BETWEEN %s AND %s
    AND category = %s
""", [10, 50, 'fiction'])

Индексы для производительности

Создавай правильные индексы:

# models.py
class Book(models.Model):
    title = models.CharField(max_length=200, db_index=True)
    author = models.ForeignKey(Author, on_delete=models.CASCADE)
    category = models.CharField(max_length=100)
    price = models.DecimalField(max_digits=10, decimal_places=2)
    published_date = models.DateField()

    class Meta:
        # Составной индекс для частых запросов
        indexes = [
            models.Index(fields=['category', 'published_date']),
            models.Index(fields=['author', 'category']),
            # Частичный индекс для дорогих книг
            models.Index(
                fields=['price'],
                condition=models.Q(price__gte=100)
            ),
        ]

Кэширование запросов

Используй кэширование для часто запрашиваемых данных:

from django.core.cache import cache
from django.views.decorators.cache import cache_page

# Кэширование view
@cache_page(60 * 15)  # 15 минут
def book_list(request):
    books = Book.objects.select_related('author').all()
    return render(request, 'books/list.html', {'books': books})

# Кэширование в коде
def get_expensive_data():
    cache_key = 'expensive_book_stats'
    result = cache.get(cache_key)

    if result is None:
        result = Book.objects.aggregate(
            total=Count('id'),
            avg_price=Avg('price')
        )
        cache.set(cache_key, result, 300)  # 5 минут

    return result

# Кэширование QuerySet
def get_popular_books():
    cache_key = 'popular_books'
    books = cache.get(cache_key)

    if books is None:
        books = list(Book.objects.filter(
            rating__gte=4.5
        ).select_related('author')[:10])
        cache.set(cache_key, books, 600)  # 10 минут

    return books

Оптимизация пагинации

Эффективная пагинация для больших списков:

from django.core.paginator import Paginator
from django.db.models import Count

# Оптимизированная пагинация
def optimized_book_list(request):
    page = request.GET.get('page', 1)

    # Используем count() для подсчета общего количества
    total_books = Book.objects.count()

    # Загружаем только нужную страницу
    books = Book.objects.select_related('author').order_by('title')[
        (int(page) - 1) * 20:int(page) * 20
    ]

    paginator = Paginator(books, 20)
    page_obj = paginator.get_page(page)

    return render(request, 'books/list.html', {
        'page_obj': page_obj,
        'total_count': total_books
    })

# Cursor-based пагинация для больших данных
def cursor_pagination(request):
    cursor = request.GET.get('cursor')
    limit = 20

    if cursor:
        books = Book.objects.filter(id__gt=cursor)[:limit]
    else:
        books = Book.objects.all()[:limit]

    next_cursor = books[-1].id if books else None

    return render(request, 'books/list.html', {
        'books': books,
        'next_cursor': next_cursor
    })

Мониторинг производительности

Отслеживай производительность в продакшене:

# Middleware для логирования медленных запросов
import time
import logging
from django.utils.deprecation import MiddlewareMixin

logger = logging.getLogger('django.db')

class QueryLoggingMiddleware(MiddlewareMixin):
    def process_request(self, request):
        request.start_time = time.time()

    def process_response(self, request, response):
        if hasattr(request, 'start_time'):
            duration = time.time() - request.start_time
            if duration > 1.0:  # Логируем запросы дольше 1 секунды
                logger.warning(
                    f'Медленный запрос: {request.path} - {duration:.2f}с'
                )
        return response

# Настройка в settings.py
LOGGING = {
    'version': 1,
    'disable_existing_loggers': False,
    'handlers': {
        'file': {
            'level': 'WARNING',
            'class': 'logging.FileHandler',
            'filename': 'slow_queries.log',
        },
    },
    'loggers': {
        'django.db': {
            'handlers': ['file'],
            'level': 'WARNING',
            'propagate': False,
        },
    },
}

Лучшие практики

Всегда используй select_related() для ForeignKey
Используй prefetch_related() для ManyToMany
Применяй only() и defer() для больших моделей
Используй bulk операции для массовых изменений
Создавай правильные индексы для частых запросов
Кэшируй часто запрашиваемые данные
Избегай N+1 проблем
Используй агрегации вместо Python-логики
Мониторь производительность в продакшене
Тестируй оптимизации на реальных данных

FAQ

Q: Когда использовать raw SQL?
A: Для сложных запросов, которые сложно выразить через ORM, или когда нужна максимальная производительность.

Q: Как избежать N+1 проблемы?
A: Используй select_related() для ForeignKey и prefetch_related() для ManyToMany.

Q: Когда использовать bulk операции?
A: Для создания/обновления более 100 объектов одновременно.

Q: Как оптимизировать пагинацию?
A: Используй count() для общего количества и загружай только нужную страницу.

Q: Нужно ли кэшировать все запросы?
A: Нет, только те, которые выполняются часто и редко изменяются.

Q: Как определить медленные запросы?
A: Используй django-debug-toolbar в разработке и логирование в продакшене.