О чем это доклад

Обзор выступления Глеба Гончарова на Highload 2023, где он проводит параллели между управлением многоквартирным домом и IT-инфраструктурой. Глеб — айтишник, а также председатель ТСЖ в своем 48-квартирном доме. Он делится опытом применения SRE-практик в реальном мире ЖКХ и показывает, как принципы эксплуатации домов могут улучшить работу IT-команд.

Контекст

68% россиян живут в многоквартирных домах. Управление такими домами — это сложная инженерная задача, которая имеет много общего с эксплуатацией IT-систем. Обе сферы требуют регулярного обслуживания, мониторинга, работы со сбоями и обеспечения безопасности.

SRE-практики — это не только про IT. Это системный подход к управлению любой сложной инфраструктурой, будь то дата-центр или многоквартирный дом.

Аналогия структуры УК и SRE

ЖКХ IT
Жильцы Конечные пользователи
Собственники Разработчики
Управляющая компания Служба эксплуатации (Infrastructure)
Жилищная инспекция Служба качества (QA)
Росстат Команда observability
Старший по дому SRE-команда/роль

Структура УК и SRE

Принципы эксплуатации

  • Регулярное обслуживание — обновление, настройка, ввод/вывод оборудования
  • Бесперебойность — непрерывное наблюдение за системами
  • Безопасность — защита от проникновений, пожаров, утечек
  • Работа со сбоями — готовность к решению непредвиденных проблем

Истории из жизни УК/SRE: практические кейсы

История 1: Выбор управляющей компании — формирование эффективной команды

Проблема: Как выбрать эффективную службу эксплуатации дома?

Решение: Глеб рекомендует искать компанию с:

  • Кроссфункциональной командой инженеров (сантехник, электрик, плотник)
  • Матрицей грейдов и квалификационных категорий
  • Небольшим размером (не более 10 домов для эффективной коммуникации)
  • T-shaped специалистами — экспертами в своей области с кругозором в других

Команда должна быть достаточно небольшой — эффективно функционирующие команды всегда имеют небольшой размер, как правило не больше 10 человек.

История 2: Лавочка и дыра в безопасности

Проблема: Домофонная дверь постоянно была открыта из-за жильца, который помогал пожилым людям.

Решение: Установили лавочки у подъезда — проблема решилась сама собой.

Урок: Правильные коммуникации помогают решать разногласия. Рекомендуется:

  • Единая канбан-доска с заявками
  • Прозрачность и открытость информации
  • Избегать общедомовых чатов — только каналы с анонсами

Лавочка у подъезда

История 3: Уборка снега и чендж-менеджмент

Проблема: Плохая подготовка к плановым работам привела к переносу уборки снега.

Решение: Внедрил процессы чендж-менеджмента:

  • Общий календарь плановых работ
  • Анализ времени для обслуживания системы
  • Планы наката и отката
  • Определение метрик и контр-метрик
  • Автоматизация нагрузочных тестов

Применение в IT: Чендж-менеджмент в IT включает те же принципы — планирование, тестирование, мониторинг и возможность отката.

История 4: Потоп и управление инцидентами — готовность к сбоям

Проблема: Протечка на 12-м этаже — не смогли найти телефон диспетчерской, ключи, 3 дня без воды.

Решение: Внедрил процессы управления инцидентами:

  • Круглосуточная диспетчерская (on-call дежурства)
  • Список важных контактов
  • Инструкции по восстановлению (runbooks)
  • Анализ инцидентов и постмортемы
  • Учения по хаос-инжинирингу

Применение в IT: Эти практики напрямую применимы к IT-инцидентам. Подробнее о том, как правильно анализировать инциденты, читай в статье про постмортем анализ.

Ключевые принципы SRE в ЖКХ: системный подход

Принципы SRE в ЖКХ

Наблюдаемость систем: метрики и телеметрия

Хорошая команда использует инструменты для сбора телеметрии и проводит регулярные ревью показателей. Важно знать нормы системы и выбирать адекватные цели для обеспечения качества.

Примеры метрик в ЖКХ:

  • Время отклика на заявки (MTTR)
  • Количество инцидентов в месяц
  • Процент выполненных плановых работ
  • Удовлетворенность жильцов

Чендж-менеджмент: управление изменениями

  • Создание общего календаря плановых работ
  • Анализ времени для обслуживания системы
  • Категоризация работ по степени риска
  • Разработка планов наката и отката
  • Определение метрик и контр-метрик

Управление инцидентами: готовность к сбоям

  • Ведение аудитлогов и использование телеметрии
  • Организация круглосуточных дежурств
  • Создание инструкций по восстановлению
  • Регистрация инцидентов и учет основных показателей
  • Проведение учений согласно подходу хаос-инжиниринга

Заключение

Глеб показывает, что принципы SRE универсальны и применимы не только в IT. Управление многоквартирным домом — это такая же инженерная задача, требующая системного подхода, мониторинга, управления изменениями и инцидентами.

SRE — это не только про технологии. Это про системное мышление и управление сложными системами.

Хочешь научиться правильно работать с инцидентами и не паниковать при сбоях?

Изучай реальные инциденты и развивай навыки диагностики — посмотри коллекцию тренировок на основе реальных сбоев из практики. Можно попробовать демо-тренировку и прочувствовать, что такое настоящий инцидент в безопасной среде.