О чем это доклад
Обзор выступления Глеба Гончарова на Highload 2023, где он проводит параллели между управлением многоквартирным домом и IT-инфраструктурой. Глеб — айтишник, а также председатель ТСЖ в своем 48-квартирном доме. Он делится опытом применения SRE-практик в реальном мире ЖКХ и показывает, как принципы эксплуатации домов могут улучшить работу IT-команд.
Контекст
68% россиян живут в многоквартирных домах. Управление такими домами — это сложная инженерная задача, которая имеет много общего с эксплуатацией IT-систем. Обе сферы требуют регулярного обслуживания, мониторинга, работы со сбоями и обеспечения безопасности.
SRE-практики — это не только про IT. Это системный подход к управлению любой сложной инфраструктурой, будь то дата-центр или многоквартирный дом.
Аналогия структуры УК и SRE
ЖКХ | IT |
---|---|
Жильцы | Конечные пользователи |
Собственники | Разработчики |
Управляющая компания | Служба эксплуатации (Infrastructure) |
Жилищная инспекция | Служба качества (QA) |
Росстат | Команда observability |
Старший по дому | SRE-команда/роль |
Принципы эксплуатации
- Регулярное обслуживание — обновление, настройка, ввод/вывод оборудования
- Бесперебойность — непрерывное наблюдение за системами
- Безопасность — защита от проникновений, пожаров, утечек
- Работа со сбоями — готовность к решению непредвиденных проблем
Истории из жизни УК/SRE: практические кейсы
История 1: Выбор управляющей компании — формирование эффективной команды
Проблема: Как выбрать эффективную службу эксплуатации дома?
Решение: Глеб рекомендует искать компанию с:
- Кроссфункциональной командой инженеров (сантехник, электрик, плотник)
- Матрицей грейдов и квалификационных категорий
- Небольшим размером (не более 10 домов для эффективной коммуникации)
- T-shaped специалистами — экспертами в своей области с кругозором в других
Команда должна быть достаточно небольшой — эффективно функционирующие команды всегда имеют небольшой размер, как правило не больше 10 человек.
История 2: Лавочка и дыра в безопасности
Проблема: Домофонная дверь постоянно была открыта из-за жильца, который помогал пожилым людям.
Решение: Установили лавочки у подъезда — проблема решилась сама собой.
Урок: Правильные коммуникации помогают решать разногласия. Рекомендуется:
- Единая канбан-доска с заявками
- Прозрачность и открытость информации
- Избегать общедомовых чатов — только каналы с анонсами
История 3: Уборка снега и чендж-менеджмент
Проблема: Плохая подготовка к плановым работам привела к переносу уборки снега.
Решение: Внедрил процессы чендж-менеджмента:
- Общий календарь плановых работ
- Анализ времени для обслуживания системы
- Планы наката и отката
- Определение метрик и контр-метрик
- Автоматизация нагрузочных тестов
Применение в IT: Чендж-менеджмент в IT включает те же принципы — планирование, тестирование, мониторинг и возможность отката.
История 4: Потоп и управление инцидентами — готовность к сбоям
Проблема: Протечка на 12-м этаже — не смогли найти телефон диспетчерской, ключи, 3 дня без воды.
Решение: Внедрил процессы управления инцидентами:
- Круглосуточная диспетчерская (on-call дежурства)
- Список важных контактов
- Инструкции по восстановлению (runbooks)
- Анализ инцидентов и постмортемы
- Учения по хаос-инжинирингу
Применение в IT: Эти практики напрямую применимы к IT-инцидентам. Подробнее о том, как правильно анализировать инциденты, читай в статье про постмортем анализ.
Ключевые принципы SRE в ЖКХ: системный подход
Наблюдаемость систем: метрики и телеметрия
Хорошая команда использует инструменты для сбора телеметрии и проводит регулярные ревью показателей. Важно знать нормы системы и выбирать адекватные цели для обеспечения качества.
Примеры метрик в ЖКХ:
- Время отклика на заявки (MTTR)
- Количество инцидентов в месяц
- Процент выполненных плановых работ
- Удовлетворенность жильцов
Чендж-менеджмент: управление изменениями
- Создание общего календаря плановых работ
- Анализ времени для обслуживания системы
- Категоризация работ по степени риска
- Разработка планов наката и отката
- Определение метрик и контр-метрик
Управление инцидентами: готовность к сбоям
- Ведение аудитлогов и использование телеметрии
- Организация круглосуточных дежурств
- Создание инструкций по восстановлению
- Регистрация инцидентов и учет основных показателей
- Проведение учений согласно подходу хаос-инжиниринга
Заключение
Глеб показывает, что принципы SRE универсальны и применимы не только в IT. Управление многоквартирным домом — это такая же инженерная задача, требующая системного подхода, мониторинга, управления изменениями и инцидентами.
SRE — это не только про технологии. Это про системное мышление и управление сложными системами.
Хочешь научиться правильно работать с инцидентами и не паниковать при сбоях?
Изучай реальные инциденты и развивай навыки диагностики — посмотри коллекцию тренировок на основе реальных сбоев из практики. Можно попробовать демо-тренировку и прочувствовать, что такое настоящий инцидент в безопасной среде.