23 апреля на OMNI Infrastructure Meetup эксперты из Авито, Магнит OMNI, Лаборатории Касперского и Cloud.ru обсудили, как создавать системы, устойчивые к любым сбоям. Рассказываем о самых важных инсайтах.

В московском офисе Магнита и онлайн собрались DevOps-инженеры, платформенные специалисты и разработчики, чтобы разобрать реальные кейсы повышения отказоустойчивости. Гибридный формат позволил присоединиться участникам из разных городов — дискуссия получилась по-настоящему живой.

Видео и презентации докладов

Avito Static Fallback: без паники, в продакшене работает статистика

Николай Губин, Backend Engineer Авито

Настоящий behind the scenes о работе Авито. Николай рассказал, как fallback-система кэширования обеспечивает бесперебойную работу сервиса, даже когда основные системы недоступны, как собирается и доставляется в продакшен статика с Авито и поделился планами по развитию системы и архитектуры.

Все стабильно нестабильно — как мы с этим боролись

Вячеслав Валявский, Tech Lead SRE Магнит OMNI

Вячеслав рассказал о классном кейсе: как всего за год удалось улучшить наблюдаемость, отказоустойчивость и скорость реакции на сбои в Магнит OMNI. Чтобы пройти этот непростой путь, команде пришлось опытным путем выявить реально работающие инструменты, полезные практики и другие фишки.  

Отказоустойчивость кроме облака

Андрей Сухоруков, Team Lead DevOps Kaspersky

Доклад Андрея посвящен отказоустойчивости без облака. Он рассказал, как спроектировать систему, которая продолжит работать при отказе облачного провайдера и поделился преимуществами мобильной автоматизации перед отказоустойчивыми кластерами.

Дискуссия с ведущим митапа Владимиром Дроздецким, Team Lead DevOps Магнит OMNI

Обсудили все способы повышения устойчивости сервисов: от расширения Observability до Chaos Engineering и QA-практик.

Благодарим всех, кто посетил наш митап и сделал его таким полезным и продуктивным. Ищите себя на фотках!

А чтобы не пропустить следующую встречу, следите за анонсами. Рассказываем о них в нашем ТГ-канале.

Комментарии (1)


  1. scruff
    21.05.2025 10:07

    Мне очень понравилось выступление Андрея. Хотя у него сильно искажённое понимание отказоустойчивости, и он делает ставку вместо нее на быстровосстанавливаемость, Андрей грамотно заткнул продактовнера из зала, хотя последний касалось бы мыслит грамотно. Просто взял и заткнул, даже без сколько либо весомых аргументов. По большому счету Андрей всё-таки не прав. За 20 минут невозможно даже поставить винду у юзера, не говоря уже о восстановлении кластера с кучей подов и деплоек. Скорее всего 20 часов. Бизнесу не нравятся такие люди. Но опять же манера доклада и затыкания опонента - доставила.