23 апреля на OMNI Infrastructure Meetup эксперты из Авито, Магнит OMNI, Лаборатории Касперского и Cloud.ru обсудили, как создавать системы, устойчивые к любым сбоям. Рассказываем о самых важных инсайтах.
В московском офисе Магнита и онлайн собрались DevOps-инженеры, платформенные специалисты и разработчики, чтобы разобрать реальные кейсы повышения отказоустойчивости. Гибридный формат позволил присоединиться участникам из разных городов — дискуссия получилась по-настоящему живой.
Видео и презентации докладов
Avito Static Fallback: без паники, в продакшене работает статистика
Николай Губин, Backend Engineer Авито
Настоящий behind the scenes о работе Авито. Николай рассказал, как fallback-система кэширования обеспечивает бесперебойную работу сервиса, даже когда основные системы недоступны, как собирается и доставляется в продакшен статика с Авито и поделился планами по развитию системы и архитектуры.
Все стабильно нестабильно — как мы с этим боролись
Вячеслав Валявский, Tech Lead SRE Магнит OMNI
Вячеслав рассказал о классном кейсе: как всего за год удалось улучшить наблюдаемость, отказоустойчивость и скорость реакции на сбои в Магнит OMNI. Чтобы пройти этот непростой путь, команде пришлось опытным путем выявить реально работающие инструменты, полезные практики и другие фишки.
Отказоустойчивость кроме облака
Андрей Сухоруков, Team Lead DevOps Kaspersky
Доклад Андрея посвящен отказоустойчивости без облака. Он рассказал, как спроектировать систему, которая продолжит работать при отказе облачного провайдера и поделился преимуществами мобильной автоматизации перед отказоустойчивыми кластерами.
Дискуссия с ведущим митапа Владимиром Дроздецким, Team Lead DevOps Магнит OMNI
Обсудили все способы повышения устойчивости сервисов: от расширения Observability до Chaos Engineering и QA-практик.
Благодарим всех, кто посетил наш митап и сделал его таким полезным и продуктивным. Ищите себя на фотках!
А чтобы не пропустить следующую встречу, следите за анонсами. Рассказываем о них в нашем ТГ-канале.
scruff
Мне очень понравилось выступление Андрея. Хотя у него сильно искажённое понимание отказоустойчивости, и он делает ставку вместо нее на быстровосстанавливаемость, Андрей грамотно заткнул продактовнера из зала, хотя последний касалось бы мыслит грамотно. Просто взял и заткнул, даже без сколько либо весомых аргументов. По большому счету Андрей всё-таки не прав. За 20 минут невозможно даже поставить винду у юзера, не говоря уже о восстановлении кластера с кучей подов и деплоек. Скорее всего 20 часов. Бизнесу не нравятся такие люди. Но опять же манера доклада и затыкания опонента - доставила.