Привет! Мы решили собрать для вас все статьи о Site reliability engineering (SRE) в одном месте.
В материалах ниже вы найдете информацию о внедрении SRE, вариантах применения отдельных практик, а также полезные кейсы от нескольких компаний.
Slack для автоматического управления инцидентами
О том, как Airbnb автоматизировала управление инцидентами в своём сложном и быстроразвивающемся скоплении микросервисов с помощью Slack. Теперь на оповещение об уязвимостях они тратят несколько минут вместо нескольких часов.
???? читать статью
«Цель SRE — надёжная система». Обзор основных метрик SRE
Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.
???? читать статью
Как внедрить Site Reliability Engineering (SRE) в компании
В статье разбираемся, зачем компании Site Reliability Engineering (SRE) и когда его применять. Также здесь расписаны шаги, которые помогут обычному инженеру или разработчику внедрить SRE в своей компании.
???? читать статью
А ваша организация задумывается о надежности? Уроки Google SRE
Еще один полезный материал от Google. Там много думают о надёжности продуктов, и некоторые аспекты этой философии хорошо изучены. Например, принципы проектирования продукта или системы. При этом мало кто задумывается о том, как влияют на надёжность продукта культура и менталитет в организации. В этой статье SRE-инженеры компании расскажут о том, как оценить культуру надёжности в вашей организации и какой она должна быть.
???? читать статью
Внедрять или не внедрять. Развеиваем главные мифы о SRE
Полезная статья для тех, кто находится только на старте внедрения SRE или сомневается в его необходимости. Мы собрали самые часто встречаемые мифы и вопросы о внедрении SRE и обучении его инструментам. Ответить на них нам помог Максим Гусев, Tech Lead SRE, на счету которого тысячи выстроенных пайплайнов CI/CD и более 100 инсталляций Kubernetes в продакшен.
???? читать статью
Как мониторить золотые сигналы SRE
Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах. Все понимают, что это важные сигналы, но не все знают, как их отслеживать. Об этом мало где пишут. А между тем собирать эти сигналы гораздо сложнее, чем традиционные данные по ЦП и ОЗУ. У каждого сервиса и ресурса свои метрики, определения и, особенно, инструменты.
???? читать статью
Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры
Статья от команды Google. В материале приводятся рекомендации для команд, которые будут определять потенциальные риски для приложения. Определив риски, вы сможете проанализировать их и расставить приоритеты.
???? читать статью
Пять инструментов Site Reliability Engineering
Требования бизнеса к надежности ПО были и остаются неизменными, поскольку люди хотели и хотят пользоваться стабильным продуктом. Однако, за все время существенным изменениям подверглись именно способы обеспечения надежности. Пройден путь от разрозненных действий, когда админы и программисты находились по разные стороны баррикад, до объединивших их DevOps. Следующим шагом стала роль SRE-инженера, задача которого обеспечить надежность и масштабируемость системы. В этой статье пойдет речь о главных инструментах SRE и о том, как они влияют на повышение надежности систем.
???? читать статью
Опыт внедрения SRE в Тинькофф от Дмитрия Масленникова
Дмитрий Масленников рассказал, как устроена экосистема SRE в Тинькофф, зачем они используем самописные сервисы, почему в SRE должна работать инженерная элита и как примкнуть к этой элите за один день.
Опыт внедрения в Dodo
???? Статья с Сергеем Бухаровым
Сергей Бухаров, SRE из Dodo Engineering, рассказал историю внедрения SRE в компании, какие практики из книжек оказались излишни и из чего состоят будни SRE-команды.
???? Подкаст с Олегом Блохиным
Ведущий подкаста, коммерческий директор Слёрма Антон Скобин поговорил с Олегом Блохиным, лидером инфраструктурной команды Dodo Engineering о том, как выстраивается работа SRE-команд, какие функции они выполняют и в чём профит от SRE для бизнеса. Они попробовали разобраться, как воспринимают SRE люди из бизнеса и разработки, всегда ли нужен SRE в компании, в чём их взгляды похожи и где расходятся.
На этом пока все. Хорошего дня и до новых встреч!
Еще о SRE
6 декабря в Слёрм стартует курс SRE: data-driven подход к управлению надёжностью систем, для тех, кто только думает или уже начал внедрять SRE-практики в своей компании.
Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.
На время обучения вы станете SRE для сервиса покупки билетов в кинотеатр. Решая предложенные кейсы, вы получите представление, чем занимается SRE в реальности, и научитесь правильно собирать нужные метрики для мониторинга.
В том числе вы:
узнаете, как снизить ущерб от отказов в будущем;
внедрите правки прямо в прод;
узнаете, как решать конкретные проблемы, связанные с надёжностью сервиса;
научитесь быстро поднимать продакшн силами команды.
Формат предполагает разбор интересных кейсов и обмен опытом между участниками команды и спикерами. Помимо того, что учиться будет интересно, благодаря новым знаниям и практики вы сможете:
снизить процент отказов своего сервиса;
повысить скорость реагирования на отказы;
снизить риски при выкате новых фич;
увеличить скорость разработки.
Начните учиться бесплатно
Посмотрите бесплатный демо-курс о внедрении SRE в компаниях и метриках, которые используют SRE-инженеры для мониторинга надежности системы.