Привет! Мы решили собрать для вас все статьи о Site reliability engineering (SRE) в одном месте.

В материалах ниже вы найдете информацию о внедрении SRE, вариантах применения отдельных практик, а также полезные кейсы от нескольких компаний.

Slack для автоматического управления инцидентами

О том, как Airbnb автоматизировала управление инцидентами в своём сложном и быстроразвивающемся скоплении микросервисов с помощью Slack. Теперь на оповещение об уязвимостях они тратят несколько минут вместо нескольких часов.

???? читать статью

«Цель SRE — надёжная система». Обзор основных метрик SRE

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.

???? читать статью

Как внедрить Site Reliability Engineering (SRE) в компании

В статье разбираемся, зачем компании Site Reliability Engineering (SRE) и когда его применять. Также здесь расписаны шаги, которые помогут обычному инженеру или разработчику внедрить SRE в своей компании.

???? читать статью

А ваша организация задумывается о надежности? Уроки Google SRE

Еще один полезный материал от Google. Там много думают о надёжности продуктов, и некоторые аспекты этой философии хорошо изучены. Например, принципы проектирования продукта или системы. При этом мало кто задумывается о том, как влияют на надёжность продукта культура и менталитет в организации. В этой статье SRE-инженеры компании расскажут о том, как оценить культуру надёжности в вашей организации и какой она должна быть.

???? читать статью

Внедрять или не внедрять. Развеиваем главные мифы о SRE

Полезная статья для тех, кто находится только на старте внедрения SRE или сомневается в его необходимости. Мы собрали самые часто встречаемые мифы и вопросы о внедрении SRE и обучении его инструментам. Ответить на них нам помог Максим Гусев, Tech Lead SRE, на счету которого тысячи выстроенных пайплайнов CI/CD и более 100 инсталляций Kubernetes в продакшен.

???? читать статью

Как мониторить золотые сигналы SRE

Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах. Все понимают, что это важные сигналы, но не все знают, как их отслеживать. Об этом мало где пишут. А между тем собирать эти сигналы гораздо сложнее, чем традиционные данные по ЦП и ОЗУ. У каждого сервиса и ресурса свои метрики, определения и, особенно, инструменты.

???? читать статью

Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры

Статья от команды Google. В материале приводятся рекомендации для команд, которые будут определять потенциальные риски для приложения. Определив риски, вы сможете проанализировать их и расставить приоритеты.

???? читать статью

Пять инструментов Site Reliability Engineering

Требования бизнеса к надежности ПО были и остаются неизменными, поскольку люди хотели и хотят пользоваться стабильным продуктом. Однако, за все время существенным изменениям подверглись именно способы обеспечения надежности. Пройден путь от разрозненных действий, когда админы и программисты находились по разные стороны баррикад, до объединивших их DevOps. Следующим шагом стала роль SRE-инженера, задача которого обеспечить надежность и масштабируемость системы. В этой статье пойдет речь о главных инструментах SRE и о том, как они влияют на повышение надежности систем.

???? читать статью

Опыт внедрения SRE в Тинькофф от Дмитрия Масленникова

Дмитрий Масленников рассказал, как устроена экосистема SRE в Тинькофф, зачем они используем самописные сервисы, почему в SRE должна работать инженерная элита и как примкнуть к этой элите за один день.

???? читать статью

Опыт внедрения в Dodo

???? Статья с Сергеем Бухаровым

Сергей Бухаров, SRE из Dodo Engineering, рассказал историю внедрения SRE в компании, какие практики из книжек оказались излишни и из чего состоят будни SRE-команды.

???? Подкаст с Олегом Блохиным

Ведущий подкаста, коммерческий директор Слёрма Антон Скобин поговорил с Олегом Блохиным, лидером инфраструктурной команды Dodo Engineering о том, как выстраивается работа SRE-команд, какие функции они выполняют и в чём профит от SRE для бизнеса. Они попробовали разобраться, как воспринимают SRE люди из бизнеса и разработки, всегда ли нужен SRE в компании, в чём их взгляды похожи и где расходятся.

На этом пока все. Хорошего дня и до новых встреч!

Еще о SRE

6 декабря в Слёрм стартует курс SRE: data-driven подход к управлению надёжностью систем, для тех, кто только думает или уже начал внедрять SRE-практики в своей компании.

Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.

На время обучения вы станете SRE для сервиса покупки билетов в кинотеатр. Решая предложенные кейсы, вы получите представление, чем занимается SRE в реальности, и научитесь правильно собирать нужные метрики для мониторинга.  

В том числе вы:

  • узнаете, как снизить ущерб от отказов в будущем;

  • внедрите правки прямо в прод;

  • узнаете, как решать конкретные проблемы, связанные с надёжностью сервиса;

  • научитесь быстро поднимать продакшн силами команды.

Формат предполагает разбор интересных кейсов и обмен опытом между участниками команды и спикерами. Помимо того, что учиться будет интересно, благодаря новым знаниям и практики вы сможете:

  • снизить процент отказов своего сервиса;

  • повысить скорость реагирования на отказы;

  • снизить риски при выкате новых фич;

  • увеличить скорость разработки.

Начните учиться бесплатно

Посмотрите бесплатный демо-курс о внедрении SRE в компаниях и метриках, которые используют SRE-инженеры для мониторинга надежности системы.

Ознакомиться с полной программой курса и записаться.

Комментарии (0)