«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля / forpes.ru

Главная
«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля

«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля +20

25.10.2019 07:52

aSkobin 4 1200 Источник

Анонсируем первый в России практический курс по SRE: Слёрм SRE.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

Спикеры

Иван Круглов
Principal Developer в Booking.com (Нидерланды)
С момента прихода в Booking.com в 2013 работал над такими инфраструктурными проектами, как распределенная доставка и обработка сообщений, BigData и web-stack, поиск.
Сейчас занимается вопросами построения внутреннего облака и Service Mesh.

Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.

Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.

Эдуард Медведев
CTO в Tungsten Labs (Германия)
Работал инженером в StackStorm, отвечал за ChatOps-функционал платформы. Разрабатывал и внедрял ChatOps при автоматизации дата-центров. Спикер на российских и международных конференциях.

Программа

Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.

Тема №1: Основные принципы и методы SRE

Что нужно чтобы стать SRE?
DevOps vs SRE
Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
SLI, SLO и SLA
Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

Архитектура и функционал приложения
Non-Abstract Large System Design
Operability / Design for failure
gRPC или REST
Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

Лучшие практики от SRE
Чек-лист приема проекта
Логирование, метрики, трейсинг
Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

Обратное проектирование — как работает система?
Согласовываем SLI и SLO
Практика capacity planning
Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

Monitoring vs. Observability
Настраиваем мониторинг и алертинг с Prometheus
Практический мониторинг SLI и SLO
Symptoms vs. Causes
Black-Box vs. White-Box Monitoring
Распределенный мониторинг доступности приложений и серверов
4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

Работа под давлением
Failure-injection
Chaos Monkey

Тема №7: Практика incident response

Алгоритм управления стрессом
Взаимодействие между участниками инцидента
Постмортем
Knowledge sharing
Формирование культуры
Контроль неисправностей
Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

Балансировка нагрузки
Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

Разбор полетов
Практика On-Call
Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

Журналирование
Отладка
Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

Нагрузочное тестирование
Тестирование конфигураций
Тестирование производительности
Canary release

Тема №12: Самостоятельная работа и ревью

Регистрация

Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.

Комментарии (4)

nkretov
25.10.2019 12:23
#20802426
Добрый день.
Скажите пожалуйста, тестовый проект курса (сайт-агрегатор) будет изначально спроектирован под кубернетес?
Насколько материал курса будет завязан на использование конкретных версий api кубернетеса?
1. aSkobin Автор
  25.10.2019 13:12
  #20802688
  +1
  Да, тестовый проект изначально спроектирован под кубернетес.
  На версии api материал не завязан, зависимостей не будет.
  1. nkretov
    25.10.2019 13:27
    #20802784
    Спасибо за ответ.

aSkobin Автор
25.10.2019 13:11
#20802678
+2
Это первый в нашей истории курс, где мы отходим от правила «только инструменты, никакой философии». Потому что SRE начинается с вопроса: что и как оптимизировать.

Иван Круглов, когда читал блок по SRE на Слёрме DevOps, сказал отличную фразу: «SRE — это про счастье пользователей». Значит, нужно сперва разобраться, в чем заключается это счастье. :)

Поэтому состав будет примерно такой: 20% размышлений и формулировок, 80% инструментов и практики.