Анонсируем первый в России практический курс по SRE: Слёрм SRE.
На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.
Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.
Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.
Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.
Подробности под катом
Спикеры
Иван Круглов
Principal Developer в Booking.com (Нидерланды)
С момента прихода в Booking.com в 2013 работал над такими инфраструктурными проектами, как распределенная доставка и обработка сообщений, BigData и web-stack, поиск.
Сейчас занимается вопросами построения внутреннего облака и Service Mesh.
Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.
Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.
Эдуард Медведев
CTO в Tungsten Labs (Германия)
Работал инженером в StackStorm, отвечал за ChatOps-функционал платформы. Разрабатывал и внедрял ChatOps при автоматизации дата-центров. Спикер на российских и международных конференциях.
Программа
Программа активно дорабатывается. Сейчас она выглядит так, к февралю может улучшиться и расшириться.
Тема №1: Основные принципы и методы SRE
- Что нужно чтобы стать SRE?
- DevOps vs SRE
- Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
- SLI, SLO и SLA
- Error budget и его роль в SRE
Тема №2: Дизайн распределенных систем
- Архитектура и функционал приложения
- Non-Abstract Large System Design
- Operability / Design for failure
- gRPC или REST
- Версионирование и обратная совместимость
Тема №3: Как принимают проект SRE
- Лучшие практики от SRE
- Чек-лист приема проекта
- Логирование, метрики, трейсинг
- Забираем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системы
- Обратное проектирование — как работает система?
- Согласовываем SLI и SLO
- Практика capacity planning
- Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
- Запускаем Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
- Monitoring vs. Observability
- Настраиваем мониторинг и алертинг с Prometheus
- Практический мониторинг SLI и SLO
- Symptoms vs. Causes
- Black-Box vs. White-Box Monitoring
- Распределенный мониторинг доступности приложений и серверов
- 4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестирования надежности систем
- Работа под давлением
- Failure-injection
- Chaos Monkey
Тема №7: Практика incident response
- Алгоритм управления стрессом
- Взаимодействие между участниками инцидента
- Постмортем
- Knowledge sharing
- Формирование культуры
- Контроль неисправностей
- Проведение blameless разбора полетов
Тема №8: Практика управления нагрузкой
- Балансировка нагрузки
- Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
- DDoS (создаем нагрузку) + Cascading Failures
Тема №9: Реагирование на инциденты
- Разбор полетов
- Практика On-Call
- Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
- Протоколы управления инцидентами
Тема №10: Диагностика и решение проблем
- Журналирование
- Отладка
- Практика анализа и отладки на нашем приложении
Тема №11: Тестирование надежности систем
- Нагрузочное тестирование
- Тестирование конфигураций
- Тестирование производительности
- Canary release
Тема №12: Самостоятельная работа и ревью
Рекомендации и требования к участникам
SRE — командная работа. Мы настоятельно рекомендуем проходить курс всей командой. Поэтому даем для готовых команд большие скидки.
Цена курса — 60 000 ? с человека.
Если компания отправляет группу из 5+ человек — 40 000 ?.
Курс построен на Kubernetes. Для прохождения нужно знать Kubernetes на базовом уровне. Если вы с ним не работаете, можно пройти Слёрм Базовый (онлайн или интенсив 18-20 ноября).
Кроме того, нужно хорошо владеть Linux, знать Gitlab и Prometheus.
Регистрация
Если у вас есть сложная идея по участию, например, чтобы на курс пришел генеральный директор, технический директор и команда разработчиков, и они проходили практику с учетом управленческой вертикали, пишите мне в личку.
Комментарии (4)
aSkobin Автор
25.10.2019 13:11+2Это первый в нашей истории курс, где мы отходим от правила «только инструменты, никакой философии». Потому что SRE начинается с вопроса: что и как оптимизировать.
Иван Круглов, когда читал блок по SRE на Слёрме DevOps, сказал отличную фразу: «SRE — это про счастье пользователей». Значит, нужно сперва разобраться, в чем заключается это счастье. :)
Поэтому состав будет примерно такой: 20% размышлений и формулировок, 80% инструментов и практики.
nkretov
Добрый день.
Скажите пожалуйста, тестовый проект курса (сайт-агрегатор) будет изначально спроектирован под кубернетес?
Насколько материал курса будет завязан на использование конкретных версий api кубернетеса?
aSkobin Автор
Да, тестовый проект изначально спроектирован под кубернетес.
На версии api материал не завязан, зависимостей не будет.
nkretov
Спасибо за ответ.