Конечно, название нашей конференции DevOops родилось как шутка. Но «доля правды» в том, что в девопс-вопросах действительно важны «упс»-ситуации — и умение их избегать.
Неудивительно, что на конференции об этом говорят нередко. Уже скоро пройдёт DevOops 2024, и в описаниях докладов можно встретить такие обороты: «эффект бабочки-факапницы», «забег по граблям на длинные дистанции», «снимаем порчу с ресурсов команды разработки».
Но, конечно, не факапами едиными. На конференции говорят о всех вопросах, которые важны в DevOps: и сугубо технических (вроде использования Terraform), и культурных (например, «наставничество как часть DevOps-культуры»), и даже «DevOps на заводе».
Сейчас программа уже готова полностью — и мы показываем её Хабру.
Содержание
SRE
Культура
Безопасность
DexExp
K8s
Облачные технологии
Другое
SRE
Сергей Бухаров
Dodo Engineering
Сергей расскажет про становление SLO в Dodo Engineering: с чего начали, к чему пришли, как натягивали книжные практики на версию реальности и что из этого вышло. Не ожидайте готовых рецептов — это будет доклад про забег по граблям на длинные дистанции, в котором, в первую очередь, спикер поделится опытом и допущенными ошибками.
Опять двадцать пять, или Как не допустить повторения инцидента
Кирилл Борисов
VK
Рассмотрим основные и самые популярные методы root cause analysis: 5 Whys, fishbone diagram, cast. Разберемся в тонкостях и особенностях применения. Кирилл сравнит инструменты и даст рекомендации по выбору подходящего инструмента в зависимости от конкретной ситуации. На примере одного инцидента рассмотрим коренные причины, используя перечисленные методы, и посмотрим, какой из них более полно описывает причины возникновения инцидента.
Анализ инцидентов необходимо проводить по совокупности корневых причин, искать пересечения в разных инцидентах. Кирилл даст практические рекомендации, как подойти к этому процессу.
Боремся с метастабильными состояниями отказа
Вадим Мартынов
Яндекс
Рейт-лимитеры, продуктовые деградации, серверный и клиентский троттлинг, сongestion control к базам данных, геораспределение — вот те инструменты, которые Вадим встречал для защиты от избыточной нагрузки и перехода в metastable failure states. Они хорошие и полезные, но имеют свои недостатки.
Предлагается посмотреть на еще одно решение, которое защищает сервисы и БД, не требует ручной настройки и помогает корректно утилизировать ресурсы системы.
DevOps на заводе: ожидания vs реальность
Илья Олексив
Сибур Цифровой
Михаил Фуфаев
Сибур Цифровой
Один их самых важных этапов в обустройстве процессов любой ИТ-компании — создание и отладка процесса развертывания ее продуктов. Но спикеры работают на цифровом заводе, и в условиях промышленной компании задача развертывания осложняется тем, что среды развертывания разнородны, независимы и часто не имеют прямого сетевого соединения. Можно ли вообще создать эффективный и устойчивый релизный процесс в условиях, когда традиционные DevOps-практики сталкиваются с такими ограничениями?
Вам расскажут про нелегкий путь к простому и понятному процессу развертывания.
Как распределенно хранить триллионы файлов
Константин Лебедев
Mayflower
При использовании GlusterFS в качестве DFS на объемах более 50 миллионов файлов, в Mayflower столкнулись с проблемой невозможности дальнейшего обслуживания кластера в разумные сроки. Поэтому вернулись к выбору современного распределенного хранилища с учетом новых требований и технологий.
При первом знакомстве очень привлекательным решением выглядел SeaweedFS, так как он написан на современном языке Golang и спроектирован на основе дизайна Warm BLOB. Но до конца не было понятно, как он себя поведет в продакшене. Константин расскажет, каким оказался результат.
Синхронизация производства. Скорость, надежность и простота артерии DevOps
Владимир Медин
Сбер
Владимир расскажет, как в Сбере построили простую, надежную, распределенную систему на гибридном техстеке, которая за считанные минуты доставляет гигабайты дистрибутивов, образов Docker и скриптов развертывания из сегмента разработки в промышленный сегмент. Получилось сделать это таким образом, что пользователи даже не задумываются о ее существовании, хотя ранее делали десятки рутинных операций и ожидали доставки результатов своей работы на промышленный контур до нескольких суток.
Мониторинг зеленый, но у юзеров ничего не работает. Как мониторить клиентскую часть
Даниэль Халиулин
Т-Банк
Ходят легенды, что фраза «а у меня все работает» (с) мгновенно облегчает страдания клиентов, а иногда и вовсе чудесным способом исправляет сбои. Как бы то ни было, для обеспечения надежности современных приложений мониторить только серверную часть уже недостаточно. Из-за всеобщего усложнения, мониторинг со стороны клиентов все чаще переходит из разряда «nice to have» в «must have».
В докладе рассмотрят проблематику клиентского мониторинга. Вам расскажут, какие данные особенно важно отслеживать, и вы узнаете, какие шишки набили в Т-Банке, выстраивая наблюдаемость в основном мобильном приложении Т-Банка с посещаемостью в более чем 25 млн уникальных клиентов в месяц.
Использование HAProxy для балансировки нагрузки между локациями
Максим Куприянов
Доклад о том, как использовать известное open-source решение для балансировки нагрузки (HAProxy), чтобы автоматически перераспределять нагрузку между несколькими площадками в момент резких всплесков трафика.
Zero-downtime deployment и базы данных
Андрей Цветцих
Т-Банк, DevBrothers
Микросервисы уже давно и прочно вошли в нашу жизнь. Они позволяют реализовывать масштабируемые и отказоустойчивые решения. Но при деплое новой версии на кластер иногда возникают ошибки, связанные с обновлением базы данных.
Андрей разберет популярные способы деплоя на кластер. Покажет типовые проблемы, возникающие при обновлении базы данных, и пути их решения. Разберемся, чем обновление NoSQL-баз данных отличается от обновления традиционных реляционных баз.
Культура
Наставничество как часть DevOps-культуры
Татьяна Сердинова
TAGES
Современная экономика — это экономика знаний. Расширение взаимодействия и обмен данными между техническими подразделениями в компании — одни из ключевых культурных принципов DevOps.
И здесь на помощь приходит наставничество, о котором детально расскажет Татьяна. Вы узнаете, что такое наставничество, кто такие наставники и кого они наставляют.
Комбо-факапы, или Эффект бабочки-факапницы
Григорий Кошелев
Контур
Истории расследования факапов, вызванных цепочками маловероятных событий помноженных на россыпь безобидных багов.
Андрей Зарубин
Райффайзен Банк
Цель доклада — развеять хайп вокруг SRE с одной стороны и консерватизм вокруг ITSM с другой. Андрей расскажет про принципы SRE, основные практики ITIL. Как, по его мнению, их надо сочетать с помощью DevOps CALMS и что сейчас предлагает нам индустрия.
Платформа R&D. Глава 1: Наводим порядок
Максим Залысин
Positive Technologies
Как и в жизни, перед началом большого дела нужно навести порядок, а иногда наведение порядка — уже первый шаг к результату. В докладе Максим расскажет, как команда DevOps в Positive Technologies начала движение в сторону создания «Платформы R&D» с учетом требований, ожиданий и реальности.
Апдейт инфраструктурных зависимостей без боли: секреты нашей DevOps-кухни с Renovate
Влада Зубарева
Mayflower
Как и любая DevOps-команда, в Mayflower создают и поддерживают множество Ansible-ролей, Terraform-модулей и собственных Docker-контейнеров. Эти компоненты активно используются различными командами компании для настройки инфраструктуры. Однако обновление версий и своевременная передача изменений между командами может стать серьезной проблемой.
Влада расскажет, как в Mayflower организовали управление внутренними ролями и модулями, и как инструмент Renovate ежедневно помогает автоматизировать и упростить процесс обновления, обеспечивая стабильность и согласованность инфраструктуры.
Попробовали в Platform Engineering. Шалость удалась
Александр Кожемякин
VK
История о том, как подходили к разработке платформ с разных сторон. В чем подводные камни, когда у вас гетерогенная инфраструктура? Как научиться самому и научить других договариваться о технических решениях? Для чего строить платформу?
Ответы на эти и другие вопросы — в докладе.
Как с нуля построить Development Platform в отдельно взятой компании
Сергей Киселев
MTS Web Services
Сергей и его коллеги разрабатывают MTS Web Services (новое МТС Облако) и решают вопросы, связанные с построением единой культуры разработки. Цель — создать прозрачную и понятную архитектуру, чтобы сократить время на подключение новых разработчиков. Там хотят выстроить цельную экосистему библиотек и подходов для переиспользования Облака во всех командах разработки.
Рассказ будет со стороны Development Platform и затронет аспекты построения всего с нуля. Поговорим о дизайн-документах (ADR) и о том, как они используются. Обязательно затронем тему внутреннего open source (innersource) и культурные аспекты его приготовления. В завершение обсудим борьбу с бойлерплейтом через кодогенерацию. Все это — в формате историй, как прямо сейчас пишется новое Облако.
Снимаем порчу с ресурсов команды разработки
Александр Крылов
Bimeister
Обсудим подходы к решению проблем перераспределения ресурсов в командах-участниках цикла разработки. Казалось, бы зачем это делать? Чтобы высвободить ресурсы одних команд, повысить компетенции других со сменой фокуса на целевые активности.
Александр поделится, с какими преградами можно столкнуться на пути внедрения или изменения процессов, какими доводами можно договориться с сопротивлением, какой профит получить на выходе.
Путь от «IT-стандартов» до «технических возможностей»
Евгений Харченко
Райффайзен Банк
История о том, как DevOps-практики внедрялись в Райффайзен Банк, как они трансформировались от обязательных стандартов к инженерной культуре и впоследствии превратились в «технические возможности» с уровнями зрелости, множеством критериев и автоматизированными проверками в IT на масштабе 258 команд, в которых работает около 3 700 айтишников.
Доклад затрагивает вопросы инженерной культуры и мотивации инженеров и команд к развитию в этом направлении, а также предлагает решение проблемы внедрения и измерения технических практик в энтерпрайзе.
Безопасность
Юлия Волкова
CodeScoring
Доклад о том, как работает мир уязвимостей с точки зрения данных. Юлия расскажет про NVD, FSTEC, GitHub Advisory, OSV, бюллетени, как это все живет в едином (не всегда) жизненном цикле.
Почему нельзя просто взять и волшебным образом создать один инструмент для всех систем и языков. Почему разные инструменты иногда выдают разные результаты, при чем тут PURL и CPE.
Лев Хакимов
MTS Web Services
Из года в год появляется все больше сетевых решений, основанных на BPF и eBPF: развитие Cilium, переход Calico на eBPF, появление Service Mesh-решений на этой технологии. Для большинства инженеров это стало переходом от классического стека сетей в волшебный «черный ящик». Сегодня мы поднимем завесу над этой технологией и разберемся, как работают популярные решения для организации сетей.
Андрей Моисеев
MTS Web Services
В компании часто бывает так, что ты one-man team и необходимо обеспечить безопасность разработки ПО. В ходе доклада Андрей разберет базовый пайплайн для проверки ПО на безопасность. В качестве пайплайна будем использовать и кастомизировать GitLab security templates. Рассмотрим, как быстро построить минимальный DevSecOps-пайплайн, применим практики SCA, SAST, secret management и подумаем, что с этим дальше придется делать.
Особенности управления сертификатами в контейнерных средах
Анна Лучник
Clearway Integration
Для обеспечения защищенного канала взаимодействия и надежной аутентификации нужны сертификаты. А несвоевременное обновление хотя бы одного сертификата может приводить к серьезным сбоям. В контейнерных средах, когда сертификаты могут появляться тысячами в день, не обойтись без автоматизации.
В докладе рассмотрим нашумевшие сбои из-за проблем с сертификатами и как научились на чужих ошибках управлять миллионами сертификатов без сбоев.
Латаем огрехи в образах приложений до рантайма, во время и после
Анатолий Карпенко
Luntry
Обычная ситуация — вам достался только сам образ (предоставил вендор, легаси или open source). Вы просканировали его и — «сюрприз, сюрприз» — обнаружилось, что он совсем не соответствует best practice безопасности: большое количество уязвимостей, мисконфигураций, захардкоженных секретов.
И вам придется работать с этим образом, а исходные файлы проекта и Dockerfile недоступны. Это печально! Но мы сделаем так, чтобы использование образа было безопасным.
Внесем изменения на уровне самого образа, применяя модификации слоев с помощью docker-squash, mint и т. д. «Подкрутим» рантайм на уровне операционной системы и Kubernetes: AppArmor, capabilities, управление привилегиями и другие «ручки». Рассмотрим наблюдение за аномальным поведением контейнеров в рантайме: Falco, NeuVector.
ГОСТBUSTERS. Как теперь готовить статический анализ после ГОСТ Р 71207-2024
Антон Третьяков
PVS-Studio
В первой половине XXI века оказывается, что в пайплайнах живут не только обычные джобы, но и... привидения. Нагруженные кластеры не могут противостоять натиску сверхъестественного.
Но если отойти от отсылок к известному фильму, то в докладе поговорим о ГОСТ Р 71207-2024. Будут теоретические и практические секции. Посмотрим, что написано в документе, а потом на то, как это отражается на практике.
Основные темы следующие:
Как статический анализ определён в ГОСТе.
Примеры кода с ошибками по ГОСТу.
Как внедрять статический анализ по ГОСТу.
Пример внедрения статического анализа по ГОСТу.
Бережная миграция и адаптация проекта в облаке
Антон Черноусов
Yandex Cloud
В докладе рассмотрим несколько успешных переездов / заездов в облако. Обсудим этапы миграции и адаптации IT-инфраструктуры в облаке.
Затронем вопросы подготовки, аудита, разработки плана миграции и обсудим дорожную карту. Коснемся аспектов информационной безопасности и мер по обеспечению непрерывности работы при миграции.
Back to Basics. Сертификаты, TLS и взаимная аутентификация сервисов
Анна Лучник
Clearway Integration
Многие используют сертификаты по собственному желанию или по требованиям безопасности, но не все понимают, как сертификаты работают на самом деле. Во время доклада рассмотрим основы работы сертификатов, криптографических алгоритмов и протоколов, использующих сертификаты. Обсудим, как избежать базовых ошибок при настройке взаимной аутентификации (mTLS) контейнеров.
Возможен ли безопасный доступ к сервисам?
Георг Гаал
AEnix
Алексей Федулаев
MTS Web Services
Что такое Privileged Access Management (PAM) и безопасный доступ к различным сервисам. Нужно ли это. Какие решения есть на рынке сейчас и их сравнение. Почему нужно пользоваться одним из них, а не использовать Ansible playbook для настройки серверов и пользователей.
Доклад покажет, что можно делать хорошо и не тратить на это всю жизнь или продавать душу дьяволу.
DexExp
Оболочки MS-DOS: за пределами Norton Commander
Дмитрий Моисеев
Контур
Для многих MS-DOS до сих пор ассоциируется с черным фоном, командной строкой и непонятными командами, а революционные macOS и Windows — с появлением удобных пользовательских интерфейсов. Но в реальности работа под MS-DOS очень быстро стала удобна благодаря оболочкам и файловым менеджерам, самый известный из которых — Norton Commander. Самый известный — но не единственный! И в этом докладе мы посмотрим, что еще интересного и неожиданного было на рынке подобных продуктов.
Платформы и другие игрушки для взрослых
Василий Куценко
Почтатех
Построение своей платформы — естественное развитие культуры DevOps. В докладе Василий расскажет, как в Почтатехе подходили к разработке своей платформы (спойлер — в два захода), какие задачи она должна решать и за счет чего эти цели достижимы.
Декомпозируем GitOps. Как проапгрейдить ваш CIOps до GitOps с минимальными усилиями
Олег Вознесенский
VK Tech
Давайте обсудим суть подхода GitOps, его подводные камни, и сделаем свою реализацию GitOps с нуля из доступных подручных средств.
Back to Basics: OOM Killer. Основы выживания
Алексей Цыкунов
Hilbert Team
В рамках доклада разберем, как устроена память в Linux и почему возникает ситуация OOM (Out Of Memory). Вы узнаете, как OOM Killer выбирает процессы для завершения, как избежать его «визита» и сохранить стабильность работы системы. Также обсудим, как OOM Killer используется в Kubernetes.
Our Never-Ending Journey of GitOps Transformation with Flux CD
Tung Nan Kwong
TalkHub
Доклад посвящен тому, как компания спикера с годами перешла на GitOps. Проблемы, с которыми столкнулись, важные уроки и планы на будущее. Конечно, это отразилось на нагрузке в продакшене, но в долгосрочной перспективе стоило того.
Андрей Сухоруков
Kaspersky
В погоне за автоматизацией мы перестали задаваться рядом вопросов, которые влияют на бизнес. Этот доклад — исследование, которое призвано ответить на вопрос, сколько действительно стоит «голова» девопса.
В рамках выступления «токсичный техдир» представит вероятный кейс «уничтожения» компании-конкурента с расчетами и проведенными сценариями атаки на целевых инженеров.
K8s
Java, Spring Boot и Kubernetes: как ускорить старт приложений и сэкономить ресурсы кластера
Алексей Игнатов
СберТех
Java — удобный язык для разработки бизнес-приложений. Фреймворк Spring Boot по-прежнему популярен и используется многими разработчиками. Особенности работы Spring Boot и JVM создают некоторые проблемы при использовании в среде Kubernetes. Приходится выбирать между медленным стартом приложений и повышенным использованием ресурсов. В докладе вам расскажут, как ускорить старт Java-приложений в Kubernetes и сэкономить ресурсы кластера.
Запуск облачного продукта в Kubernetes на ноуте разработчика, в проде и на железе клиента
Александр Шинкарев
Tourmaline Core
Без страха запустим локально... микросервисный продукт, который на проде деплоится в Kubernetes.
Будет полезно тем, кто мучается с отладкой и запуском микросервисов на своём компе. Способ, который работает на небольших и средних продуктах. Обсудим, когда это подходит, какие есть ограничения и требования, какие шишки в компании спикера пустили на варенье. Свяжем между собой деплой в прод и локально.
Все подходы и примеры, которые вам покажут, будут в открытом доступе в репозиториях на GitHub. Можно просто брать и стартовать новые проекты на этих рельсах.
4 способа выявления сбоев узла в Kubernetes: актуальные стратегии возвращения рабочей нагрузки
Дмитрий Рыбалка
Купер (ex-СберМаркет)
Выход из строя рабочего узла кластера Kubernetes — всегда непредсказуемое событие, влекущее за собой различные влияния на рабочую нагрузку.
Дмитрий расскажет, как сделать такие ситуации не просто менее стрессовыми, но и максимально управляемыми.
Рассмотрим:
Как Kubernetes обнаруживает сбои узлов. Что вы можете сделать для того, чтобы улучшить этот процесс.
Node-problem-detector (NPD) и возможности его кастомизации.
Альтернативы NPD: их сильные и слабые стороны.
Стратегии планирования размещения нагрузки с учетом доменов отказа с целью минимизировать аффект.
Максим Чудновский
СберТех
Александр Козлов
СберТех
Рассмотрим подход Governance as a Code. Какие решения уже есть и как можно управлять конфигурациями большого количества микросервисов в мультикластерной среде.
Доклад рассчитан на практикующих инженеров, хорошо знакомых с облачной инфраструктурой и таким явлением, как Service Mesh.
Воспроизводимые окружения на bare metal при помощи Talos Linux и Cozystack
Георг Гаал
AEnix
Увлекательная история о том, как в AEnix пришли к Talos Linux и что это дало.
Там разрабатывают Cozystack — платформу с открытым исходным кодом для облачных провайдеров, которая запускает виртуальные машины, Kubernetes в Kubernetes и управляемые сервисы. Основная платформа для них — bare metal. Несмотря на то, что каждый сервер имеет отличительные особенности, в компании добиваются стабильности платформы и каждого ее компонента.
Георг поделится опытом: расскажет, как именно это работает, о проблемах, с которыми столкнулись во время разработки, и о найденных решениях.
Облачные технологии
Infrastructure from Code: следующий этап развития IaC на примере Serverless
Виктор Кузенный
Yandex Cloud
В докладе разберемся детальнее, что такое IfC, в чем его преимущества и недостатки, а также чем он отличается от IaС и как его дополняет. На примере одного из фреймворков и экосистемы бессерверных вычислений Yandex Cloud посмотрим, как IfC помогает разработчикам быстрее и эффективнее создавать приложения, основанные на Serverless.
Расширяем возможности Cluster API: как написать свой infra-провайдер и не сойти с ума
Иван Гулаков
MTS Web Services
Иван расскажет, как собирали шишки в ходе написания своего infra-провайдера для управления гибридной инфраструктурой.
В ходе доклада затронем следующие темы:
Что представляет собой infra-провайдер изнутри.
Бизнесовая проблематика и как bare metal превратился в hybrid.
Почему тащить слишком много бизнес-логики в провайдер — плохо, или как сделать свой маленький оператор-монолит.
Как хайповая immutability стукнула граблями по лбу.
Приключения с Envoy: как построить свой Service Mesh и не наступить на грабли
Денис Золотарев
Яндекс Плюс Фантех
Денис расскажет, как в Яндексе строят Service Mesh на базе Envoy в качестве базового слоя межсервисного взаимодействия.
Там прошли длинный путь от маленького стартапа внутри Плюса до уровня инфраструктуры всей компании. Вкратце поговорим о теории и типовой архитектуре Service Mesh, большую часть внимания и времени уделим решению практических задач с помощью Envoy и неочевидным проблемам, которые могут поджидать на пути. Спикер покажет примеры кода, графиков, фатальных ошибок в продакшене. Расскажет, как защититься от таких ошибок в собственных проектах.
Создание и управление инфраструктурой для разработчиков. Terraform CDK
Антон Ермак
Независимый эксперт
Поговорим про применение Infrastructure as Code в рамках Terraform CDK. В рамках доклада рассмотрим общую идею применимости этого подхода, плюсы и минусы. На примерах создадим целые архитектурные паттерны инфраструктуры и обсудим, как они красиво выражаются в языках: через классы, объекты, переменные.
Другое
Какова структура enabling команд, какие у них способы взаимодействия и как избежать ошибок при их формировании? В рамках дискуссии обсудим первый опыт запуска enabling команд в известных компаниях, истории появления таких команд, их состав, навыки и роли, отличия от других команд, активности и взаимодействие, успешные и неуспешные кейсы, планы по развитию.
Попробуйте себя в роли спикера и расскажите обо всем, что волнует, прямо на конференции.
Выступите с блиц-докладом на свободную тему в любом формате. У каждого участника будет 20 минут, чтобы поделиться своими историями. Записывайтесь на выступление прямо на площадке!
Обратите внимание: выступить могут только участники офлайн-части конференции. Видеозаписи не будет.
Заключение
С докладами разобрались — напоследок разберёмся с остальным:
У конференции нестандартный формат. Первый день (6 ноября) онлайновый, а вот 12-13 ноября на выбор участника: можно лично прийти на конференцию в Петербурге, можно подключиться удалённо.
Конечно, конференция не сводится к докладам: в офлайне наверняка будет и много общения участников. Но это уже не опишешь хабрапостом, тут всё в ваших руках.
Оставшаяся информация о конференции (вроде расписания) есть на официальном сайте, билеты — там же.