В тех инженерных организациях, где применяются инструменты для программирования инфраструктуры (IaC), например, Terraform, они обычно используются вполсилы. В этой статье разобрано не менее трёх вариантов использования Terraform и автоматизации в духе IaC, которые не связаны напрямую с традиционной инфраструктурой, отвечающей за управление рабочей нагрузкой приложений.
Мы заметили, что через работу многих команд, занятых администрированием платформ красной нитью проходит явная пробуксовка с освоением философии «as code». Естественно, там используются OpenTofu или Terraform (здесь и далее я буду называть их в совокупности “TF”) для управления вычислительными и прочими облачными ресурсами, но при этом команда обычно не переходит к применению тех же принципов во всех аспектах, связанных с эксплуатацией предметной области.
Цель не в том, чтобы спорадически автоматизировать отдельные вещи; на самом деле, мы хотим автоматизировать всё. Все без исключения процессы и операции должны быть выражены в коде.
Почему? Потому что, как только удастся этого добиться, вы выйдете при управлении системами на новый уровень согласованности и надёжности, причём, даже в тех системах, где обычно до программирования инфраструктуры добирались в последнюю очередь.
В этой статье мы заострим внимание на некоторых ресурсах, которыми (вы удивитесь!) тоже можно управлять. Это:
Пользователи
Репозитории Git
Конфигурация для мониторинга и алертинга
Надеемся, вы придёте к тем же выводам, которые мы сами проповедуем всем, с кем нам доводится работать: если вы хотите сделать солидную платформу, то на ней нужно программировать все аспекты инфраструктуры.
❯ Почему не принято всё делать через Terraform?
Есть ряд причин, по которым разработчики могут быть не склонны использовать Terraform для развёртывания некоторых ресурсов, например, Git-репозиториев, а также для управления пользователями или мониторинга. Зачастую доводится видеть, что инженеры об этом просто не задумываются, так как более сосредоточены на реализации других деталей с нуля. Что касается Git-репозиториев, программисты могут воспринимать работу с ними как проблему «что было раньше — курица или яйцо»? В таком случае репозитории создаются вручную до того развёртывать код — поэтому автоматизации всех процессов через Terraform не происходит. Кроме того, часто приходится работать в цейтноте, инженеров торопят, чтобы те поскорее выкатили продукт — поэтому они предпочитают придерживаться проверенных рабочих потоков, а не исследовать новые. Использование Terraform для управления всей системой — как раз такой подход.
❯ Управление аккаунтами членов команды и ролевой контроль доступа
Управление пользовательскими аккаунтами и ролями сразу в нескольких SaaS-продуктах может превратиться в настоящую головную боль, особенно, если в этих продуктах не поддерживается технология единого входа (SSO). Именно эту задачу зачастую приходится решать старшему руководству и командам инженеров. Тратятся целые часы рабочего времени, которое лучше было бы потратить на развитие стратегических инициатив. К счастью,TF может значительно облегчить этот процесс.
Прежде, чем перейти к примерам, стоит отметить: по-видимому, многие вендоры SaaS начали забывать, насколько важна технология SSO с точки зрения безопасности. Как подчёркивается в статье The SSO Wall of Shame, многие вендоры предлагают SSO, но лишь в качестве преимум-возможности. Она увязывается с дорогостоящими «корпоративными» планами тарификации, либо плата за неё многократно превышает базовую стоимость простейшей функциональной версии продукта. Такая практика размотивирует людей пользоваться SSO и, напротив, плодит безответственное отношение к безопасности. В особенности актуальна данная проблема для небольших организаций, которым, возможно, не по карману дорогостоящие тарифные планы.
В типичной организации, занятой разработкой ПО, как правило, применяется несколько сервисных платформ, на которых требуется управлять как пользователями, так и уровнями доступа. Обычный абсолютно минимальный стек может включать AWS, GitHub, CloudFlare и Datadog (для начала). Тем командам, которые не могут позволить себе SSO, доступом к этим сервисам приходится управлять вручную, а это трудоёмкая задача. Всякий раз, когда кто-то увольняется, либо в организации появляется новый сотрудник, кому-то придётся зайти на все эти платформы и самостоятельно добавить или удалить конкретного члена организации. При работе с TF можно централизовать управление пользователями и их учётными данными, поэтому вся работа становится гораздо проще (и надёжнее).
AWS предлагает своим пользователям сервис IAM Identity Center (ранее AWS SSO), упрощающий управление аккаунтом AWS и связанными с ним ролями. Но если организация пока не вскочила в вагон SSO или пользуется набором разных сервисов, часть из которых поддерживает SSO, а часть — нет, именно при помощи TF можно стандартизировать добавление и удаление аккаунтов, причём, независимо от вендора. Сервис TF Root Modules позволяет определять пользователей и роли в файле team.yaml, автоматически создавать эти сущности и управлять ими сразу на всех платформах, которыми вы пользуетесь.
Вот отрывок из файла team.yaml, описывающего гипотетическую команду DevOps:
devops_team:
name: DevOps
description: Internal DevOps Team
privacy: closed
members:
- name: Jane Doe
gh_username: JaneyDoe100
email: doe@abccorp.com
gh_role: maintainer
datadog_role: Standard
- name: John Smith
gh_username: CloudWizard1212
email: smith@abccorp.com
gh_role: member
datadog_role: Read-Only
- name: Finn Mertens
gh_username: IceKing99
email: mertens@abccorp.com
gh_role: member
datadog_role: Standard
В этом центральном файле можно управлять информацией о нашей команде как кодом. Тогда добавить новый сервис или аккаунт можно будет не в N кликов, а просто обновив этот файл. Затем можно прочитать этот файл и развернуть данную команду на всех сервисах, использующих TF. В следующем примере обновим GitHub и Datadog:
locals {
# Решили выразить эту информацию в виде YAML-файла, который будем загружать вместо переменной,
# так, чтобы другие члены команды могли без труда добавлять / редактировать / удалять записи,
# даже не зная TF
team_data = yamldecode(file("${path.root}/team.yaml"))
}
resource "github_team" "devops" {
name = local.team_data.devops_team.name
description = local.team_data.devops_team.description
privacy = local.team_data.devops_team.privacy
}
resource "github_team_members" "devops_members" {
for_each = { for member in local.team_data.devops_team.members : member.gh_username => member }
team_id = github_team.devops.id
username = each.value.gh_username
role = each.value.gh_role
}
module "datadog_users" {
source = "masterpointio/datadog/users"
version = "X.X.X"
users = [ for member in local.team_data.devops_team.members: {
email = member.email,
name = member.name,
role = [member.datadog_role],
username = member.gh_username
}
]
}
Это простой пример, но на нём должно быть понятно, какие возможности открываются, если управлять пользователями и ролями по технологии IaC. Пользуясь IaC, а не заходя на каждую платформу отдельно, если потребуется добавить в команду новых членов или удалить старых, можно просто изменить единственный файл, а затем всё автоматически обновить, как только в коде будут развёрнуты новые изменения. Кроме того, поскольку все изменения отслеживаются в Git, мы располагаем всей исторической информацией о том, кто внёс изменение, что именно было изменено, когда и почему.
❯ Управление репозиториями Git
Если вы управляете репозиториями с кодом, расположенными в GitHub, GitLab или на других Git-провайдерах, то вполне представляете, какой головной болью это может оборачиваться, в особенности при работе с полирепозиторием. Требуется управлять защитой веток и обеспечивать согласованность в контроле доступа в масштабе всех этих репозиториев? Да, это по-настоящему сложно. Не приходится удивляться, что опять приходится прибегать к технологиям IaC для поддержания согласованных и безопасных конфигураций репозиториев.
Во многих организациях от разработчиков требуется вручную обустраивать репозитории с кодом. В результате от проекта к проекту возникает лоскутное одеяло несогласованных конфигураций и настроек безопасности. Без стандартизации в каждом из репозиториев могут действовать разные правила защиты веток, принципы контроля доступа, а также другие настройки. Из-за этого сложнее обеспечить строгое соблюдение наилучших практик. Выкатывание новой конфигурации превращается в целый проект. В конце концов, вся описанная неоднородность может порождать уязвимости и осложнять управление репозиториями в большом масштабе.
Мы категорически за то, чтобы не изобретать велосипед, особенно, когда в наличии есть такое множество отличных готовых модулей, поддержка которых обеспечивается сообществом. GitHub-репозиторий Terraform — не исключение. Нам нравится модуль, подготовленный нашими товарищами из Mineiros (теперь эта команда поддерживает Terramate): https://github.com/mineiros-io/terraform-github-repository. В этом модуле предлагаются разнообразные возможности, далеко не ограниченные элементарным ресурсом github_repository. В частности, здесь есть приватный репозиторий, ключи развёртывания, предназначенные только для чтения, механизмы управления ветками и защиты веток, стратегии слияния, метаданные и многое другое. Вот упрощённый пример, демонстрирующий, как при помощи этого модуля можно развернуть множество репозиториев:
locals {
repositories = {
backend-api = {
name = "backend-api"
license_template = "apache-2.0"
gitignore_template = "Go"
},
infra = {
name = "infra"
license_template = "mit"
gitignore_template = "Terraform"
}
}
}
module "repositories" {
source = "mineiros-io/repository/github"
version = "0.18.0"
for_each = local.repositories
name = each.value.name
license_template = each.value.license_template
gitignore_template = each.value.gitignore_template
}
❯ Управление мониторингом и алертингом
Ещё одна задача, зачастую вызывающая сложности у разработчиков — вручную настраивать конфигурации мониторинга и алертинга. Неудивительно, что здесь может получиться мешанина несогласованных пороговых значений и настроек, различающихся в разных сервисах и стеках. Если не стандартизировать эту работу, то в схожих экземплярах развёрнутого приложения могут отличаться критерии для выдачи алерта. Опять же, из-за этого сложно обеспечить согласованное следование наилучшим практикам. Из-за такой несогласованности какие-то оповещения могут не поступать, а другие получаться зашумленными. Поэтому бывает сложно управлять мониторингом в большом масштабе.
Но есть выход получше! Выражая в коде пороги ваших метрик и конфигурации алертов, можно добиться, чтобы все команды совместно работали в общем контексте. Разработчику становится проще добавить новый алерт либо поправить имеющийся, который уже всех свёл с ума своими ложноположительными срабатываниями. Кроме того, управляя таким уровнем интеграции, мы не скатываемся в «ClickOps»: то есть, не приходится развёртывать сложную инфраструктуру через UI, предоставляемые провайдерами. Напротив, можно прямо в коде закладывать как ресурсы приложений, так и конфигурации для их мониторинга, а также версионировать их вместе.
Мы – большие фанаты библиотеки Cloud Posse Module, к счастью, мы являемся её контрибьюторами и участвуем в поддержке. В ней есть два отличных модуля, ориентированных именно на этот юзкейс: terraform-datadog-platform и terraform-aws-datadog-integration. При помощи интеграционного модуля удобно активировать исходную интеграцию между интересующими нас аккаунтами AWS и аккаунтом Datadog, а также платформенный модуль, помогающий сконфигурировать разнообразные ресурсы Datadog, в том числе:
monitors
synthetics
многое другое
Вот пример конфигурации монитора, которую мы используем при работе со многими клиентами:
rds-cpuutilization:
enabled: true
name: "[${environment}] (RDS) CPU utilization is high"
query: |
avg(last_15m):avg:aws.rds.cpuutilization{env:${environment}} by {dbinstanceidentifier} > 90
type: metric alert
message: |
{{#is_warning}}
{{dbinstanceidentifier}} CPU Utilization above {{warn_threshold}}%
{{/is_warning}}
{{#is_alert}}
{{dbinstanceidentifier}} CPU Utilization above {{threshold}}%
{{/is_alert}}
escalation_message: ""
tags: ${tags}
priority: 3
notify_no_data: false
notify_audit: false
require_full_window: true
enable_logs_sample: false
force_delete: true
include_tags: true
locked: false
renotify_interval: 60
timeout_h: 0
evaluation_delay: 60
new_group_delay: 0
new_host_delay: 300
groupby_simple_monitor: false
renotify_occurrences: 0
renotify_statuses: []
validate: true
no_data_timeframe: 10
threshold_windows: {}
thresholds:
critical: 90
warning: 85
Если программировать мониторинг таким образом, то не только улучшается общая согласованность всех SRE-операций, но и удаётся существенно сократить количество итераций при разработке и ускорить доставку приложений в продакшен.
❯ Заключение
Программирование инфраструктуры (IaC) — мощный подход, значительно упрощающий управление софтверной архитектурой. К сожалению, во многих инженерных организациях с IaC не дорабатывают. Не поймите нас неправильно: уже большой шаг вперёд, если IaC в вашей организации применяется для развёртывания инфраструктуры приложений, в частности, контейнеров и баз данных. Но, пренебрегая этой техникой при мониторинге и управлении репозиториями, вы недополучаете массу пользы, которую она могла бы принести. Вот почему мы работаем с TF: так можно выразить в коде гораздо больше, нежели только конфигурацию вычислительных ресурсов и хранилищ.
Для перехода к полностью автоматизированной инфраструктуре нужна серьёзная самоотдача всей команды, но польза от этого очевидна. Используя IaC на полную мощность, можно создавать боле надёжные и эффективные платформы, которые очень пригодятся вам при масштабировании ваших приложений и всей организации.
Читайте также:
Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud - в нашем Telegram-канале ↩