Как мы внедряли Dynatrace в банке для мониторинга Kafka, БД и Java/C++ сервисов / forpes.ru

Главная
Как мы внедряли Dynatrace в банке для мониторинга Kafka, БД и Java/C++ сервисов

Как мы внедряли Dynatrace в банке для мониторинга Kafka, БД и Java/C++ сервисов +6

21.09.2025 15:45

aiko158 0 2700 Источник

1. Вступление

Я работаю в одном крупном российском банке, где занимаюсь разработкой распределённых систем. За последние несколько лет наша архитектура заметно усложнилась — часть сервисов работает в OpenShift, часть на виртуалках, а кое-что до сих пор крутится на «железе».

Основная боль заключалась в том, что у нас не было единой системы мониторинга. Метрики мы собирали из разных источников: где-то стоял Prometheus, где-то — Zabbix, в Kafka писали свои дашборды, а для C++ приложений вообще не было нормального мониторинга. Каждый инцидент превращался в расследование: мы переключались между тремя-четырьмя консолями, сверяли логи, писали временные скрипты для выгрузки метрик. В среднем на поиск корневой причины (root cause analysis) у нас уходило от нескольких часов до пары дней.

Пример:

если лаги появлялись в Kafka, бизнес видел задержки, но мы не могли быстро понять, проблема в брокерах или в потребителях;
если в PostgreSQL случалась деградация из-за долгих запросов, сервисы начинали «тормозить», но разобраться в цепочке зависимостей без сквозной трассировки было сложно;
если падал один из C++ компонентов, от него «цепочкой» страдали Java-сервисы, но связать это в единую картину могли только вручную.

В какой-то момент стало ясно: нам нужна сквозная система мониторинга, которая видит всё — от фронта до базы, умеет строить топологию сервисов и помогает локализовать проблему автоматически.

Мы протестировали несколько решений: AppDynamics, Prometheus + Grafana + Jaeger, New Relic. Но остановились на Dynatrace, и за последние пол года смогли внедрить его для мониторинга Kafka, PostgreSQL, Java- и C++-приложений.

В этой статье я хочу поделиться нашим практическим опытом: какие задачи мы пытались решить, как происходило внедрение, какие проблемы встретили и чего в итоге добились. Это не будет рекламный материал — скорее честный рассказ «как оно было» с примерами конфигураций, скриншотами и графиками «до/после».

2. Что такое Dynatrace

Если коротко, Dynatrace — это платформа для комплексной наблюдаемости (observability) и APM (Application Performance Monitoring).

Она умеет:

автоматически строить карту приложений и сервисов (Smartscape Topology);
собирать метрики инфраструктуры (CPU, память, диски, сети);
отслеживать бизнес-транзакции сквозь микросервисы;
выявлять аномалии с помощью встроенного ИИ (Davis AI);
интегрироваться с Kafka, PostgreSQL, Kubernetes, OpenShift и сотнями других технологий «из коробки».

Если Prometheus и Grafana — это скорее «инструментарий» для метрик и визуализации, то Dynatrace даёт именно сквозное понимание работы системы.

Простой пример:

Пользователь нажал кнопку в мобильном приложении.
Запрос пошёл в API-шлюз → Java-сервис → Kafka → другой микросервис → PostgreSQL.
Dynatrace автоматически строит трассу этого запроса и показывает, на каком участке возникла задержка.

Ключевые возможности, которые были критичны для нас

OneAgent
Устанавливается на сервер/контейнер и автоматически «подцепляет» приложения (Java, C++, Node.js и т.д.).
Пример установки на Linux:
```
wget -O Dynatrace-OneAgent.sh "https://<your-environment-id>.live.dynatrace.com/api/v1/deployment/installer/agent/unix/latest?Api-Token=XXXXXXXX&arch=x86&flavor=default"
sudo /bin/sh Dynatrace-OneAgent.sh --set-app-log-content-access=true
```
После запуска агент сам регистрируется в Dynatrace и начинает собирать метрики.
Smartscape Topology
Dynatrace строит карту зависимостей: сервисы, процессы, контейнеры, хосты, датацентры. Это не статическая схема, а «живая» топология, которая обновляется в реальном времени.
Davis AI
Автоматическая корреляция событий. Если одновременно выросли задержки в Kafka и упал консьюмер в Java-сервисе, Dynatrace связывает это в одну проблему и показывает корневую причину.
Deep monitoring для JVM и нативного кода
- Для Java — Dynatrace показывает трассировку методов, SQL-запросы, Garbage Collection, thread dumps.
- Для C++ — доступно через SDK: можно отправлять свои метрики и события.
Пример отправки метрики из C++:
```
auto dynatrace = DynatraceSdk::initialize();
auto gauge = dynatrace->createGaugeMetric("custom.cpp.latency.ms");
gauge->setValue(42.5);
```
Интеграции
Поддержка Kafka и PostgreSQL «из коробки»: количество сообщений, лаги консьюмеров, запросы к базе, locks.

Чем Dynatrace отличается от других решений

Prometheus + Grafana: гибко, но требует много ручной работы (алерты, корреляция, трассировка).
AppDynamics: близкий по функционалу, но слабее в автоматическом построении топологии.
New Relic: хорош для облачных приложений, но хуже для гибридной инфраструктуры (VM + bare metal).

Dynatrace оказался для нас «золотой серединой»: достаточно автоматизации, чтобы не тратить месяцы на настройку, и достаточно гибкости, чтобы интегрировать даже C++ legacy.

3. Задачи, которые мы хотели решить

Внедрение Dynatrace в банке начиналось с чёткого понимания, какие проблемы мы хотим решить. Основная цель — сделать нашу распределённую инфраструктуру прозрачной и управляемой, убрать «чёрные ящики» и ускорить обнаружение инцидентов.

3.1 Сквозной мониторинг распределённых систем

Наши системы представляли собой сложный гибрид:

10 фронт-сервисов, которые обрабатывали пользовательские запросы через API-шлюзы;
20 бэк-сервисов, включая микросервисы на Java и C++;
2 кластера Kafka для обмена сообщениями между сервисами;
3 разных базы данных (PostgreSQL для транзакционных данных, MongoDB для аналитики и Redis для кэширования).

До Dynatrace каждая часть мониторилась отдельно: фронт-сервисы через Prometheus, Kafka — через JMX-коннекторы и кастомные скрипты, базы данных через pg_stat_statements и MongoDB Atlas Metrics.

Проблема была в том, что инцидент в одном месте мог «маскироваться» как проблема в другом. Например, задержка в API могла быть вызвана медленным SQL-запросом, а мы это замечали только через логи.

С Dynatrace мы хотели добиться сквозной видимости, где:

каждый запрос от пользователя до базы виден в виде трассы;
можно мгновенно увидеть узкие места в цепочке сервисов;
события автоматически коррелируются с инцидентами.

3.2 Проблема: «чёрные ящики»

До внедрения Dynatrace у нас был эффект «чёрных ящиков»:

Фронт-сервисы отрабатывают запрос → неизвестно, на каком бэк-сервисе возникает задержка.
Kafka-кластеры → сообщения застревают, но мы не видим, какой продюсер или консьюмер тормозит.
Базы данных → иногда перегружены, но сложно понять, какой сервис их «нагрузил».

Без сквозного мониторинга каждый компонент выглядит как «чёрный ящик». Нам нужен был единственный источник правды, который показывает, где именно задержка или ошибка.

3.3 Основные требования

Исходя из проблем, мы сформулировали ключевые требования к системе мониторинга:

Трассировка запросов
- Сквозной trace от фронт-сервиса до базы данных;
- Видимость всех промежуточных шагов: Kafka, бэк-сервисы, SQL-запросы;
- Возможность быстро понять root cause.
SLA и мониторинг производительности
- Метрики задержки, пропускной способности и успешных транзакций;
- Автоматические алерты при нарушении SLA;
- Возможность анализа исторических данных для прогноза деградации.
Раннее выявление деградации
- Система должна автоматически выявлять аномалии: рост задержки, падение throughput;
- Корреляция событий с конкретными сервисами и компонентами.

3.4 Итог задач

Итоговый список задач, которые мы ставили перед Dynatrace:

Полная видимость всей распределённой инфраструктуры;
Сквозная трассировка пользовательских запросов;
Сбор и корреляция метрик инфраструктуры, сервисов, баз данных;
Автоматическое выявление узких мест и аномалий;
Мониторинг SLA и раннее предупреждение о деградации;
Возможность интеграции с Kafka, PostgreSQL, Java и C++ сервисами.

Все эти задачи легли в основу процесса внедрения и настройки, о котором я расскажу в следующем разделе.

4. Подробное описание процесса внедрения и настройки Dynatrace

После того как мы определили задачи и целевую архитектуру мониторинга, мы приступили к внедрению Dynatrace OneAgent и настройке платформы. В этом разделе я подробно расскажу, как проходил процесс, какие шаги потребовались и с какими трудностями столкнулись.

4.1 Подготовка к внедрению

Перед установкой Dynatrace мы:

Провели аудит инфраструктуры:
- Linux/Windows серверы, контейнеры OpenShift, виртуалки;
- Java-приложения (Spring Boot), C++ сервисы;
- Kafka и базы данных (PostgreSQL, MongoDB, Redis).
Определили зоны установки агентов:
- На всех фронт и бэк сервисах;
- На всех брокерах Kafka;
- На серверах баз данных.
Настроили сетевые политики:
- Разрешили outbound-трафик на Dynatrace Cluster;
- Настроили сертификаты для безопасного соединения;
- Проверили DNS и firewall для всех узлов.

4.2 Установка Dynatrace OneAgent

4.2.1 Linux-сервера

Для Linux мы использовали официальный скрипт установки:

# Скачать OneAgent
wget -O Dynatrace-OneAgent.sh "https://<your-environment-id>.live.dynatrace.com/api/v1/deployment/installer/agent/unix/latest?Api-Token=XXXXXXXX&arch=x86&flavor=default"

# Установить агент с доступом к логам приложений
sudo /bin/sh Dynatrace-OneAgent.sh --set-app-log-content-access=true

После установки агент автоматически подключается к Dynatrace Cluster, регистрирует хост и начинает собирать метрики.

4.2.2 Windows-сервера

Для Windows использовался MSI-инсталлятор:

msiexec /i Dynatrace-OneAgent-Windows.exe /qn ADDLOCAL=DynatraceOneAgent,AppLogAccess DT_ENV=<your-environment-id> DT_API_TOKEN=XXXXXXXX

После запуска агент виден в Dynatrace под соответствующим хостом.

4.2.3 Контейнеры OpenShift

Для контейнеров мы использовали DaemonSet, который разворачивал агенты на каждом узле:

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: dynatrace-oneagent
  namespace: dynatrace
spec:
  selector:
    matchLabels:
      app: dynatrace-oneagent
  template:
    metadata:
      labels:
        app: dynatrace-oneagent
    spec:
      containers:
      - name: oneagent
        image: <dynatrace-agent-image>:latest
        env:
        - name: DT_API_TOKEN
          value: "XXXXXXXX"
        - name: DT_CLUSTER_URL
          value: "https://<your-environment-id>.live.dynatrace.com"

4.3 Настройка мониторинга Kafka

Мы хотели видеть: lag консьюмеров, throughput, количество сообщений, ошибки продюсеров.

Конфигурация JMX для Kafka

# kafka-jmx.properties
com.sun.management.jmxremote=true
com.sun.management.jmxremote.port=9999
com.sun.management.jmxremote.authenticate=false
com.sun.management.jmxremote.ssl=false

OneAgent автоматически подключился к JMX и начал собирать метрики. На дашборде Dynatrace появились:

Consumer lag per topic;
Producer errors;
Throughput messages/sec;
Broker health.

4.4 Настройка мониторинга PostgreSQL

Для баз мы хотели видеть: slow queries, locks, replication lag, connection pool.

Конфигурация мониторинга PostgreSQL

-- Enable pg_stat_statements
CREATE EXTENSION IF NOT EXISTS pg_stat_statements;

OneAgent собирает метрики автоматически, но для кастомных метрик использовали SQL скрипты:

SELECT datname, numbackends, xact_commit, xact_rollback
FROM pg_stat_database;

4.5 Настройка мониторинга Java-приложений

Для Spring Boot приложений Dynatrace автоматически:

Подключается к JVM через OneAgent;
Собирает метрики CPU, heap, GC, thread dump;
Трассирует все методы и SQL-запросы.

Пример кастомной конфигурации для Spring Boot:

management:
  metrics:
    export:
      dynatrace:
        enabled: true
        api-token: XXXXXXXXX
        uri: https://<your-environment-id>.live.dynatrace.com/api/v2/metrics

4.6 Настройка мониторинга C++ приложений

Для C++ сервисов мы использовали SDK для отправки кастомных метрик:

#include "DynatraceSdk.h"

auto agent = DynatraceSdk::initialize();
auto gauge = agent->createGaugeMetric("custom.cpp.latency.ms");
gauge->setValue(125.7);

Метрики появились на дашбордах вместе с метриками Java и Kafka.

4.7 Примеры трассировок

После интеграции всех компонентов мы могли видеть полный путь запроса:

Frontend Service 1 → API Gateway → Kafka Cluster 1 → Backend Service 7 → PostgreSQL

На дашборде Dynatrace каждая транзакция отображалась с:

Временем прохождения каждого этапа;
Замедленными методами;
Ошибками и исключениями;
Ссылкой на root cause.

4.8 Настройка алертов и SLA

Мы настроили:

Алерты при превышении latency > 300ms на фронт-сервисах;
Уведомления при lag > 1000 сообщений в Kafka;
Алерты на slow queries > 1s в PostgreSQL;
Корреляцию с root cause через Davis AI.

4.9 Итоги внедрения

После установки и настройки Dynatrace:

Все сервисы и базы видны на единой карте зависимостей;
Сквозная трассировка запросов работает для Java и C++;
Kafka и базы данных мониторятся в реальном времени;
Аномалии и инциденты выявляются автоматически.

5. Описание инфраструктуры и проблем с решениями

После успешного внедрения Dynatrace на базовом уровне мы столкнулись с рядом реальных проблем, связанных с особенностями нашей инфраструктуры и особенностями распределённых систем. В этом разделе я подробно расскажу о наших трудностях и способах их решения.

5.1 Архитектура инфраструктуры

Наша инфраструктура включала:

10 фронт-сервисов, работающих через API Gateway;
20 бэк-сервисов, на Java (Spring Boot) и C++;
2 кластера Kafka, по 5 брокеров каждый;
3 базы данных: PostgreSQL для транзакций, Oracle для аналитики, Redis для кэша;
OpenShift как основная платформа контейнеризации;
VM и bare-metal сервера для критических компонентов C++ и баз данных.

Всё это нужно было мониторить через единый Dynatrace Cluster, что потребовало настройки агентов, корректного распределения нагрузки и интеграции с legacy-сервисами на C++.

5.2 Проблема 1: C++ сервисы

Сложности

Наши C++ сервисы представляли собой legacy приложения без встроенной поддержки APM. Проблемы были следующие:

Нет стандартного JVM-подобного агента;
Ограниченные возможности для трассировки;
Нужна была отправка кастомных метрик, включая latency, throughput, ошибки;
Высокая нагрузка → потенциальное влияние на производительность.

Решение

Мы использовали Dynatrace C++ SDK и настроили кастомные метрики:

#include "DynatraceSdk.h"

// Инициализация агента
auto agent = DynatraceSdk::initialize();

// Создание кастомного гейджа для latency
auto latencyMetric = agent->createGaugeMetric("cpp.service.latency.ms");

// Пример записи метрики
latencyMetric->setValue(87.3);

Для минимизации нагрузки:

Метрики отправлялись с частотой 10 секунд, а не каждую транзакцию;
Использовали асинхронный буфер SDK, чтобы не блокировать основной поток приложения;
Настроили топологию Smartscape, чтобы C++ сервисы отображались на одной карте с Java и Kafka.

5.3 Проблема 2: нагрузка на Kafka

Сложности

После интеграции Dynatrace мы заметили рост нагрузки на Kafka:

Продюсеры начали генерировать больше метрик;
Консьюмеры иногда отставали при высокой нагрузке;
Часто появлялись lag > 1000 сообщений;
Некорректные алерты из-за избыточного логирования.

Решение

Настройка JMX метрик и sampling rate:

kafka.metrics.reporters=io.dynatrace.kafka.DynatraceReporter
dynatrace.reporting.interval=30s  # вместо дефолтных 10s

Фильтрация ненужных метрик, чтобы уменьшить трафик в Dynatrace:

# dynatrace-kafka-filter.yaml
metrics:
  exclude:
    - kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec,topic=internal.*

Агрегация метрик по брокерам, а не по каждому топику, чтобы снизить нагрузку на OneAgent;

Результат: стабилизация lag, сокращение ложных алертов и уменьшение нагрузки на мониторинг.

5.4 Проблема 3: настройка агентов

Сложности

В OpenShift у нас были сотни контейнеров, и ручная установка OneAgent была невозможна;
На VM были разные версии Linux и Windows → сложности с пакетами;
Некоторые сервисы были критичны, и любые перезапуски могли привести к downtime.

Решение

OpenShift: DaemonSet с автоматической установкой агента на каждый узел, настройка env-переменных DT_API_TOKEN и DT_CLUSTER_URL.

env:
- name: DT_API_TOKEN
  value: "XXXXXXXX"
- name: DT_CLUSTER_URL
  value: "https://<your-env>.live.dynatrace.com"

Linux VM: использование скриптов с проверкой наличия агента перед установкой, чтобы не было дублирования;

if ! systemctl is-active --quiet oneagent; then
  sudo /bin/sh Dynatrace-OneAgent.sh --set-app-log-content-access=true
fi

Windows VM: MSI с silent install через GPO для массового развертывания.

5.5 Проблема 4: визуализация и корреляция

Сложности

Сначала дашборды были перегружены метриками;
Трудно было понять, какие события важные, а какие шум;
Нужно было корректно настроить SLA и алерты для каждого сервиса.

Решение

Создание кастомных дашбордов:
- Frontend latency;
- Kafka throughput и lag;
- PostgreSQL slow queries;
- C++ кастомные метрики.
Использование Davis AI для автоматической корреляции инцидентов;
Настройка SLA:

slo:
  name: Frontend API latency
  target: 95th percentile < 300ms
  service: frontend-api

5.6 Итог решений

После проработки всех проблем:

C++ сервисы интегрированы через SDK и не создают нагрузки;
Kafka стабильно мониторится с корректным lag и throughput;
OneAgent установлен и работает на всех узлах и контейнерах;
Дашборды структурированы и показывают только нужные метрики;
SLA и алерты настроены, инциденты автоматически коррелируются с root cause.

6. Результаты внедрения

После завершения внедрения и настройки Dynatrace мы смогли объективно оценить эффективность системы мониторинга. В этом разделе я приведу конкретные метрики, графики «до/после» и реальные кейсы, которые наглядно показывают ценность решения.

6.1 MTTR (Mean Time to Resolve)

До Dynatrace:

Среднее время обнаружения и устранения инцидента: 4–6 часов;
Время локализации root cause: 2–4 часа;
Часто приходилось подключать несколько команд одновременно.

После внедрения Dynatrace:

Среднее время обнаружения: 5–10 минут;
Время локализации root cause: 10–15 минут;
Автоматические алерты и корреляция через Davis AI позволили сразу направлять инцидент на ответственную команду.

Комментарий:
Сокращение MTTR более чем в 20 раз стало самым заметным эффектом внедрения. Даже мелкие инциденты теперь фиксируются автоматически, без «ручного расследования».

6.2 Latency фронт-сервисов

До Dynatrace:

95-й перцентиль latency фронт-сервисов: 400–500 ms;
Пиковые нагрузки вызывали задержки до 1–1,2 сек;
Невозможно было точно определить, какая часть цепочки вызывает замедление.

После Dynatrace:

95-й перцентиль latency: < 300 ms (соответствие SLA);
Пики нагрузок видны на трассах, узкие места быстро локализируются;
Можно видеть latency каждого этапа запроса: фронт → Kafka → бэк → база.

Комментарий:
Ранее общая задержка измерялась «по совокупности», теперь мы видим сквозную трассировку, что позволяет быстро оптимизировать конкретный компонент.

6.3 Throughput Kafka

До Dynatrace:

Невозможно было точно измерить производительность консьюмеров и продюсеров;
Lag на некоторых топиках превышал 1000 сообщений в пиковые часы;
Некоторые ошибки продюсеров оставались незамеченными.

После Dynatrace:

Видно throughput по каждому брокеру и топику;
Lag стабильно < 200 сообщений;
Все ошибки продюсеров и консьюмеров отображаются на дашбордах;
Настроены алерты при превышении threshold, что позволяет реагировать до влияния на бизнес.

Комментарий:
Мониторинг Kafka через Dynatrace позволил избежать скрытых проблем с очередями и уменьшить downtime микросервисов.

6.4 Кейс 1: Медленный SQL-запрос

Ситуация:
Фронт-сервис тормозил, пользователи жаловались на задержку. Ранее нужно было копаться в логах PostgreSQL и искать slow query.

Что показал Dynatrace:

Трассировка показала конкретный запрос SELECT с join по большой таблице;
Время выполнения запроса: 2,3 секунды;
Root cause: отсутствие индекса на колонке, которая участвовала в join.

Решение:

CREATE INDEX idx_customer_id ON orders(customer_id);

Результат:

Время запроса уменьшилось до 0,05 секунды;
Latency фронт-сервиса упала на 150–200 ms.

6.5 Кейс 2: Memory leak в C++ сервисе

Ситуация:
Бэк-сервис на C++ периодически падал под нагрузкой, но root cause не удавалось найти.

Что показал Dynatrace:

Кастомная метрика «cpp.service.memory.usage» показывала рост потребления памяти до 95% за 6 часов работы;
Smartscape Topology показала, что сервис не освобождает объекты при определённой последовательности запросов;

Решение:

Исправление кода освобождения ресурсов;
Настройка алертов на threshold memory > 80%.

Результат:

Падения сервиса прекратились;
Мониторинг памяти показывает стабильное использование.

6.6 Кейс 3: Перегрузка консьюмеров Kafka

Ситуация:
В часы пик увеличивалась задержка доставки сообщений в бэк-сервисы.

Что показал Dynatrace:

Lag консьюмеров в Dynatrace превышал 1000 сообщений;
Distributed Trace показал узкие места в одном из бэк-сервисов, который обрабатывал сложные вычисления.

Решение:

Увеличили количество консьюмеров;
Оптимизировали обработку сообщений в проблемном сервисе;
Настроили алерты на lag > 500.

Результат:

Lag стабилизировался < 200 сообщений;
Общий throughput Kafka вырос на 25%.

6.7 Итоги результатов внедрения

MTTR сократился с 4–6 часов до 10–15 минут;
Latency фронт-сервисов уменьшилась, SLA соблюдается;
Throughput и lag Kafka стабилизированы;
SQL-запросы, memory leaks, консьюмеры Kafka — проблемы локализованы быстро;
Сквозная трассировка позволяет видеть цепочку запроса от фронта до базы;
Дашборды и алерты стали единым источником правды для команд DevOps и разработчиков.

7. Итоги

После внедрения и полноценного использования Dynatrace в нашем банке можно подвести ряд ключевых выводов, которые будут полезны для ИТ-специалистов, планирующих аналогичный опыт.

7.1 Общие выводы

Сквозная видимость критически важна
Без единой системы наблюдаемости распределённые системы становятся «чёрными ящиками». Dynatrace позволяет видеть всю цепочку запросов — от фронт-сервисов через Kafka и бэк-сервисы до баз данных — и быстро локализовать узкие места.
Сокращение времени реагирования (MTTR)
Автоматические алерты, трассировка запросов и Davis AI позволяют сократить MTTR более чем в 20 раз. Это критично для банковской инфраструктуры, где задержка реакции на инцидент может стоить миллионов.
Интеграция с разными типами приложений
Dynatrace легко интегрируется с Java и контейнеризированными приложениями, а для C++ сервисов предоставляется SDK для кастомных метрик. Таким образом, можно объединить мониторинг legacy и новых сервисов в одну платформу.
Наглядные метрики и дашборды
Настроенные дашборды дают наглядное представление о состоянии всей инфраструктуры. Графики latency, throughput, lag, memory usage позволяют сразу выявлять проблемные области.
Раннее выявление деградации
Система обнаруживает аномалии до того, как они станут критическими, что позволяет принимать меры заранее. Например, мы выявили memory leak и узкие места в Kafka ещё до того, как это повлияло на пользователей.

7.2 Рекомендации по внедрению

Определите зоны установки Dynatrace OneAgent и продумаете сетевые настройки
Поэтапная установка и тестирование. Начинайте с небольшого сегмента инфраструктуры
Настройка фильтров и sampling rate. Избегайте перегрузки Dynatrace избыточными метриками
Проведите обучение для DevOps и разработчиков по использованию Dynatrace. Разработайте правила реагирования на инциденты
- Проведите обучение для DevOps и разработчиков по использованию Dynatrace;
- Разработайте правила реагирования на инциденты;
- Поддерживайте документацию по метрикам и дашбордам.

7.3 Советы для практиков

Начинайте с критических сервисов: мониторинг фронт-сервисов, Kafka и баз данных даст быстрый результат.
Используйте кастомные метрики там, где это необходимо: legacy приложения, C++ сервисы, сторонние компоненты.
Фокусируйтесь на ключевых метриках SLA: latency, throughput, lag, errors, memory usage.
Автоматизируйте: DaemonSet для OpenShift, скрипты для Linux/Windows VM, GPO для массовой установки.
Анализируйте исторические данные: Dynatrace хранит метрики и трассы, это помогает выявлять тренды и предсказывать деградации.
Корреляция через Davis AI экономит время на root cause analysis: не игнорируйте этот функционал.

7.4 Заключение

Внедрение Dynatrace в банке показало, что инвестиции в наблюдаемость полностью оправданы.

Мы сократили время реагирования на инциденты;
Улучшили производительность сервисов;
Получили единый источник правды для всех команд;
Выявили и исправили скрытые проблемы в C++ сервисах, Kafka и базах данных.

Для организаций с распределённой архитектурой, множеством микросервисов и разнородными приложениями, Dynatrace становится не просто инструментом мониторинга, а стратегическим инструментом поддержки SLA и стабильности бизнес-процессов.

Комментарии (0)

pavel_pimenov
21.09.2025 19:12
#28864672
CREATE INDEX idx_customer_id ON orders(customer_id);

Почему это не нашли безDynatrace?как называется банк?

Dmitrii_Demchenko
21.09.2025 19:12
#28864828
OpenTelemetry рассматривали?

kain64b
21.09.2025 19:12
#28865396
Странно что рассматривались только платные системы. Opentelemetry для трейсингв, elk для логов например. в принципе не ясно с ценовой политикой в динатрейс и когда они забанят лицензию
1. GalsSoftware
  21.09.2025 19:12
  #28867750
  Ну и в самом ELK тоже можно трейсы хранить
1. bosco
  21.09.2025 19:12
  #28870356
  Лично делал мультитенантную систему на опентелеметри логстэш и опенсерч в крупном российском банке
  
  Но у нас правда до дела-дальше мвп не дошло, потому что делалось по постановке архитектора который работает в отрыве от бизнеса, так что сделали и легло на полку. А так трассировка, генерация метрик, библиотеки для java и go. Делали без агентов, так мы решили будет гибче, но можно бы и с агентами, так было бы быстрее.

0ri0n
21.09.2025 19:12
#28866022
Этот продукт идет в рамках "импорта замещения" ?

А как обстоят дела если какой то микросервис не передает в хедерах - хедер динатрейса? Тогда вся цепочка рушиться?

А как обстоят дела с TCP соединениями? В них то header динатрецса не подкинуть. Или там как то иначе обыгрывается?

bosco
21.09.2025 19:12
#28870338
Американские платные подписки на опеншифт и динатрейс в крупнейшем российском банке в 2025? Тут либо ну ничему не учит жизнь людей, либо ох уж эти сказки, ох уж эти сказочники.

Как мы внедряли Dynatrace в банке для мониторинга Kafka, БД и Java/C++ сервисов +6

1. Вступление

2. Что такое Dynatrace

Ключевые возможности, которые были критичны для нас

Чем Dynatrace отличается от других решений

3. Задачи, которые мы хотели решить

3.1 Сквозной мониторинг распределённых систем

3.2 Проблема: «чёрные ящики»

3.3 Основные требования

3.4 Итог задач

4. Подробное описание процесса внедрения и настройки Dynatrace

4.1 Подготовка к внедрению

4.2 Установка Dynatrace OneAgent

4.2.1 Linux-сервера

4.2.2 Windows-сервера

4.2.3 Контейнеры OpenShift

4.3 Настройка мониторинга Kafka

Конфигурация JMX для Kafka

4.4 Настройка мониторинга PostgreSQL

Конфигурация мониторинга PostgreSQL

4.5 Настройка мониторинга Java-приложений

4.6 Настройка мониторинга C++ приложений

4.7 Примеры трассировок

4.8 Настройка алертов и SLA

4.9 Итоги внедрения

5. Описание инфраструктуры и проблем с решениями

5.1 Архитектура инфраструктуры

5.2 Проблема 1: C++ сервисы

Сложности

Решение

5.3 Проблема 2: нагрузка на Kafka

Сложности

Решение

5.4 Проблема 3: настройка агентов

Сложности

Решение

5.5 Проблема 4: визуализация и корреляция

Сложности

Решение

5.6 Итог решений

6. Результаты внедрения

6.1 MTTR (Mean Time to Resolve)

6.2 Latency фронт-сервисов

6.3 Throughput Kafka

6.4 Кейс 1: Медленный SQL-запрос

6.5 Кейс 2: Memory leak в C++ сервисе

6.6 Кейс 3: Перегрузка консьюмеров Kafka

6.7 Итоги результатов внедрения

7. Итоги

7.1 Общие выводы

7.2 Рекомендации по внедрению

7.3 Советы для практиков

7.4 Заключение

Комментарии (0)

pavel_pimenov

Dmitrii_Demchenko

kain64b

GalsSoftware

bosco

0ri0n

bosco