Часто мониторинг сетевой подсистемы операционной системы заканчивается на счетчиках пакетов, октетов и ошибок сетевых интерфейсах. Но это только 2й уровень модели OSI!
С одной стороны большинство проблем с сетью возникают как раз на физическом и канальном уровнях, но с другой стороны приложения, работающие с сетью оперируют на уровне TCP сессий и не видят, что происходит на более низких уровнях.


Я расскажу, как достаточно простые метрики TCP/IP стека могут помочь разобраться с различными проблемами в распределенных системах.


Netlink


Почти все знают утилиту netstat в linux, она может показать все текущие TCP соединения и дополнительную информацию по ним. Но при большом количестве соединений netstat может работать достаточно долго и существенно нагрузить систему.


Есть более дешевый способ получить информацию о соединениях — утилита ss из проекта iproute2.


Для сравнения:


$ time netstat -an|wc -l
62109

real    0m0.467s
user    0m0.288s
sys     0m0.184s

$ time ss -ant|wc -l
62111

real    0m0.126s
user    0m0.112s
sys     0m0.016s

Ускорение достигается за счет использования протола netlink для запросов информации о соединениях у ядра. Наш агент использует netlink напрямую.


Считаем соединения


Disclaimer: для иллюстрации работы с метриками в разных срезах я буду показывать наш интерфейс (dsl) работы с метриками, но это можно сделать и на opensource хранилищах.


В первую очередь мы разделяем все соединения на входящие (inbound) и исходящие (outbound) по отношению к серверу.


Каждое TCP соединения в определенный момент времени находится в одном из состояний, разбивку по которым мы тоже сохраняем (это иногда может оказаться полезным):




По этому графику можно оценить общее количество входящих соединений, распределение соединений по состояниям.


Здесь так же видно резкое падение общего количества соединений незадолго до 11 Jun, попробуем посмотреть на соединения в разрезе listen портов:




На этом графике видно, что самое значительное падение было на порту 8014, посмотрим только 8014 (у нас в интерфейсе можно просто нажать на нужном элементе легенды):




Попробуем посмотреть, изменилось ли количество входящий соединений по всем серверам?


Выбираем серверы по маске “srv10*”:





Теперь мы видим, что количество соединений на порт 8014 не изменилось, попробуем найти на какой сервер они мигрировали:





Мы ограничили выборку только портом 8014 и сделали группировку не по порту, а по серверам.


Теперь понятно, что соединения с сервера srv101 перешли на srv102.


Разбивка по IP


Часто бывает необходимо посмотреть, сколько было соединений с различных IP адресов. Наш агент снимает количество TCP соединений не только с разбивкой по listen портам и состояниям, но и по удаленному IP, если данный IP находится в том же сегменте сети (для всех остальный адресов метрики суммируются и вместо IP мы показываем “~nonlocal”).


Рассмотрим тот же период времени, что и в предыдущих случаях:





Здесь видно, что соединений с 192.168.100.1 стало сильно меньше и в это же время появились соединения с 192.168.100.2.


Детализация рулит


На самом деле мы работали с одной метрикой, просто она была сильно детализирована, индентификатор каждого экземпляра выглядит примерно так:


{name="netstat.connections.inbound.count", state="<TCP_STATE>", listen_ip="<IP>" listen_port="<PORT>" remote_ip="<REMOTE_IP>"}

Например, у одно из клиентов на нагруженном сервере-фронтенде снимается ~700 экземпляров этой метрики


TCP backlog


По метрикам TCP соединений можно не только диагностировать работу сети, но и определять проблемы в работе сервисов.


Например, если какой-то сервис, обслуживающий клиентов по сети, не справляется с нагрузкой и перестает обрабатывать новые соединения, они ставятся в очередь (backlog).


На самом деле очереди две:


  • SYN queue — очередь неустановленных соединений (получен пакет SYN, SYN-ACK еще не отправлен), размер ограничен согласно sysctl net.ipv4.tcp_max_syn_backlog;
  • Accept queue — очередь соединений, для которых получен пакет ACK (в рамках "тройного рукопожатия"), но не был выполнен accept приложением (очередь ограничивается приложением)

При достижении лимита accept queue ACK пакет удаленного хоста просто отбрасывается или отправляется RST (в зависимости от значения переменной sysctl net.ipv4.tcp_abort_on_overflow).


Наш агент снимает текущее и максимальное значение accept queue для всех listen сокетов на сервере.


Для этих метрик есть график и преднастроенный триггер, который уведомит, если backlog любого сервиса использован более чем на 90%:





Счетчики и ошибки протоколов


Однажды сайт одного из наших клиентов подвергся DDOS атаке, в мониторинге было видно только увеличение трафика на сетевом интерфейсе, но мы не показывали абсолютно никаких метрик по содержанию этого трафика.


В данный момент однозначного ответа на этот вопрос окметр дать по-прежнему не может, так как сниффинг мы только начали осваивать, но мы немного продвинулись в этом вопросе.


Попробуем что-то понять про эти выбросы входящего трафика:







Теперь мы видим, что это входящий UDP трафик, но здесь не видно первых из трех выбросов.
Дело в том, что счетчики пакетов по протоколам в linux увеличиваются только в случае успешной обработки пакета.


Попробуем посмотреть на ошибки:





А вот и наш первый пик — ошибки UDP:NoPorts (количество датаграмм, пришедших на UPD порты, которые никто не слушает)


Данный пример мы эмулировали с помощью iperf, и в первый заход не включили на сервер-приемщик пакетов на нужном порту.


TCP ретрансмиты


Отдельно мы показываем количество TCP ретрансмитов (повторных отправок TCP сегментов).


Само по себе наличие ретрансмитов не означает, что в вашей сети есть потери пакетов.
Повторная передача сегмента осуществляется, если передающий узел не получил от принимающего подтверждение (ACK) в течении определенного времени (RTO).


Данный таймаут расчитывается динамически на основе замеров времени передачи данных между конкретными хостами (RTT) для того, чтобы обеспечивать гарантированную передачу данных при сохранении минимальных задержек.


На практике количество ретрансмитов обычно коррелирует с нагрузкой на серверы и важно смотреть не на абсолютное значение, а на различные аномалии:




На данном графике мы видим 2 выброса ретрансмитов, в это же время процессы postgres утилизировали CPU данного сервера:





Cчетчики протоколов мы получаем из /proc/net/snmp.


Conntrack


Еще одна распространенная проблема — переполнение таблицы ip_conntrack в linux (используется iptables), в этом случае linux начинает просто отбрасывать пакеты.


Это видно по сообщению в dmesg:


ip_conntrack: table full, dropping packet

Агент автоматически снимает текущий размер данной таблицы и лимит с серверов, использующих ip_conntrack.


В окметре так же есть автоматический триггер, который уведомит, если таблица ip_conntrack заполнена более чем на 90%:





На данном графике видно, что таблица переполнялась, лимит подняли и больше он не достигался.


Вместо заключения


  • детализация метрик очень важна
  • если где-то что-то может переполниться, нужно обязательно покрывать мониторингом такие места
  • мы снимаем еще много разного по TCP/IP (RTT, соединения с непустыми send/recv очередями), но пока не придумали, как c этим правильно работать

Примеры наших стандартных графиков можно посмотреть в нашем демо-проекте.
Там же можно постмотреть графики Netstat одного из серверов.

Поделиться с друзьями
-->

Комментарии (13)


  1. kelevra
    10.09.2016 17:53
    +1

    было бы гораздо полезней, если бы в статье указали откуда берутся все мониторящиеся параметры. в частности, очень интересно, где взять SYN queue и Accept queue, в виде счётчиков для Linux и FreeBSD.


    1. BlenderRU
      10.09.2016 18:13
      +2

      я так понимаю, что эта статья по совместительству — реклама платного продукта (иного уже почти не встретишь), и не озвучивать все детали — осознанный шаг.


    1. NikolaySivko
      10.09.2016 18:22
      +3

      accept queue: можно смотреть в netstat/ss для LISTEN сокетов, текущий размер в колонке Recv-Q, лимит в колонке Send-Q, например:


      $ ss -lnt
      State       Recv-Q Send-Q                                                      Local Address:Port                                                        Peer Address:Port
      LISTEN      0      128                                                         192.168.100.1:8012                                                                   *:*

      для этого сокета текущий размер = 0, лимит 128


      1. NikolaySivko
        10.09.2016 18:30

        syn queue: насколько я понимаю нельзя посмотреть текущий размер, но при переполнении увеличивается счетчик netstat -st |grep TCPBacklogDrop. Я могу ошибаться, нужно повнимательнее почитать примерно тут


  1. shushu
    10.09.2016 18:57

    А какую базу вы используете для хранения метрик? По формату оных похоже на prometheus.


    1. NikolaySivko
      10.09.2016 20:10
      +1

      Мы используем самописное решение поверх cassandra. В плане метрик и выражений на prometheus похоже, да.


  1. larrabee
    10.09.2016 18:59

    Статья реклама, но благодаря ей я решил таки переделать забикс скрипты по мониторингу сети с bash (парсинг вывода ss и ip) на netlink и сходу нагуглил отличную статью по нему https://habrahabr.ru/post/121254/


  1. lexore
    10.09.2016 21:10

    Еще одна распространенная проблема — переполнение таблицы ip_conntrack в linux (используется iptables), в этом случае linux начинает просто отбрасывать пакеты.

    Кстати, поэтому лучше не использовать conntrack на серверах под нагрузкой.


    1. swood
      11.09.2016 00:51

      Лучше вообще его не использовать если трафик tcp. Условные nginx или haproxy отлично умеют проксировать намного эффективнее, а настройка выглядит намного комфортнее. Если же кто-то печется о создании ограничений, то есть iptables с правилами ACCEPT и DROP никто не отменял.


  1. aml
    11.09.2016 03:49

    И за что люди так любят stacked graphs? Их же читать сложно — тонкие полоски постоянно колбаски, и не поймёшь, они становятся тоньше или толще.


    1. NikolaySivko
      11.09.2016 15:17
      +1

      Stacked areas позволяют оценить сумму сразу и часто значительные изменения получаются нагляднее. Хотя конечно вкусовщина это все =)


  1. shadowalone
    11.09.2016 15:39

    Писатели намеренно вводят в заблуждение по ss и netstat чтоль?
    по ss вывели только tcp (-ant), а по netstat всё (-an).
    И да, на разных серверах сравнение ss и netstat не всегда дает преимущество ss, иногда совсем наоборот.


    1. NikolaySivko
      11.09.2016 15:46

      Да, это ошибка, но в целом результат будет примерно тот же. К сожалению сейчас нет под рукой сервера с большим количеством соединений.