Главная
Уменьшение времени отклика при передаче данных по UDP

Уменьшение времени отклика при передаче данных по UDP +17

25.02.2020 14:46

0xdde 22 6200 Источник

Привет, Хабр! В этой статье я хочу рассказать о решении одной из типичных проблем, с которой Embox справляется лучше GNU/Linux. Речь идет о времени реакции на пакет, переданный по протоколу Ethernet. Как известно, основной характеристикой передачи данных по сети является пропускная способность, и с ней у GNU/Linux все хорошо. Но когда речь заходит об уменьшении времени на прием/передачу единичного сетевого пакета, могут возникнуть проблемы. В частности, у заказчика была плата DE0-Nano-SoC с Linux, и с помощью этой платы хотелось управлять неким объектом по сети. Топология сети — точка-точка, никаких роутеров и хабов нет. По модели управления время реакции должно быть меньше 100 мкс, а на базе Linux удавалось добиться только 500 мкс.

DE0 Nano SoC kit

Для оценки времени передачи создаем стенд, состоящий из двух хостов.

В качестве первого хоста выступает компьютер общего назначения с GNU/Linux, в качестве второго хоста — отладочная плата DE0-Nano-SoC Kit с Embox. Эта плата содержит FPGA и HPS (Hard Processing System, т.е. обычный ARM), и именно на ней нужно уменьшать время отклика. Напишем тестовое приложение, которое просто будет отвечать UDP-пакетом с идентичным содержимым:

while (1) {
    char buf[BUFLEN];

    recvfrom(s, buf, BUFLEN);    
    sendto(s, buf, BUFLEN);
}

Его будем запускать на втором хосте, то есть на DE0-Nano-SoC.

На первом хосте программа будет посылать пакеты, ждать ответа и измерять время между отправкой и приемом:

for (int i = 0; i < N; i++) {
    char buf_tx[BUFLEN], buf_rx[BUFLEN];
    sprintf(buf_tx, "This is packet %d\n", i);

    time_t time_begin = time_now();

    sendto(s, buf_tx, BUFLEN);
    recvfrom(s, buf_rx, BUFLEN);

    time_t time_end = time_now();

    if (memcmp(buf_tx, buf_rx, sizeof(buf))) {
            printf("%d: Buffer mismatch\n", i);
    }

    if (time_end - time_begin > TIME_LIMIT) {
            printf("Slow answer #%d: %d\n", i, time_end - time_begin);
    }
}

При этом вычислим среднее, максимальное и минимальное время отклика.

Код есть на Github.

Сделав пробный запуск и удостоверившись, что пакеты приходят и уходят, на стороне отладочной платы сразу применим очевидные оптимизации:

Уберём весь отладочный вывод в UART — это дало самый значительный выигрыш, уж слишком он медленный
Соберём с флагом -O2
Включим кэш-контроллер второго уровня PL310 (это не помогло практически никак)

При отправке 500 000 пакетов (столько же отправлялось и в следующих примерах) получились такие значения:

Avg: 4.52ms
Min: 3.12ms
Max: 12.24ms

Это в несколько раз медленнее, чем ориентировочные значения, предоставленные со стороны заказчика — среднее значение должно быть хотя бы на порядок меньше. Заказчик говорил, что у него на Linux получались даже лучшие характеристики. Мы начали думать, что может быть не так.

Возможно, дело в других процессах? Но нет, кроме данной программы на плате ничего не запускается.

Возможно, много времени уходит на обработку каких-то прерываний, например, таймера? Тоже нет — снижение частоты его срабатываний никак не влияет на результат.

Как оказалось, дело было в скорости самого ethernet-соединения — использовался USB-адаптер, поддерживающий максимум 100Мбит/с, да и в драйвере не было поддержки гигабитной скорости.

После замены сетевой карты и добавления поддержки 1Гбит в драйвере получаем ещё один значительный скачок в производительности:

Avg: 0.08ms
Min: 0.07ms
Max: 4.31ms

Сравнение с Linux

Достаточно естественно сравнить это время с Linux. То же самое приложение очень просто кросс-компилировать: arm-linux-gnueabihf-gcc server.c -O2. Получившийся ELF заливаем на плату и запускаем:

Avg: 0.77ms
Min: 0.74ms
Max: 5.31ms

Таким образом, Embox "отвечает" примерно в 9 раз быстрее, что не может не радовать!

Исследование разброса

Среднее время отклика вполне хорошее, но есть "выбросы", которые не только имеют слишком большую задержку, но и вносят значительную непредсказуемость.

Для того, чтобы определить источник задержек, было решено замерить аппаратным таймером время, которой занимает обработка UDP-пакета от его приёма до отправки соответствующего ответа.

Можно накапливать статистику на отладочной плате, но проще сразу же передать на хост данные прямо в UDP-пакете.

В итоге мы решили, что прямо в пакет UDP будем ставить метки времени прихода и отправления. Причём время получения пакета записывается до передачи пакета пользовательскому приложению, прямо в обработчике прерывания. Время отправления будет получать перед самой отправкой пакета в сеть. Ну а дальше приблизительно такой код:

int net_tx(...) {
    if (is_udp_packet()) {
        timestamp2 = timer_get();
        memcpy(packet[UDP_OFFT],
            &timestamp1,
            sizeof(timestamp1));
        memcpy(packet[UDP_OFFT + sizeof(timestamp2)],
            &timestamp2,
            sizeof(timestamp2));
        ...
    }
}

В данном случае не важно, с какой частотой работает таймер, достаточно убедиться, что выбросы по времени совпадают с более долгой обработкой пакета внутри Embox.

Получили такие результаты

Avg: 8673
Min: 6191 
Max: 11950

При изучении полученных данных оказалось, что разброс времени обработки пакета составляет (между средним и максимальным) где то 25%, что конечно никак не может объяснить разброс на хосте (Avg: 0.08ms Max: 4.31ms). То есть либо задержки происходят вне проверяемого интервала (после получения пакета, но до входа в соответствующий обработчик прерывания, либо после того, как начинается отправка), либо задержки возникают на другом конце провода. В любом случае, ситуацию программно уже не удастся улучшить, точнее её можно улучшить только на 25%.

Может, проблема на другой стороне?

Остаётся один вариант — задержки возникают на стороне приложения Linux, ведь мы для измерений использовали обычный хост.

Как это проверить?

Первое, что приходит в голову — запустить процесс с высоким приоритетом:

nice -n -20 ./client

Ощутимых изменений это не дало — казалось, небольшой прирост есть, но разброс от раза к разу всё равно значительно его перекрывал.

Ещё один способ — запустить процесс с алгоритмом планирования round robin и с высоким приоритетом, это можно сделать с помощью chrt:

chrt --rr 99 ./client

И на этот раз нужный эффект действительно был достигнут — количество длительных задержек уменьшилось на порядок. Приведу гистрограмму распределения задержек для разных стратегий планировщика (масштаб оси ординат имеет логарифмический масштаб, т.к. при линейном столбцы после первого не различимы).

Используя Embox удалось достаточно просто решить поставленную задачу, уменьшить время отклика на один пакет почти в 10 раз. При этом прикладное ПО у заказчика остается фактически без изменений, следовательно, его не нужно переписывать и отлаживать. Может кто нибудь подскажет, можно ли добиться оптимизации данного параметра средствами Linux, например используя какой-нибудь bpfilter.

Если есть какие-то вопросы — пишите в рассылку embox-devel@googlegroups.com, или в наш телеграм-чат, или в комментарии здесь.

Комментарии (22)

zuborg
25.02.2020 17:58
#21320732
А сетевая карта и ядро в линуксе тюнились хоть как-то?
Interrupt coalescing выключить, как минимум, если задержка важна.
1. 0xdde Автор
  25.02.2020 18:24
  #21320852
  На хосте — обычный арч, на плате — тюнили заказчики, подробностей не знаю.
  
  Я думаю, interrupt coalescing для сетевой карточки может помочь, если приходит много пакетов «разом» (а тут отправляющий хост шлёт их по одному и ждёт ответа), в других случаях это не должно значительно помогать. Или всё-таки помогает за счёт чего-то?
  1. edo1h
    25.02.2020 22:38
    #21321754
    его отключение может снизить задержки (прерывание будет генерироваться сразу же). снизит ли и насколько — зависит от конркетной сетевой карты и её драйвера.
  1. latonita
    26.02.2020 07:35
    #21322434
    А не пробовали qnx, например? Интересно, какой отклик из коробки.
    
    abondarev
    26.02.2020 10:37
    #21323144
    нет, не пробовали, но было бы интересно. Хотя как в статье написано, обычно оптимизация идет по параметру пропускной способности. Просто у Embox сразу получается конфигурировать под заданные характеристики. Скорее всего в QNX что то подобное должно быть

gbg
25.02.2020 18:17
#21320820
Выбросить долой IP и писать прямо Ethernet-фреймы?
1. 0xdde Автор
  25.02.2020 18:36
  #21320924
  Думаю, да, опрелённое ускорение можно получить за счёт raw-сокетов. Но тут нужно было обрабатывать именно UDP-пакеты из пользовательского приложения, т.е. у нас не было цели оптимизировать само приложение.
1. abondarev
  26.02.2020 10:39
  #21323154
  Имеется в виду raw сокеты или прямо в драйвере всю логику программы сделать. Если второе, то будет конечно быстрее, но удовольствие еще то. Здесь сохранилась возможность использовать обычные пользовательские приложения.

ilmarin77
25.02.2020 20:51
#21321388
Вот тут люди задержку в UDP траффике минимизировали, правда на 10GBe интерфейсе: https://blog.cloudflare.com/how-to-achieve-low-latency/amp/ — там много всяких регулировок в ядре на эту тему
1. abondarev
  26.02.2020 10:40
  #21323160
  Спасибо, очень интересная ссылка!

OvO
25.02.2020 23:40
#21321928
А еще можно настроить сетевые буферы, изолировать ядра и есть куча тонкостей с настройкой сетевых прерываний. Мой рекорд до 138мкс в течении 48 часового теста для 1Gbps c одним switchем.
Самые целеустремленные используют DPDK, только для Intel чипов, а последние отморозки пишут отправку пакетов на bare-metal с AMP и pollingом.
1. edo1h
  26.02.2020 04:17
  #21322270
  а что тут удивительного?
  
  $ netperf -t omni -H 10.0.0.20 -l 30 -- -d rr -r 100 -O "RT_LATENCY,P99_LATENCY" OMNI Send|Recv TEST from 0.0.0.0 (0.0.0.0) port 0 AF_INET to 10.0.0.20 () port 0 AF_INET : demo Round 99th Trip Percentile Latency Latency usec/tran Microseconds 50.914 78
  
  ничего не настраивалось (кроме turbo boost на процессорах), с одной стороны вообще рилтек.
  на 25G в районе 20мкс получается из коробки.
  1. OvO
    27.02.2020 11:30
    #21328188
    А что это за latency — среднее, максимальное, минимальное? А тот же тест на 3 часа?
    
    edo1h
    28.02.2020 03:16
    #21331914
    среднее и 99%. на три часа, ожидаемо, 99% вырастет, среднее останется тем же.
    
    вы в свою очередь не сказали ни размер пакета, ни какое время вы привели.
1. abondarev
  26.02.2020 10:45
  #21323180
  Мой рекорд до 138мкс в течении 48 часового теста для 1Gbps c одним switchем.
  
  Отличный результат! Не поделитесь опытом?:)
  Понятно что всё перечисленные Вами
  
  А еще можно настроить сетевые буферы, изолировать ядра и есть куча тонкостей с настройкой сетевых прерываний.
  
  Влияет, но вот как именно. Долго кстати мучались?
  
  последние отморозки пишут отправку пакетов на bare-metal с AMP и pollingом.
  
  Ну порой даже на это идут, и даже рассматривался такой вариант, как мне сказали, но затраты на всякие драйвера, и другие фишки не позволили. В нашем случае все цивилизованно, прикладное приложение, многозадачность и так далее. Ну как я понял и Ваш результат, тоже все это содержал!
  1. OvO
    27.02.2020 12:27
    #21328558
    Было 2 проекта на эту тему, на первый убили 2 недели — закатали все ядро с потрохами в память, обработчики прерываний сетевой и поток обработки сидели на изолированном ядре, где прерывания только от сетевой, NMI и еще что-то, само собой никакого гипертрединга, и это дало разброс в 30мкс. на 48 часов. Для второго можно было только в RedHat, но наибольшую боль вызывал второй процессор, синхронизация памятей, перекачка большого объема данных из одного устройства в другое в 2 потоках и очень сложные 3party библиотеки. Разброс был в 60мкс. Если разрешат то напишу подробнее про проблемы. Полезный мануал есть у RedHat. Остальное надо копать.
    Если можно выбирать и нужно честное реальное время, то не используйте Intel и *Linux*, первый дает необъяснимые всплески на большие объемах данных, а со вторым тяжело что-то доказать хотя linux+dpdk давал очень многообещающий результат.

p0litruk
26.02.2020 11:34
#21323426
Можно использовать для приема пакетов технологию TPACKETv3(поддержка есть в ядре) в связке с libpcap. Ускорение получится за счет отсутствия накладных расходов на копирование пакетов из яда в юзерспейс. Так же pcap позволяет применить фильтрацию пакетов, как в tcpdump
1. abondarev
  26.02.2020 11:47
  #21323512
  спасибо, интересно! Про TPACKETv3 не слышали раньше!

BD9
26.02.2020 16:53
#21325008
У Gigabit Ehernet такие же задержки, как и у Fast Ethernet, или даже больше. Накосячили с настройкой сети.
Непонятно, зачем две головы в системе (два центра управления).
Про UDP:

Таким образом, UDP предоставляет ненадёжный сервис, и датаграммы могут прийти не по порядку, дублироваться или вовсе исчезнуть без следа. UDP подразумевает, что проверка ошибок и исправление либо не нужны, либо должны исполняться в приложении. Чувствительные ко времени приложения часто используют UDP, так как предпочтительнее сбросить пакеты, чем ждать задержавшиеся пакеты, что может оказаться невозможным в системах реального времени. При необходимости исправления ошибок на сетевом уровне интерфейса приложение может задействовать TCP или SCTP, разработанные для этой цели.
Зачем его было вообще брать?

Сама система выглядит сляпанной из того, что ~~было~~ знал исполнитель.
1. Bobovor
  26.02.2020 18:55
  #21325662
  Вот тоже показалось, что какой то велосипед на квадратных колёсах, а ему пытаются тропинку холмиками сделать.

throgwar
27.02.2020 11:17
#21328114
Первый пакет может отсылаться с задержкой, если нету arp записи MAC адресата (MAC destination) в arp таблице, и соответственно необходимо выслать широковещательный (broadcast) arp запрос и дождаться arp ответа от адресата, прежде, чем отослать unicast пакет.
Прекрасно видно на примере icmp ping:

ping dest_addr
PING dest_addr (dest_addr) 56(84) bytes of data.
64 bytes from dest_addr: icmp_seq=1 ttl=64 time=6.47 ms
64 bytes from dest_addr: icmp_seq=2 ttl=64 time=0.764 ms
64 bytes from dest_addr: icmp_seq=3 ttl=64 time=0.766 ms

п.с. Если такое задержки критичны, теоретически может помочь multicast, так как ethernet (MAC) multicast адрес вычисляется из multicast ip адреса.

aspsk
27.02.2020 11:17
#21328116
Вы не зря упоминули bpftrace. Сам bpftrace немного про другое, а для вашего случая больше подходит XDP (это одна из разновидностей BPF программ, специально предназначенная для оптимизаций такого рода).

Для того, чтобы написать простой, но максимально быстрый UDP ping (может с включением меток времени), подойдет базовая функциональность XDP. Например, см. мой пример ICMP echo сервера тут.

Если требуется проводить более сложную обработку пакета (т.е. в userspace), то можно смотреть в сторону AF_XDP (вот пример, опять же ICMP echo, из xdp-tutorial).

Для максимальной производительности драйвер карточки должен поддерживать native XDP, но и generic XDP тоже сработает быстрее, чем любое «обычное» решение на Linux.

Уменьшение времени отклика при передаче данных по UDP +17

Сравнение с Linux

Исследование разброса

Комментарии (22)

0xdde Автор

0xdde Автор