Перевод статьи подготовлен для студентов курса «Администратор Linux».




Ранее я рассказал о том, как проверить и включить использование Hugepages в Linux.
Эта статья будет полезна, только если у вас действительно есть, где использовать Hugepages. Я встречал множество людей, которые обманываются перспективой того, что Hugepages волшебным образом повысят производительность. Тем не менее hugepaging является сложной темой, и при неправильном использовании он способен понизить производительность.


Часть 1: проверяем, что hugepages включены в Linux (оригинал здесь)


Проблема:
Необходимо проверить, включены ли HugePages в вашей системе.


Решение:
Оно довольно простое:


cat /sys/kernel/mm/transparent_hugepage/enabled

Вы получите что-то вроде этого:


always [madvise] never

Вы увидите список доступных опций (always, madvise, never), при этом текущая активная опция будет заключена в скобки (по умолчанию madvise).


madvise означает, что transparent hugepages включены только для областей памяти, которые явно запрашивают hugepages с помощью madvise(2).


always означает, что transparent hugepages включены всегда и для всех процессов. Обычно это повышает производительность, но если у вас есть вариант использования, где множество процессов потребляет небольшое количество памяти, то общая нагрузка на память может резко возрасти.


never означает, что transparent hugepages не будут включаться даже при запросе с помощью madvise. Чтобы узнать больше, обратитесь к документации ядра Linux.


Как изменить значение по умолчанию


Вариант 1: Напрямую изменить sysfs (после перезагрузки параметр вернется к значению по умолчанию):


echo always >/sys/kernel/mm/transparent_hugepage/enabled
echo madvise >/sys/kernel/mm/transparent_hugepage/enabled
echo never >/sys/kernel/mm/transparent_hugepage/enabled

Вариант 2: Измените системное значение по умолчанию, перекомпилировав ядро с измененной конфигурацией (этот вариант рекомендуется только если вы используете собственное ядро):


  • Чтобы поставить always по умолчанию, используйте:
    CONFIG_TRANSPARENT_HUGEPAGE_ALWAYS=y
    # Comment out CONFIG_TRANSPARENT_HUGEPAGE_MADVISE=y
  • Чтобы поставить madvise по умолчанию, используйте:
    CONFIG_TRANSPARENT_HUGEPAGE_MADVISE=y
    # Comment out CONFIG_TRANSPARENT_HUGEPAGE_ALWAYS=y

Часть 2: Преимущества и недостатки HugePages


Мы попытаемся выборочно объяснить преимущества, недостатки и возможные ошибки при использовании Hugepages. Поскольку технологически сложная и педантичная статья, вероятно, будет тяжелой для понимания людям, которые обманываются считая Hugepages панацеей, я пожертвую точностью в угоду простоты. Просто стоит иметь ввиду, что множество тем действительно сложны и поэтому сильно упрощены.


Обратите внимание, что мы говорим о 64-х разрядных x86 системах, работающих на Linux, и что я просто предполагаю, что система поддерживает transparent hugepages (так как не является недостатком то, что hugepages не подменяются), как это случается практически в любой современной среде Linux.


В ссылках ниже я прикреплю больше технического описания.


Виртуальная память


Если вы программист C++, вы знаете, что у объектов в памяти есть конкретные адреса (значения указателя).


Однако эти адреса необязательно отражают физические адреса в памяти (адреса в ОЗУ). Они представляют собой адреса в виртуальной памяти. Процессор имеет специальный модуль MMU (memory management unit), который помогает ядру сопоставлять виртуальную память с физическим местоположением.


Такой подход имеет множество преимуществ, но самые основные из них:


  • Производительность (по различным причинам);
  • Изоляция программ, то есть ни одна из программ не может читать из памяти другой программы.

Что такое страницы?


Виртуальная память поделена на страницы. Каждая отдельная страница указывает на определенную физическую память, она может указывать на область в оперативной памяти, а может на адрес, назначенный физическому устройству, например видеокарте.


Большинство страниц, с которыми вы имеете дело, указывают либо на ОЗУ, либо подменяются (swap), то есть хранятся на жестком диске или SSD. Ядро управляет физическим расположением каждой страницы. Если осуществляется доступ к подмененной странице, ядро останавливает поток, который пытается получить доступ к памяти, считывает страницу с жесткого диска/SSD в оперативную память, а затем продолжает выполнение потока.


Этот процесс прозрачен для потока, то есть он не обязательно читает напрямую с жесткого диска/SSD. Размер нормальных страниц – 4096 байт. Размер Hugepages – 2 мегабайта.


Буфер ассоциативной трансляции (TLB)


Когда программа обращается к некоторой странице памяти, центральный процессор должен знать, с какой физической страницы считывать данные (то есть иметь виртуальную карту адресов).


В ядре есть структура данных (таблица страниц), которая содержит всю информацию об используемых страницах. С помощью этой структуры данных можно сопоставить виртуальный адрес с физическим адресом.


Однако таблица страниц довольно сложна и работает медленно, поэтому мы просто не можем каждый раз анализировать всю структуру данных, когда какой-либо процесс обращается к памяти.


К счастью в нашем процессоре есть TLB, который кэширует сопоставление виртуальных и физических адресов. Это значит, что несмотря на то, что нам нужно проанализировать таблицу страниц при первой попытке получить доступ, все последующие обращения к странице могут обрабатываться в TLB, что обеспечивает быструю работу.


Поскольку он реализован в качестве физического устройства (что делает его в первую очередь быстрым), его емкость ограничена. Поэтому, если вы захотите получить доступ к большему количеству страниц, TLB не сможет хранить сопоставление для всех них, вследствие чего ваша программа будет работать намного медленнее.


Hugepages приходят на помощь


Итак, что мы можем сделать, чтобы избежать переполнения TLB? (Мы предполагаем, что программе все еще нужен тот же объем памяти).


Вот тут-то и появляются Hugepages. Вместо 4096 байт, требующих всего одну запись в TLB, одна запись в TLB теперь может указывать на колоссальные 2 мегабайта. Будем предполагать, что TLB имеет 512 записей, здесь без Hugepages мы можем сопоставить:


4096 b?512=2 MB

Тогда как с ними мы можем сопоставить:


2 MB?512=1 GB

Именно поэтому Hugepages – это круто. Они могут повысить производительность без значительного приложения усилий. Но здесь есть существенные оговорки.


Подмена Hugepages


Ядро автоматически отслеживает частоту использования каждой страницы памяти. Если физической памяти (ОЗУ) недостаточно, ядро переместит менее важные (реже используемые) страницы на жесткий диск, чтобы освободить часть ОЗУ для более важных страниц.
В принципе, то же самое касается и Hugepages. Однако ядро может менять местами только целые страницы, а не отдельные байты.


Предположим, у нас есть такая программа:


char* mymemory = malloc(2*1024*1024); // Возьмем это за одну Hugepage!
// Заполним mymemory какими-либо данными
// Сделаем много других вещей,
// которые приведут к подмене страницы mymemory
// ...
// Запросим доступ только к первому байту
putchar(mymemory[0]); 

В этом случае ядру нужно будет подменить (прочитать) целых 2 мегабайта информации с жесткого диска/SSD только для того чтобы вы прочитали один байт. Что касается обычных страниц, с жесткого диска/SSD надо прочитать всего 4096 байт.


Поэтому, если hugepage подменяется, ее чтение происходит быстрее, только если вам нужно получить доступ ко всей странице. Это значит, что если вы пытаетесь получить доступ случайным образом к различным частям памяти и просто считываете пару килобайт, вам следует использовать обычные страницы и больше ни о чем не беспокоиться.


С другой стороны, если вам нужно получать доступ к большой части памяти последовательно, hugepages увеличат вашу производительность. Тем не менее, вам нужно проверить это самостоятельно (а не на примере абстрактного ПО) и посмотреть, что будет работать быстрее.


Аллокация в памяти


Если вы пишете на С, вы знаете, что вы можете запросить сколь угодно малые (или почти сколь угодно большие) объемы памяти из кучи с помощью malloc(). Допустим, вам нужно 30 байт памяти:


char* mymemory = malloc(30);

Программисту может показаться, что вы “запрашиваете” 30 байт памяти из операционной системы и возвращаете указатель на некоторую виртуальную память. Но на самом деле malloc () — это просто функция C, которая вызывает изнутри функции brk и sbrk для запроса или освобождения памяти из операционной системы.


Однако, запрашивать больше и больше памяти для каждой аллокации неэффективно; наиболее вероятно, что какой-либо сегмент памяти уже был освобожден (free()), и мы можем повторно его использовать. malloc() реализует довольно сложные алгоритмы для повторного использования освобожденной памяти.


При этом для вас все происходит незаметно, так почему это должно вас волновать? А потому, что вызов free() не означает, что память обязательно возвращается сразу же операционной системе.


Существует такое понятие, как фрагментация памяти. В крайних случаях есть сегменты кучи, где используется только несколько байтов, в то время, как все, что находится между ними было освобождено (free()).


Обратите внимание, что фрагментация памяти является невероятно сложной темой, и даже незначительные изменения в программе могут значительно повлиять на нее. В большинстве случаев программы не вызывают значительной фрагментации памяти, но вы должны иметь ввиду, что если с фрагментацией в некоторой области кучи возникла проблема, hugepages могут только усугубить ситуацию.


Выборочное применение hugepages


После прочтения статьи, вы определили, какие части вашей программы могут извлечь выгоду из применения hugepages, а какие – нет. Так следует ли вообще включать hugepages?


К счастью, вы можете использовать madvise(), чтобы включить hugepaging только для тех областей памяти, где это будет полезно.


Для начала, проверьте, что hugepages работают в режиме madvise(), с помощью инструкции в начале статьи.


Затем, используйте madvise(), чтобы указать ядру, где именно использовать hugepages.


#include <sys/mman.h>
// Аллоцируйте большое количество памяти, которую будете использовать
size_t size = 256*1024*1024;
char* mymemory = malloc(size);
// Просто включите hugepages…
madvise(mymemory, size, MADV_HUGEPAGE);
// … и задайте следующее
madvise(mymemory, size, MADV_HUGEPAGE | MADV_SEQUENTIAL)

Обратите внимание, что этот метод — просто рекомендации ядру по управлению памятью. Это не означает, что ядро будет автоматически использовать hugepages для заданной памяти.


Обратитесь к документации (manpage) madvise, чтобы узнать больше об управлении памятью и madvise(), у этой темы невероятно крутая кривая обучения. Поэтому, если вы намереваетесь действительно хорошо разобраться в ней, подготовьтесь к чтению и тестированию в течение нескольких недель, прежде чем рассчитывать на хоть какой-то положительный результат.


Что почитать?





Есть вопрос? Напишите в комментариях!

Комментарии (13)


  1. CrushBy
    18.07.2019 10:59
    +3

    В статье приведен только один недостаток — это если они попадают в swap. Но активный swap — это вообще большое зло и значит, что уже практически катастрофа. А в обычных случаях в чем плюсы и минусы?
    Например, есть Java приложение, которое практически сразу забирает себе весь Xmx (например, Xms = Xmx), и которое практически единственное на сервере. Как я понимаю, всегда есть смысл использовать huge pages под всю ее память?


    1. rzerda
      18.07.2019 16:38

      https://shipilev.net/jvm/anatomy-quarks/2-transparent-huge-pages/


      Кратко: точно имеет смысл попробовать и посмотреть, помогает ли, поскольку попробовать очень просто.


      А про swap Вам сюда: https://habr.com/ru/company/flant/blog/348324/.


    1. arheops
      18.07.2019 22:11

      В обычной ситуации у вас могут быть в каждой из 2мб странице по 2 байта памяти используется, а остальное — уже нет. И вы вроде как запросили 200мб, а все ваши 32Гб уже заняты.
      В случае с джава в принципе это маловероятно, если garbage collector включен, но все же возможно при определенных задачах.


  1. BHYCHIK
    18.07.2019 11:40
    +1

    Важный недостаток — очень дорогие copy-on-write страниц. На машинах, на которых крутятся in-memory СУБД, типа tarantool, надо отключать THP.


    1. ivan2kh
      18.07.2019 15:43

      В защиту tarantool, стоит сказать, там больше не используется copy-on-write. https://habr.com/ru/company/oleg-bunin/blog/340062/


      1. BHYCHIK
        18.07.2019 15:48

        Это не претензия к тарантулу) Я его нежно люблю. Редис, например, тоже с THP не дружит.


        1. zzzmmtt
          18.07.2019 16:02

          Судя по мануалам, PostgreSQL тоже недолюбливает THP, но вот просто HP очень даже приветствует.


          1. arheops
            18.07.2019 22:13

            Я уже писал, mysql тоже не сильно дружит по крайней мере в патерне с большим количеством апдейтов.


          1. pvsur
            19.07.2019 14:02

            На хабре был бенчмарк постгре с HP и без него… Как обычно, все зависит от задачи. Выигрыш иногда был нехилый…


  1. Andronas
    18.07.2019 20:58
    +1

    Почему то в статье смешиваются определения transparent hp и просто hp, хотя это немного разные вещи.


  1. Sleuthhound
    18.07.2019 21:40
    +1

    +1, фигня какая-то, смешали все в кучу, thp и hp — это разные вещи


  1. riv1329
    19.07.2019 09:58
    +1

    А что будет, если включить принудительное использование hugepages в гипервизоре? С одной стороны, виртуальные машины, как правило сразу забирают большой объем оперативной памяти, и включения hugepages должно ускорить работу всех систем. С другой стороны, MMU модуль аппаратный и, по видимому он используется и гипервизором и гостями. Что если, внутри виртуальных машин hugepages не нужны? Как все это стыкуется с технологией аппаратной виртуализации?


  1. puyol_dev2
    19.07.2019 13:01

    Как изменить значение по умолчанию

    Вариант 1: Напрямую изменить sysfs (после перезагрузки параметр вернется к значению по умолчанию):


    Все намного проще. Если используется загрузчик Grub2, в файл /etc/default/grub просто нужно добавить:

    GRUB_CMDLINE_LINUX_DEFAULT="transparent_hugepage=never default_hugepagesz=1G hugepagesz=1G"


    В примере так же изменен размер станицы до 1Гб. После выполнить sudo update-grub и перезагрузить сервер