Привет, Хабр!
Сегодня поговорим о том, как правильно настраивать автовакуумирование в PostgreSQL — одном из механизмов, который позволяет базе данных оставаться "в форме" и поддерживать производительность на должном уровне. Если неправильно подойти к настройке, можно столкнуться с деградацией скорости обработки запросов и внезапным ростом объема данных.
Что такое автовакуум и зачем он нужен?
Автовакуум в PostgreSQL — это процесс, который автоматически очищает базу от «мертвых» строк. Дело в том, что PostgreSQL использует модель MVCC, при которой каждая операция изменения данных не удаляет или не обновляет строку, а создаёт её новую версию, оставляя старую на месте. Эти старые версии строк остаются в таблице до тех пор, пока не будет выполнено вакуумирование. Они занимают место и замедляют работу базы, увеличивая объём, который приходится сканировать при выполнении запросов.
Автовакуум нужен для:
Удаления неактуальных строк, освобождая место для новых данных.
Обновления статистики для оптимизатора запросов.
Предотвращения переполнения транзакций (так называемый wraparound).
Плохо настроенный автовакуум может привести к деградации производительности или даже к краху базы данных, если будет происходить переполнение транзакций. Поэтому настройка автовакуума — это вопрос баланса между производительностью и поддержанием целостности данных.
Основные параметры настройки автовакуума
Разберём все основные параметры, которые влияют на работу автовакуума, и как их можно оптимизировать под конкретную нагрузку.
autovacuum_max_workers
Этот параметр задаёт максимальное количество процессов автовакуума, которые могут работать одновременно. По умолчанию в PostgreSQL установлено значение 3. Это значит, что одновременно могут вакуумироваться три таблицы, не больше.
Увеличение этого параметра может быть полезным в системах с большим количеством активно обновляемых таблиц, где нужно быстро очищать данные. Но больше воркеров означает больше нагрузки на ресурсы системы, особенно на дисковую подсистему.
Пример настройки:
ALTER SYSTEM SET autovacuum_max_workers = 10;
Когда увеличивать? Если у тебя большая база данных с множеством активно изменяющихся таблиц, увеличение числа воркеров ускорит вакуумирование.
autovacuum_naptime
autovacuum_naptime
задаёт интервал между циклами автовакуума, то есть как часто PostgreSQL будет проверять, нужно ли вакуумировать какие-то таблицы. По дефолту этот интервал составляет 60 секунд.
Чем меньше интервал, тем чаще система будет проверять таблицы и запускать автовакуум, что полезно для баз данных с частыми изменениями. Однако слишком маленькое значение может привести к тому, что процесс будет занимать слишком много ресурсов, в т.ч процессорного времени и I/O операций.
Пример:
ALTER SYSTEM SET autovacuum_naptime = '30s';
Для менее загруженных систем можно установить больший интервал:
ALTER SYSTEM SET autovacuum_naptime = '5min';
autovacuum_vacuum_cost_limit и autovacuum_vacuum_cost_delay
Эти параметры управляют интенсивностью работы автовакуума и тем, как он будет взаимодействовать с остальными процессами базы данных.
autovacuum_vacuum_cost_limit
— это лимит на количество операций вакуумирования, которые процесс может выполнить до того, как сделает паузу. Чем выше значение, тем больше работы автовакуум может выполнить за один цикл. Однако слишком высокие значения могут перегрузить систему.
Пример:
ALTER SYSTEM SET autovacuum_vacuum_cost_limit = 2000;
autovacuum_vacuum_cost_delay
— это время (в миллисекундах), на которое автовакуум делает паузу после достижения лимита операций. Чем больше задержка, тем меньше автовакуум будет нагружать систему, но тем дольше будет очищаться база.
Пример:
ALTER SYSTEM SET autovacuum_vacuum_cost_delay = 20;
autovacuum_vacuum_scale_factor и autovacuum_analyze_scale_factor
Эти параметры определяют, при каком проценте изменений в таблице должен запускаться автовакуум и анализ статистики:
autovacuum_vacuum_scale_factor
задаёт процент изменений строк в таблице, после которых срабатывает вакуумирование. Чем меньше значение, тем чаще будет запускаться вакуум.
Пример:
ALTER SYSTEM SET autovacuum_vacuum_scale_factor = 0.05;
autovacuum_analyze_scale_factor
работает аналогично, но для запуска анализа статистики. Чем чаще анализируются данные, тем точнее будет работать оптимизатор запросов.
Пример:
ALTER SYSTEM SET autovacuum_analyze_scale_factor = 0.1;
Эти параметры можно настраивать для разных типов таблиц. Например, для таблиц, которые часто обновляются, можно установить более агрессивные значения, чтобы автовакуум запускался чаще.
vacuum_freeze_min_age и vacuum_freeze_table_age
Эти параметры управляют заморозкой старых транзакций, что важно для предотвращения переполнения транзакционных ID.
vacuum_freeze_min_age
определяет возраст транзакций (в количестве выполненных транзакций), после которого строки помечаются как «замороженные» при вакуумировании.
Пример:
ALTER SYSTEM SET vacuum_freeze_min_age = 50000000;
vacuum_freeze_table_age
определяет возраст таблицы (в количестве выполненных транзакций), после которого она будет вакуумироваться принудительно для заморозки строк.
Пример:
ALTER SYSTEM SET vacuum_freeze_table_age = 150000000;
Эти параметры можно настроить так, чтобы вакуумирование старых транзакций происходило заблаговременно, до того как начнутся проблемы с переполнением транзакционных ID.
autovacuum_freeze_max_age
Этот параметр задаёт максимальный возраст транзакции, после которого таблица будет принудительно вакуумироваться для заморозки строк, независимо от других условий.
Пример:
ALTER SYSTEM SET autovacuum_freeze_max_age = 200000000;
Важно не забывать про этот параметр, т.к переполнение транзакций может вызвать проблемы с целостностью данных.
Настройка автовакуума под разные типы нагрузок
Поговорим о том, как настраивать автовакуум для разных типов систем — OLTP и OLAP.
OLTP
OLTP системы обычно имеют высокий уровень транзакционной нагрузки — это системы, где постоянно происходят обновления и удаления данных.
Рекомендованные настройки:
ALTER SYSTEM SET autovacuum_max_workers = 4;
ALTER SYSTEM SET autovacuum_naptime = '10min';
ALTER SYSTEM SET autovacuum_vacuum_cost_limit = 4000;
ALTER SYSTEM SET autovacuum_vacuum_cost_delay = 10;
ALTER SYSTEM SET autovacuum_vacuum_scale_factor = 0.2;
ALTER SYSTEM SET autovacuum_analyze_scale_factor = 0.3;
OLAP
OLAP системы ориентированы на выполнение запросов к большим объёмам данных, но изменения в данных происходят не так часто. В таких системах акцент делается на производительность при чтении, а вакуумирование можно сделать более агрессивным, т.к основная нагрузка на дисковую систему происходит при выполнении аналитических запросов.
Рекомендованные настройки:
ALTER SYSTEM SET autovacuum_max_workers = 4;
ALTER SYSTEM SET autovacuum_naptime = '10min';
ALTER SYSTEM SET autovacuum_vacuum_cost_limit = 4000;
ALTER SYSTEM SET autovacuum_vacuum_cost_delay = 10;
ALTER SYSTEM SET autovacuum_vacuum_scale_factor = 0.2;
ALTER SYSTEM SET autovacuum_analyze_scale_factor = 0.3;
Заключение
Автовакуум — это важный инструмент для поддержания базы данных в рабочем состоянии.
Напоследок хочу порекомендовать бесплатный вебинар про особенности реализации запросов в PostgreSQL — CTE, JOIN, планы выполнения, оптимизация, рекурсия. Регистрация доступна по ссылке.
Комментарии (10)
vitaliy0000
24.09.2024 11:33+2В финале статьи для OLTP и OLAP одинаковые рекомендованные настройки.
Скорее всего, ошибка copy-paste.
rinace
24.09.2024 11:33+1как правильно настраивать автовакуумирование в PostgreSQL
А можно уточнить - что является метрикой правильности настройки ?
Как определить, в цифровом выражении , что для данной СУБД автовакуум настроен правильно ?
PyramidHead7
24.09.2024 11:33Всегда считал что не должно быть высоким значение n_dead_tup у таблиц. Например, не более 20%. А то вдруг так во всех таблицах мертвых таплов больше чем живых, тогда конечно с настройками autovacuum что-то не то.
rinace
24.09.2024 11:33Например, не более 20%.
Почему не 10%, 30%, 5% ?
На чем основана эта цифра ?
PyramidHead7
24.09.2024 11:33Вот тут призадумался. Видел у авторов в блогах, точно сейчас не скажу. Во всяком случае, вряд ли кому-то понравится что в таблице например 50% мертвых строк, особенно, если эта таблица большая. Задокументированная величина вряд ли есть, да она вряд ли может существовать, не даром настройки гибкие. А какие у вас критерии правильной настройки autovacuum?
rinace
24.09.2024 11:33А какие у вас критерии правильной настройки autovacuum
У меня один критерий - минимальная деградация производительности.
И тут выясняется интересный момент - по тестам, даже 11% мёртвых строк очень сильно снижают производительность. Опять таки , по результатам первых тестов -гипотеза - чем больше и чем чаще используется таблица - тем ниже допустимый процент мертвых строк без существенного влияния на производительность.
Детали в статье,
Влияние vacuum/analyze/bloat на производительность СУБД https://habr.com/p/845454/
если интересно . Будет время , продолжу исследования для более полной статистической картины . Хотя бы для чисто академического интереса.
Kilor
ALTER SYSTEM SET autovacuum_naptime = '10min';
Такой вариант очень активно будет просаживать вашу базу, если активных таблиц/секций в ней достаточно много - например, реализован шардинг пользовательских данных. Сама процедура перебора таблиц и оценка необходимости обработки каждой из них - недешева.
PyramidHead7
Имеется ввиду слишком часто или слишком редко?
Kilor
Слишком часто. Выставлять чаще 1h обычно незачем - полезнее тогда уж целевые таблицы внешними средствами обслуживать.
То есть если вы решили сделать очередь-на-таблице, например, то гораздо эффективнее делать на ней TRUNCATE при опустошении на прикладном уровне, чем заставлять дергаться AV.