Ваш скрипт, обслуживающий индексы, измеряет не то, что надо / forpes.ru

Главная
Ваш скрипт, обслуживающий индексы, измеряет не то, что надо

Ваш скрипт, обслуживающий индексы, измеряет не то, что надо +3

03.06.2021 14:13

unfilled 6 1500 Источник

Мой Дорогой Друг Шон недавно написал пост, рассказывающий о том, как люди неправильно обслуживают индексы. Я собираюсь пойти немного дальше и поговорить о том, что сам метод, которым ваш скрипт, обслуживающий индексы, оценивает фрагментацию индексов - неправильный.

Если вы посмотрите на то, как ваш скрипт решает нужно или нет перестраивать индексы, и то же самое касается планов обслуживания (я запускал ПРОФАЙЛЕР ДА ЗДРАВСТВУЕТ ПРОФАЙЛЕР ВПЕРЁД ПРОФАЙЛЕР чтобы проверить), вы увидите, что они выполняют запрос к sys.dm_db_index_physical_stats.

Все эти запросы используют столбец avg_fragmentation_in_percent, чтобы понять - нужно ли перестроить индекс. Документация (по ссылке выше) про этот столбец имеет сказать следующее:

Это мера логической фрагментации. Логическая фрагментация - это когда страницы "перемешаны" на диске.

Если вы используете приличные диски, даже на SAN, или у вас нормальный объём ОЗУ, вы можете понять из Великого Поста Шона, что фрагментация - это не самая худшая участь, которая может выпасть на долю ваших индексов. Если вы обслуживаете статистику, всё будет в порядке.

Кэши рулят

Если вы человек, который заботится о различных кэшах на сервере, вроде буферного пула или кэша планов выполнения, то вы бы хотели измерить что-то совершенно иное. Вы бы хотели измерить сколько свободного пространства у вас есть на каждой странице данных, потому что с кучей свободного пространства на каждой странице, ваши данные будут занимать больше места в памяти, когда вы будете считывать их с диска.

Вы могли бы сделать это с помощью столбца avg_page_space_used_in_percent.

НО...

Ваше любимое решение по обслуживанию индексов позаботится о вас и запустит, по умолчанию, dm_db_index_physical_stats в режиме LIMITED. Это всё потому что более подробные измерения могут быть очень тяжёлыми на сервере, где хранится множество данных, и, блин, даже LIMITED может выполняться очень долго.

Но, если бы я собирался принять решение о том нужно ли перестраивать индекс, это именно та метрика, которую я бы хотел использовать. Потому что этого неиспользуемого пространства может быть очень много.

Штука в том, что между avg_fragmentation_in_percent и avg_page_space_used_in_percent, нет особой корреляции.

Локальная БД

Посмотрим на фрагментацию в моей локальной БД Stack Overflow 2013:

Обе таблицы достаточно фрагментированы, чтобы привлечь внимание обслуживающего скрипта, но перестройка индекса, на самом деле, помогает только таблице Posts, несмотря на то, что мы перестроили оба.

В таблице Comments, avg_page_space_used_in_percent слегка уменьшается, а в Posts становится лучше примерно на 10%.

Количество страниц для Comments не изменяется, но уменьшается примерно на 500 тысяч для Posts.

Вот это то, что мне нравится. Я был бы рад читать на 500 тысяч меньше страниц при сканировании таблицы целиком.

Но при этом, я вообще-то не хочу сканировать целиком таблицу, если говорить не об отчётах или хранилищах данных.

Если мы говорим об OLTP, мы обычно избегаем сканирования больших таблиц и чтобы этого добиться, мы создаём некластерные индексы, которые помогают искать данные эффективно, и пишем запросы с чёткими условиями, которые обеспечивают эффективное использование этих индексов.

Правильно?
Правильно

Подумайте о настройках обслуживания индексов

Вероятно они на стандартных 5% и 30% для реорганизации и перестроения. Дело не только в том, что они абсурдно низкие, но и в том, что они даже измеряют не тот тип фрагментации. Даже при 84% "фрагментации" мы видели страницы, заполненные на 75%.

Это не идеально, но едва ли это катастрофа.

Да вы возможно размышляли о том, чтобы установить fill factor ещё меньше, чтобы избежать фрагментации.

Что ещё хуже, вы, вероятно, смотрите все таблицы > 1000 страниц, т.е. примерно 8МБ. Но если у вас проблемы с тем, чтобы прочитать и удержать в памяти 8 мегабайт - может пора сгонять в магазин?

Спасибо, что прочитали!

Примечание переводчика

Тема достаточно холиварная. Erik Darling и Brent Ozar достаточно давно относятся к той группе, которая топит за то, что, в общем случае, индексам не нужно обслуживание. В противовес им можно поискать посты Paul S. Randal и Paul White, которые наоборот считают, что индексы нужно регулярно обслуживать.

На Хабре не нашёл постов/переводов, представляющих такую точку зрения, поэтому решил сделать сам. Ну и интересно, как обслуживают индексы dba на Хабре - принимайте участие в опросе.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Как вы обслуживаете индексы?

33,3%Стандартный план обслуживания6
11,1%Стороннее решение (Ola Hallengren, Sergii Syrovatchenko, etc)2
44,4%Свои скрипты8
11,1%Никак2

Вы используете стандартные трешхолды (5/30) для реорганизации/перестроения?

46,7%Да7
53,3%Нет (напишите в комментарии, пожалуйста)8

Вы учитываете avg_page_space_used_in_percent в обслуживании индексов?

29,4%Да5
70,6%Нет12

Комментарии (6)

mssqlhelp
03.06.2021 18:01
#23111594
+1
Если индексы с данными на SSD, дефрагментация пользы не приносит, только напрасно тратит циклы перезаписи TLC. Мало того, она ещё и статистику по колонкам портит. SSD рассеивают запись, чтобы увеличить срок службы дисков, и это превращает дефрагментацию в «тыкву». Пора Рендалу на покой :))))

DmitryLTL
03.06.2021 20:05
#23112066
В опросе отсутствует пункт - "для меня это оверинжениринг".
Думаю что большинство баз попадает под этот критерий. Размер данных и нагрузка для обычной базы таковы, что никаких преимуществ не получишь. Особенно с массовым уходом hdd.
1. unfilled Автор
  03.06.2021 20:17
  #23112098
  Не совсем понял, что имеется в виду. Оверинжениринг - это обслуживать индексы в принципе? Или оверинжениринг - это не использовать стандартные планы обслуживания?
  1. DmitryLTL
    03.06.2021 20:23
    #23112102
    Заниматься настройкой отличной от стандартной для базы.
    Т.е. пытаться выжать доли процента из производительности индекса.
    И это касается не только индексов. Надо трезво смотреть в зеркало и время от времени повторять - я не гугл (кроме случаев когда ты гугл)
    Пример у нас база на 5GB, хостится на сервере с 128GB RAM. Из которых сам движок может максимально использовать только 32GB.
    
    unfilled Автор
    03.06.2021 20:37
    #23112148
    Так может лучше вообще не трогать индексы на таких системах? Не насиловать регулярно диски, а лучше почаще выполнять checkdb?
    Ну, т.е. пост же как раз об этом - перестройка индексов стандартными средствами может дать какой-то минимальный прирост производительности (если он вообще будет), но потребует кучу ресурсов, сгенерирует тонну логов, инвалидирует кучу планов и может вызвать блокировки (на не-Enterpise редакции).
    В вашем примере как раз только процент заполненности страницы и может сыграть какую-то роль. Памяти же фрагментированные индексы, заполненные на 100 процентов будут занимать столько же, сколько и совсем не фрагментированные.
    
    DmitryLTL
    03.06.2021 20:47
    #23112186
    +1
    Может быть это и будет правильное решение.
    Особенно на "highload" в 0.2 RPS

Ваш скрипт, обслуживающий индексы, измеряет не то, что надо +3

Кэши рулят

Локальная БД

Подумайте о настройках обслуживания индексов

Примечание переводчика

Как вы обслуживаете индексы?

Вы используете стандартные трешхолды (5/30) для реорганизации/перестроения?

Вы учитываете avg_page_space_used_in_percent в обслуживании индексов?

Комментарии (6)

mssqlhelp

DmitryLTL

unfilled Автор

DmitryLTL

unfilled Автор

DmitryLTL