Всем привет, Хабровчане!
Одна из проблем хранилищ данных, которая часто возникает в процессе работы? - это постоянное увеличение их размеров. А добавление все новых и новых источников данных только ускоряет заполнение места на дисках.
Да, конечно же настройка чистки самых больших таблиц и периода историцируемости позволят сократить неконтролируемое увеличение места. Но если речь идет о хранилищах, которые бодро наполняются и добавляются всё новые "большие" таблицы и количество их увеличивается, то вопрос места в DWH всегда становится ребром. И возникает вопрос "А куда же ушло место?", "Что можно почистить?" или "Как обосновать руководству расширение хранилища?". Системы мониторинга на подобие ZABBIX позволяют только верхнеуровнево отследить увеличение дискового пространства на полке но не дают возможности отследить рост самих объектов в базе.
Сегодня хочу поделится своим маленьким лайфхаком как легко можно поставить на мониторинг размеры таблиц на примере MS SQL для дальнейшего анализа и оптимизации базы. Это маленькое решение которое может помочь сэкономить кучу времени чтобы проанализировать "Куда же ушло все место в хранилище?". Данный принцип можно применить и на других базах (Oracle, PostgreSQL и т.д.) с той лишь разницей, что названия системных таблиц будут другие.
Ниже описан небольшой план и набор скриптов MS SQL чтобы автоматизировать мониторинг места. Это будет регламентное задание , которое собирает статистику ежедневно.
1) На первом шаге создаем таблицу для хранения истории и счетчик. В этой таблице будет сохранятся ежедневная история статистики для каждой таблицы.
CREATE SEQUENCE prm.sq_etl_log_1
AS bigint
START WITH 1
INCREMENT BY 1
CREATE TABLE prm.dwh_size_of_tables(
ddate date NULL, --Дата на момент который смотрим статистику таблицы
run_id numeric(14, 0) NOT NULL, --ID Запуска сбора статистики, Счетчик
db_name varchar(20) NOT NULL, --База данных
schema_name sysname NOT NULL, --Схема таблицы
table_name sysname NOT NULL, --Название таблицы
row_count bigint NULL, --Количество строк в таблице
reserved_KB bigint NULL, --Ощий размер таблицы вместе с индесами
data_KB bigint NULL, --Размер самих данных в таблице
index_size_KB bigint NULL, --Размер индексов
unused_KB bigint NULL --неиспрользованное место
)
2) Далее необходимо создать процедуру которая будет ежедневно запускаться и собирать статистику по-таблично. Эту процедуру необходимо поставить на ежедневное задание для запуска. Она собирает срез размеров таблиц на текущий день.
Скрипт процедуры представлен ниже:
Скрипт процедуры
USE [LEMON]
GO
CREATE PROCEDURE [prm].[load_etl_log]
AS
declare
@run_id int
BEGIN
--Если сегодня был запуск очищаем текущюую статистику и перезаливаем
delete from lemon.prm.dwh_size_of_tables where ddate = cast(getdate() as date);
--Для страых периодов храним только статистику только на начало и на середину месяца
delete from lemon.prm.dwh_size_of_tables
where (DATEPART(day, ddate)not in (1,15) and ddate < dateadd(month ,-2, getdate()))
DECLARE @SQL_text varchar(max),@SQL_text_final varchar(max); ;
set @SQL_text= '
USE {SCHEMA_FOR_REPLACE};
insert into lemon.prm.dwh_size_of_tables
SELECT
cast(getdate() as date) date_time,
'''+ convert(nvarchar , @run_id ) +''' run_id ,
''{SCHEMA_FOR_REPLACE}'' db_name,
a3.name AS schema_name
,--Схема
a2.name AS table_name
,--Имя таблицы
a1.rows AS row_count
,--Число записей
(a1.reserved + ISNULL(a4.reserved, 0)) * 8 AS reserved_KB
,--Зарезервировано (КБ)
a1.data * 8 AS data_KB
,--Данные (КБ)
(
CASE
WHEN (a1.used + ISNULL(a4.used, 0)) > a1.data
THEN (a1.used + ISNULL(a4.used, 0)) - a1.data
ELSE 0
END
) * 8 AS index_size_KB
,--Индексы (КБ)
(
CASE
WHEN (a1.reserved + ISNULL(a4.reserved, 0)) > a1.used
THEN (a1.reserved + ISNULL(a4.reserved, 0)) - a1.used
ELSE 0
END
) * 8 AS unused_KB --Не используется (КБ)
FROM (
SELECT ps.object_id
,SUM(CASE
WHEN (ps.index_id < 2)
THEN row_count
ELSE 0
END) AS [rows]
,SUM(ps.reserved_page_count) AS reserved
,SUM(CASE
WHEN (ps.index_id < 2)
THEN (ps.in_row_data_page_count + ps.lob_used_page_count + ps.row_overflow_used_page_count)
ELSE (ps.lob_used_page_count + ps.row_overflow_used_page_count)
END) AS data
,SUM(ps.used_page_count) AS used
FROM sys.dm_db_partition_stats ps
WHERE ps.object_id NOT IN (
SELECT object_id
FROM sys.tables
WHERE is_memory_optimized = 1
)
GROUP BY ps.object_id
) AS a1
LEFT OUTER JOIN (
SELECT it.parent_id
,SUM(ps.reserved_page_count) AS reserved
,SUM(ps.used_page_count) AS used
FROM sys.dm_db_partition_stats ps
INNER JOIN sys.internal_tables it ON (it.object_id = ps.object_id)
WHERE it.internal_type IN (
202
,204
)
GROUP BY it.parent_id
) AS a4 ON (a4.parent_id = a1.object_id)
INNER JOIN sys.all_objects a2 ON (a1.object_id = a2.object_id)
INNER JOIN sys.schemas a3 ON (a2.schema_id = a3.schema_id)
WHERE a2.type <> N''S''
AND a2.type <> N''IT''
';
DECLARE @request_id nvarchar(36), @schema_for_replace nvarchar(100)
DECLARE bki_cursor CURSOR FOR
SELECT name as schem
FROM sys.databases
--Здесь можно перечислить список баз по которым собираем статистику
/* where name in (
'DWH','DWH_copy','VN','VN_test') --and name ='DWH'
*/
OPEN bki_cursor
FETCH NEXT FROM bki_cursor INTO @schema_for_replace
WHILE @@FETCH_STATUS = 0
BEGIN
set @SQL_text_final = replace (@sql_text,'{SCHEMA_FOR_REPLACE}',@schema_for_replace);
execute (@SQL_text_final)
FETCH NEXT FROM bki_cursor INTO @schema_for_replace
END
CLOSE bki_cursor;
DEALLOCATE bki_cursor;
END
Создать ежедневное задание
3) Теперь по мере наполнения таблицы dwh_size_of_tables можно смотреть статистику по таблицам и по базам. Для просмотра можно воспользоваться вот таким удобным скриптом ниже.
Статистика места в DWH по таблицам
--Статистика места в DWH по таблицам
select top 10 ddate -- [Дата]
,run_id --
,db_name --БД-
,schema_name --Схема
,table_name --Имя таблицы
,row_count --Число записей
,round(cast(reserved_KB as float) /1024/1024,2) as reserved_GB --Зарезервировано (КБ)
,round(cast(data_KB as float) /1024/1024,2) as data_GB --Данные (КБ)
,round(cast(index_size_KB as float) /1024/1024,2) as index_size_GB --Индексы (КБ)
,round(cast(unused_KB as float) /1024/1024,2) as unused_GB--Не используется (КБ)
from lemon.prm.dwh_size_of_tables
where ddate = cast(getdate() as date)-- and db_name='DWH'
order by reserved_GB desc
Статистика места в DWH по базам
--Статистика места в DWH по Базам
select ddate -- [Дата]
,run_id --
,db_name --БД-
,round(cast(sum(reserved_KB) as float) /1024/1024,2) as reserved_GB --Зарезервировано (КБ)
,round(cast(sum(data_KB) as float) /1024/1024,2) as data_GB --Данные (КБ)
,round(cast(sum(index_size_KB) as float) /1024/1024,2) as index_size_GB --Индексы (КБ)
,round(cast(sum(unused_KB) as float) /1024/1024,2) as unused_GB--Не используется (КБ)
,sum(row_count) row_count--Число записей
from lemon.prm.dwh_size_of_tables
where ddate = cast(getdate() as date)-- and db_name='DWH'
group by ddate,run_id,db_name
order by ddate,run_id ,sum(data_KB+index_size_KB) desc
4) Далее создаем еще 3 процедуры, которые позволят нам очень удобно просматривать историю по базам и по таблицам. Эти процедуры используются не для сбора статистики а для показа этой статистики в красивом виде. Причем указав период за который хотим посмотреть статистику, она по-колоночно разбивает статистику.
Дневная статистика места по базам. Указываем период за который смотрим
USE [LEMON]
GO
/****** Object: StoredProcedure [prm].[dwh_daily_size_statistics] Script Date: 02.09.2020 18:35:02 ******/
SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
CREATE procedure [prm].[dwh_daily_size_statistics] @sdate date, @edate date
AS
BEGIN
--Собираем подневную статистику
declare @str nvarchar(4000)
set @str=
stuff
(
(
select N','+ 'round(cast(sum(case when ddate = cast('''+ cast( ddate as nvarchar)+'''as date) then reserved_KB end) as float) /1024/1024,0) ['+ cast( ddate as nvarchar)+']'+char(10)
from (
select distinct ddate from lemon.prm.dwh_size_of_tables
where ddate >=@sdate and ddate<@edate
) t
order by t.ddate
for xml path('')
,type
).value('.','nvarchar(max)'),
1,0,''
)-- column_string
--print @str
exec ('
select db_name --БД-
'+@str+'
from lemon.prm.dwh_size_of_tables
--where ddate = cast(getdate() as date)
group by db_name
--order by db_name
');
end ;
GO
Месячная статистика места по базам. Указываем период просмотра истории.
USE [LEMON]
GO
/****** Object: StoredProcedure [prm].[dwh_monthly_size_statistics] Script Date: 02.09.2020 18:35:09 ******/
SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
CREATE procedure [prm].[dwh_monthly_size_statistics] @sdate date, @edate date
AS
begin
--Собираем помесячую статистику
declare @str2 nvarchar(4000)
set @str2=
stuff
(
(
select N','+ 'round(cast(sum(case when ddate = cast('''+ cast( ddate as nvarchar)+'''as date) then reserved_KB end) as float) /1024/1024,0) ['+
CAST(year( ddate) as nvarchar) +'_'+ CAST(month( ddate) as nvarchar)
--cast( ddate as nvarchar)
+']'+char(10)
from (
select distinct ddate from lemon.prm.dwh_size_of_tables
where ddate >=@sdate and ddate<@edate and day(ddate)=1
) t
order by t.ddate
for xml path('')
,type
).value('.','nvarchar(max)'),
1,0,''
)
exec ('
select db_name --БД-
--,table_name
'+@str2+'
from lemon.prm.dwh_size_of_tables
--where ddate = cast(getdate() as date)
group by db_name--,table_name
order by db_name
');
end;
GO
Процедура для просмотра истории размеров таблиц
USE [LEMON]
GO
/****** Object: StoredProcedure [prm].[dwh_monthly_table_size_statistics] Script Date: 02.09.2020 18:36:15 ******/
SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
ALTER procedure [prm].[dwh_monthly_table_size_statistics] @sdate date, @edate date ,@db_name nvarchar(100)
AS
begin
--Собираем помесячую статистику
declare @str2 nvarchar(4000)
set @str2=
stuff
(
(
select N','+ 'round(cast(sum(case when ddate = cast('''+ cast( ddate as nvarchar)+'''as date) then reserved_KB end) as float) /1024/1024,0) ['+
CAST(year( ddate) as nvarchar) +'_'+ CAST(month( ddate) as nvarchar)
--cast( ddate as nvarchar)
+']'+char(10)
from (
select distinct ddate from lemon.prm.dwh_size_of_tables
where ddate >=@sdate and ddate<@edate and day(ddate)=1
) t
order by t.ddate
for xml path('')
,type
).value('.','nvarchar(max)'),
1,0,''
)
declare @ORDER_DATE NVARCHAR(100)
SET @ORDER_DATE= convert(nvarchar, year( @edate) ) +'_'+ convert(nvarchar, month( @edate) )
SELECT @ORDER_DATE = convert(nvarchar, year( DDATE) ) +'_'+ convert(nvarchar, month( DDATE) ) FROM (
select MAX( ddate ) DDATE from lemon.prm.dwh_size_of_tables
where ddate >=@sdate and ddate<@edate and day(ddate)=1
) tt ;
declare @ddb_name nvarchar(100)
set @ddb_name = case when @db_name is null then '' else ' and '+ 'db_name= '''+@db_name + '''' end
exec ('
select db_name --БД-
,table_name
'+@str2+'
from lemon.prm.dwh_size_of_tables
where 1=1 ' + @ddb_name + '
-- ddate = cast(getdate() as date)
group by db_name,table_name
order by db_name,['+ @ORDER_DATE +'] desc
');
end;
5) В итоге у нас получились 3 процедуры которые позволяют :
A) Смотреть историю увеличения/уменьшения БД подневно
B) Смотреть историю увеличения/уменьшения БД помесячно
C) Смотреть историю увеличения/уменьшения таблиц помесячно. Очень удобно когда нужно отследить по конкретной таблице когда по ней пошел рост.
Да , конечно же есть различные варианты написания запроса (в том числе использовать PIVOT), но эти процедуры удобны тем, что однажды написав его, больше не нужно каждый раз тратить время на написание нового запроса. Достаточно просто вызвать его передав, как параметр, нужный период истории.
--Дневная статистика места по базам указываем период за который смотрим
exec LEMON.prm.dwh_daily_size_statistics @sdate ='2020-08-01', @edate ='2020-09-01'
--Месячная статистика места по базам указываем период за который смотрим
exec LEMON.prm.dwh_monthly_size_statistics @sdate ='2020-03-01', @edate ='2020-09-01'
--Месячная статистика места по каждой таблице
exec LEMON.prm.dwh_monthly_table_size_statistics
@sdate ='2020-02-01'
, @edate ='2020-08-01'
, @db_name ='DWH'--если указываем null то показывает все таблицы по всем базам
Как видно на картинке выше по ней очень удобно просмотреть какая база начала резко увеличиваться в размерах. Более того этими тремя процедурами очень быстро можно найти , например, таблицу или базу которая начала в какой-то момент сильно расти. Особенно удобно когда в хранилище уже созданы тысячи объектов, и ручной поиск уже не применим.
Вывод: Настроив небольшой такой функционал по мониторингу места можно очень сильно упростить жизнь в будущем, в части касающейся роста базы и поиска объектов в хранилище, которые сильно выросли. Более того, это поможет определить по каким проектам или системам наблюдается рост размера хранилища и легко обосновать руководству, например, необходимость дополнительного места или настроить чистку таблиц, по которым наблюдается быстрый рост.
На этом я пожалуй закругляюсь и надеюсь что эта статья будет полезна кому-нибудь. Оставляйте свои комментарии у кого есть другие способы по анализу места в хранилищах. Буду рад любым отзывам.
P.S. Все скрипты выложены на GitHub по ссылке.
До скорых встреч !!
podde
Почему нельзя перед нажатием кнопки "Опубликовать" перечитать свой пост?
Текст очень грязный и небрежный. Это даже не ошибки, а просто грязь набора. Про запятые я вообще молчу.
Здесь, конечно, не литературный клуб, но когда в каждой строчке ошибка или небрежность, это мешает воспринимать текст.
diego_milito Автор
Спасибо за замечание. Исправил. Но просьба соблюдать политкорректность.
podde
"Политкорректность" нарушили вы, вывалив черновик. Текст такого качества – это просто неуважение к читателям.