SQL Задача про бинарное дерево / forpes.ru

Главная
SQL Задача про бинарное дерево

SQL Задача про бинарное дерево -2

04.09.2023 15:45

LeonID_L 15 6200 Источник

Как-то, на просторах бескрайнего, наткнулся на любопытную задачу, которая, к тому же,
довольно просто решается.

Дальнейший текст, будет полезен для начинающих практиков, у кого есть, хоть какая-то база в написании SQL запросов. Для ушлых сеньоров, все что будет сказано ниже, может показаться слишком просто, и так понятно, примитивно и тривиально.

Пару слов о необходимом арсенале.

Для решения задачи, понадобится следующее:

Изучить, либо освежить, как используются, в SQL, условные конструкции CASE WHEN THEN;
Повторить использование IN в связке с вложенным запросом, а именно, перед ним.
Вспомнить, что делает оператор DISTINCT;
Ну и не забывать, что когда проверяем значение на NULL, то пишем не '=', '<>', '!=' а IS NULL / IS NOT NULL.

И так, сама задача.

Есть, стало быть, у нас таблица, Tree:

N - Nodes (узловые элементы);P - Parent (родительские элементы); — N - Nodes (узловые элементы);
P - Parent (родительские элементы);

Написать запрос, для определения типа узла (элемента) бинарного дерева.
Для каждого узла, вывести одно из следующих значений: Leaf / Inner / Root.
Упорядочить записи по значению узла.

Например:

Если на входе у нас нечто вроде такого:

В этом месте, можно сделать паузу, и скушав твикс, попробовать нарисовать, по приведенной таблице, бинарное дерево.

То, на выходе мы ожидаем получить:

Соответственно:

Leaf - это конечный элемент, который ни для кого более, не является родительским, как элементы, выделенные на рисунке ниже.

Inner - это элемент, который является родительским для одного, или более других элементов, но и у него самого, также есть родитель.

Root - элемент на вершине иерархии, от которого начинается ветвление, но вышестоящих родительских элементов, у него нет.

У тех, кто знаком с программированием, обычно в голове, сразу начинают мелькать алгоритмы прохода по массиву в цикле, но у нас тут SQL, и надо чуть перенастроиться)

Не исключаю, что кому-то, еще в период средне-высшего образования, могли настолько
"привить любовь", к решению вообще любых, и подобных задач, в частности, что от словосочетания "бинарное дерево", глаз начинает дергаться в двух местах. Однако повторюсь, задача простая, и сейчас можно сделать глубокий вдох, и попробовать ее решить, не читая пока то, что ниже.

Spoiler, дальше будет разбираться решение!

Иногда, те, кто уже знаком c некоторыми приемами, имеют тенденцию к усложнению, и могли навскидку подумать, что здесь понадобится какой-нибудь там хитрый JOIN, но нет. Все что нужно, так это уловить логику отличия разновидностей элементов, которая записана в табличной форме.

Совсем уж несложно догадаться, что элемент, который является Root-ом, имеет null, в столбце P (Parent).
Далее, столбец N (Node), cодержит перечисление всех узловых элементов.
Те значения столбца N, которые также присутствуют в столбце P (Parent), это промежуточные элементы, или внутренние (Inner), то есть они для кого-то являются Parent (родительскими) элементами, но и над ними также еще есть элементы, родительские по отношению к ним самим.

Например, [1] -> [2] -> [5]. Элемент [2], является родительским для элеменnа [1], и имеет свой родительский элемент [5].
И наконец, все остальные элементы столбца N, которые не Root, и не являются ни для кого родительскими, это листья, или элементы типа Leaf. Элементы этого типа, отсутствуют в столбце P, т.к. не выступают в роли родительских элементов.

Кто уже понял, как решить, написать и выполнить запрос можно здесь (пишите запрос прямо под имеющимся кодом, учтите, что при первом запуске, система может задуматься).

Решение

SELECT N AS Node,
       CASE
           WHEN P IS NULL THEN 'Root'
           WHEN N IN (SELECT DISTINCT P FROM Tree) THEN 'Inner'
           ELSE 'Leaf'
       END AS "Type"
FROM Tree
ORDER BY N ASC;

Ну а кто хочет держать себя в форме, будь то на случай собеса, или SQL нужен для текущих задач, или просто мозги потренить, запрыгиваем в ТГ канал, SQL Решает (рекомендуется кликнуть на хэштег #задача, и планомерно решать все подряд).

А пока всё.

Успехов в развитии!

Комментарии (15)

Kerman
04.09.2023 16:07
#25929886
+1
понадобится какой-нибудь там хитрый JOIN, но нет

Ясно-понятно. Мы не умеем в джойн, поэтому сделаем подзапрос. Может сразу CTE прикрутить?

Задача решается элементарным селфджойном, чтобы проверить потомка на нулл. Парент уже есть в полях. Дальше можно и кейсом, можно и ифом выдать нужное значение
1. darkmon
  04.09.2023 16:07
  #25930046
  Встречался с такой задачей часто на больших таблицах. Безусловно, должен быть join. С масштабируемостью in (...) - начинаются проблемы от 10к+ элементов, к тому же где-то этот массив в памяти надо разместить. Ну и P должен быть проиндексирован, а иначе Nested loops.
1. uvic
  04.09.2023 16:07
  #25930090
  Причем селфджойн скорее всего будет эффективней:
  Оптимизатор скорее всего сделает его hash-join-ом (https://habr.com/ru/articles/657021/). Вместо ужасного N IN (SELECT DISTINCT P FROM Tree) внутри CASE, с которым не понятно как оптимизатор справится, даже при наличии индекса по P... А без индекса вообще мрак на большой таблице.
1. Akina
  04.09.2023 16:07
  #25930096
  Self-join тут не стреляет. У узла может быть много детей, что породит дубликаты, а DISTINCT - это дорого.
  1. miksoft
    04.09.2023 16:07
    #25930728
    В заголовке и в тексте упоминается бинарное дерево, так что не так уж и много.
    
    И DISTINCT можно сделать до джойна.

Akina
04.09.2023 16:07
#25930104
Так себе решение... скорее всего оно будет медленное, и чем больше таблица, тем хуже производительность. Коррелированный WHEN EXISTS смотрится выгоднее - особенно если имеются соотв. индексы.

VladimirFarshatov
04.09.2023 16:07
#25930524
Классика жанра. :) На sql.ru была даже прибитая гвоздиком тема для поиска всех потомков дерева и не обязательно бинарного на переменных и в один проход по таблице... эх, жаль закрылся скуль-ру..
1. fraks
  04.09.2023 16:07
  #25930958
  +2
  Открылась его копия, и не одна.
  
  https://resql.ru
  
  Тут даже регистрироваться можно, но активность нулевая, все в телеграм ушли.
  1. SemenovVV
    04.09.2023 16:07
    #25932122
    спасибо, не знал. добавил себе вкладку
  1. VladimirFarshatov
    04.09.2023 16:07
    #25934372
    Глянул, к сож. веток прибитых сверху гвоздиком не обнаружил, а искать поиском как-не задалось. Давно .. 2011-2014, где-то там, решение Бочкова, которое искалось "всем миром".
    
    Пардон, нашлось (стоило вспомнить Бочкова) https://resql.ru/forum/topic.php?fid=47&tid=1830048 :) Тут много разных решений..

YDR
04.09.2023 16:07
#25931300
А можно альтернативные решения в студию? Я современный SQL не знаю, мне бы глянуть возможности.

А еще если бы бенчмарк сделать, и определить, кто прав по вопросу быстродействия. Тема для продолжения статьи.
1. Portnov
  04.09.2023 16:07
  #25933568
  +2
  https://gist.github.com/portnov/2e5d0522e26513d7f594df4fe73ae862
  
  Надо заметить, распределение мест зависит от объёма данных, от степени ветвления дерева... на небольшом наборе данных выигрывает предложенный в статье запрос. На 1млн строк выигрывает "ручное" решение с union all.

SemenovVV

04.09.2023 16:07

#25932452

проще некуда без IN на t-sql :

CREATE TABLE #Tree (
    N int,
    P int
);
INSERT INTO #Tree 
VALUES
( 1, 2),
( 3, 2),
( 6, 8),
(	9, 8),
(	2, 5),
(	8, 5),
(	5, null);
----SELECT * FROM #Tree;
declare @root1 int
select @root1= N from #Tree where p  is null

select N,'корень' from #Tree where p  is null

select P,'ветвь' from #tree 
  where  P != @root1
  group by p

select t.N,'лист' from #tree t
 left join  #tree u
  on t.n = u.p
  where  u.n is null
 
drop table #Tree

Ivan22

04.09.2023 16:07

#25932916

Рекомендую такое решение:

Hidden text

SELECT N AS Node,
       CASE
           WHEN T.P IS NULL THEN 'Root'
           WHEN S.P IS NOT NULL THEN 'Inner'
           ELSE 'Leaf'
       END AS "Type"
FROM Tree T
LEFT JOIN
(
   SELECT DISTINCT P FROM Tree
) S on S.P = T.N
;

тут всего два скана и один хэш джоин, и подойдет практически для любой базы

ArtyomMorozov1
04.09.2023 16:07
#25938788
Часто на практике нужно возвратить также уровень элемента из такой таблицы. В примере из статьи для промежуточных элементов мы получим только информацию о том, что он не конечный и не начальный. Возвратить таблицу вида "Node", "Parent", "Level" из исходной с произвольным количеством промежуточных уровней можно рекурсивным запросом.
```
with cte as (
select N as [Node]
      ,P as [Parent]
	  ,1 as [Level]
  from t1 as d
  where d.P is null
union all
select d1.N
      ,d1.P
	  ,cte.[Level]+1 as lvl
  from t1 as d1 inner join cte on d1.P=cte.[Node])
select * from cte
```