Как-то, на просторах бескрайнего, наткнулся на любопытную задачу, которая, к тому же,
довольно просто решается.

Дальнейший текст, будет полезен для начинающих практиков, у кого есть, хоть какая-то база в написании SQL запросов. Для ушлых сеньоров, все что будет сказано ниже, может показаться слишком просто, и так понятно, примитивно и тривиально.

Пару слов о необходимом арсенале.

Для решения задачи, понадобится следующее:

  1. Изучить, либо освежить, как используются, в SQL, условные конструкции CASE WHEN THEN;

  2. Повторить использование IN в связке с вложенным запросом, а именно, перед ним.

  3. Вспомнить, что делает оператор DISTINCT;

  4. Ну и не забывать, что когда проверяем значение на NULL, то пишем не '=', '<>', '!=' а IS NULL / IS NOT NULL.

И так, сама задача.

Есть, стало быть, у нас таблица, Tree:

N - Nodes (узловые элементы);P - Parent (родительские элементы);
N - Nodes (узловые элементы);
P - Parent (родительские элементы);
  • Написать запрос, для определения типа узла (элемента) бинарного дерева.

  • Для каждого узла, вывести одно из следующих значений: Leaf / Inner / Root.

  • Упорядочить записи по значению узла.

Например:

Если на входе у нас нечто вроде такого:

В этом месте, можно сделать паузу, и скушав твикс, попробовать нарисовать, по приведенной таблице, бинарное дерево.

То, на выходе мы ожидаем получить:

Соответственно:

Leaf - это конечный элемент, который ни для кого более, не является родительским, как элементы, выделенные на рисунке ниже.


Inner - это элемент, который является родительским для одного, или более других элементов, но и у него самого, также есть родитель.


Root - элемент на вершине иерархии, от которого начинается ветвление, но вышестоящих родительских элементов, у него нет.

У тех, кто знаком с программированием, обычно в голове, сразу начинают мелькать алгоритмы прохода по массиву в цикле, но у нас тут SQL, и надо чуть перенастроиться)

Не исключаю, что кому-то, еще в период средне-высшего образования, могли настолько
"привить любовь", к решению вообще любых, и подобных задач, в частности, что от словосочетания "бинарное дерево", глаз начинает дергаться в двух местах. Однако повторюсь, задача простая, и сейчас можно сделать глубокий вдох, и попробовать ее решить, не читая пока то, что ниже.

Spoiler, дальше будет разбираться решение!

Иногда, те, кто уже знаком c некоторыми приемами, имеют тенденцию к усложнению, и могли навскидку подумать, что здесь понадобится какой-нибудь там хитрый JOIN, но нет. Все что нужно, так это уловить логику отличия разновидностей элементов, которая записана в табличной форме.

  1. Совсем уж несложно догадаться, что элемент, который является Root-ом, имеет null, в столбце P (Parent).

  2. Далее, столбец N (Node), cодержит перечисление всех узловых элементов.
    Те значения столбца N, которые также присутствуют в столбце P (Parent), это промежуточные элементы, или внутренние (Inner), то есть они для кого-то являются Parent (родительскими) элементами, но и над ними также еще есть элементы, родительские по отношению к ним самим.

    Например, [1] -> [2] -> [5]. Элемент [2], является родительским для элеменnа [1], и имеет свой родительский элемент [5].

  3. И наконец, все остальные элементы столбца N, которые не Root, и не являются ни для кого родительскими, это листья, или элементы типа Leaf. Элементы этого типа, отсутствуют в столбце P, т.к. не выступают в роли родительских элементов.

Кто уже понял, как решить, написать и выполнить запрос можно здесь (пишите запрос прямо под имеющимся кодом, учтите, что при первом запуске, система может задуматься).

Решение
SELECT N AS Node,
       CASE
           WHEN P IS NULL THEN 'Root'
           WHEN N IN (SELECT DISTINCT P FROM Tree) THEN 'Inner'
           ELSE 'Leaf'
       END AS "Type"
FROM Tree
ORDER BY N ASC;

Ну а кто хочет держать себя в форме, будь то на случай собеса, или SQL нужен для текущих задач, или просто мозги потренить, запрыгиваем в ТГ канал, SQL Решает (рекомендуется кликнуть на хэштег #задача, и планомерно решать все подряд).

А пока всё.

Успехов в развитии!

Комментарии (15)


  1. Kerman
    04.09.2023 16:07
    +1

    понадобится какой-нибудь там хитрый JOIN, но нет

    Ясно-понятно. Мы не умеем в джойн, поэтому сделаем подзапрос. Может сразу CTE прикрутить?

    Задача решается элементарным селфджойном, чтобы проверить потомка на нулл. Парент уже есть в полях. Дальше можно и кейсом, можно и ифом выдать нужное значение


    1. darkmon
      04.09.2023 16:07

      Встречался с такой задачей часто на больших таблицах. Безусловно, должен быть join. С масштабируемостью in (...) - начинаются проблемы от 10к+ элементов, к тому же где-то этот массив в памяти надо разместить. Ну и P должен быть проиндексирован, а иначе Nested loops.


    1. uvic
      04.09.2023 16:07

      Причем селфджойн скорее всего будет эффективней:
      Оптимизатор скорее всего сделает его hash-join-ом (https://habr.com/ru/articles/657021/). Вместо ужасного N IN (SELECT DISTINCT P FROM Tree) внутри CASE, с которым не понятно как оптимизатор справится, даже при наличии индекса по P... А без индекса вообще мрак на большой таблице.


    1. Akina
      04.09.2023 16:07

      Self-join тут не стреляет. У узла может быть много детей, что породит дубликаты, а DISTINCT - это дорого.


      1. miksoft
        04.09.2023 16:07

        В заголовке и в тексте упоминается бинарное дерево, так что не так уж и много.

        И DISTINCT можно сделать до джойна.


  1. Akina
    04.09.2023 16:07

    Так себе решение... скорее всего оно будет медленное, и чем больше таблица, тем хуже производительность. Коррелированный WHEN EXISTS смотрится выгоднее - особенно если имеются соотв. индексы.


  1. VladimirFarshatov
    04.09.2023 16:07

    Классика жанра. :) На sql.ru была даже прибитая гвоздиком тема для поиска всех потомков дерева и не обязательно бинарного на переменных и в один проход по таблице... эх, жаль закрылся скуль-ру..


    1. fraks
      04.09.2023 16:07
      +2

      Открылась его копия, и не одна.

      https://resql.ru

      Тут даже регистрироваться можно, но активность нулевая, все в телеграм ушли.


      1. SemenovVV
        04.09.2023 16:07

        спасибо, не знал. добавил себе вкладку


      1. VladimirFarshatov
        04.09.2023 16:07

        Глянул, к сож. веток прибитых сверху гвоздиком не обнаружил, а искать поиском как-не задалось. Давно .. 2011-2014, где-то там, решение Бочкова, которое искалось "всем миром".

        Пардон, нашлось (стоило вспомнить Бочкова) https://resql.ru/forum/topic.php?fid=47&tid=1830048 :) Тут много разных решений..


  1. YDR
    04.09.2023 16:07

    А можно альтернативные решения в студию? Я современный SQL не знаю, мне бы глянуть возможности.

    А еще если бы бенчмарк сделать, и определить, кто прав по вопросу быстродействия. Тема для продолжения статьи.


    1. Portnov
      04.09.2023 16:07
      +2

      https://gist.github.com/portnov/2e5d0522e26513d7f594df4fe73ae862

      Надо заметить, распределение мест зависит от объёма данных, от степени ветвления дерева... на небольшом наборе данных выигрывает предложенный в статье запрос. На 1млн строк выигрывает "ручное" решение с union all.


  1. SemenovVV
    04.09.2023 16:07
    +1

    проще некуда без IN на t-sql :

    CREATE TABLE #Tree (
        N int,
        P int
    );
    INSERT INTO #Tree 
    VALUES
    ( 1, 2),
    ( 3, 2),
    ( 6, 8),
    (	9, 8),
    (	2, 5),
    (	8, 5),
    (	5, null);
    ----SELECT * FROM #Tree;
    declare @root1 int
    select @root1= N from #Tree where p  is null
    
    select N,'корень' from #Tree where p  is null
    
    select P,'ветвь' from #tree 
      where  P != @root1
      group by p
    
    select t.N,'лист' from #tree t
     left join  #tree u
      on t.n = u.p
      where  u.n is null
     
    drop table #Tree


  1. Ivan22
    04.09.2023 16:07
    +2

    Рекомендую такое решение:

    Hidden text
    SELECT N AS Node,
           CASE
               WHEN T.P IS NULL THEN 'Root'
               WHEN S.P IS NOT NULL THEN 'Inner'
               ELSE 'Leaf'
           END AS "Type"
    FROM Tree T
    LEFT JOIN
    (
       SELECT DISTINCT P FROM Tree
    ) S on S.P = T.N
    ;

    тут всего два скана и один хэш джоин, и подойдет практически для любой базы


  1. ArtyomMorozov1
    04.09.2023 16:07

    Часто на практике нужно возвратить также уровень элемента из такой таблицы. В примере из статьи для промежуточных элементов мы получим только информацию о том, что он не конечный и не начальный. Возвратить таблицу вида "Node", "Parent", "Level" из исходной с произвольным количеством промежуточных уровней можно рекурсивным запросом.

    with cte as (
    select N as [Node]
          ,P as [Parent]
    	  ,1 as [Level]
      from t1 as d
      where d.P is null
    union all
    select d1.N
          ,d1.P
    	  ,cte.[Level]+1 as lvl
      from t1 as d1 inner join cte on d1.P=cte.[Node])
    select * from cte