Ранее я писал, как включить поддержку jsonb в postgres/psycopg2. Сегодня экспериментировал с тем, как запрашивать данные в колонках типа JSON.
На эту тему есть документация, но мне было не совсем понятно, как работают различные операции:
Запрос отработал, давайте выведем все данные, чтобы проверить:
Теперь сделаем фильтрацию результатов. Есть несколько операторов, которые мы можем использовать, и дальше увидим, почему в качестве типа выбрали jsonb.
Равенство
В jsonb мы можем проверить, что два JSON объекта идентичны:
Ограничения
Также мы можем получить json объект, содержащий другой, т.е. «являющийся подмножеством»:
Говорит: — Дай нам все объекты начинающиеся с ключа а и значения 1:
Ограничения в обоих направлениях:
В этом случае запрос выведет пустой объект и точное совпадение для второго:
Существование ключ/элемент
Последней партией операторов проверим существование ключа (или элемента типа строка в массиве).
Получим объекты, имеющие любые ключи из списка:
И все значения объектов имеющие точное соответствие ключей из списка:
Ключи для обхода
Вы так же можете фильтровать записи имеющие соответствие key->path. В простых случаях использование операторов ограничения может быть проще, но не в сложных, ими не обойтись. Эти операции мы можем использовать в SELECT, но все же интереснее применить их в выражении WHERE.
Получаем все записи значений ассоциативного элемента с ключом a равным 1.
Обратите внимание на необходимость использования текстового значения, а не числа:
Можем сделать сравнение между примитивами объектов и массивов:
Получается, что массивы и объекты больше чем цифры.
Так же можем посмотреть более глубокий path:
Получим объект, где элемент b имеет дочерний объект c, и с равен строке «d»:
Так же есть версии этих операторов, которые возвращают текст, а не объект JSON. В случае последнего запроса это означает, что нам не нужно сравнивать с JSON объектом (в варианте, когда мы действительно хотим получить строку):
Таким образом, до этого момента все хорошо. Мы можем работать с разными данными, и те же самые данные могут быть использованы в индексах jsonb тоже. Тем не менее, более внимательный читатель, возможно, заметил, что мы имеем дело с JSON данными, которые имеют путь к объекту от корня. Это не обязательно должно быть так: массивы также валидный JSON, действительно такими являются какие-либо из допустимых примеров:
Обратите внимание на последнюю запись, которая является типом jsonb и преобразуется к канонической форме:
Так же JSON null отличается от SQL NULL.
Итак, что же происходит, когда мы храним объекты смешанного «типа» в колонке JSON?
Вся структура вывелась без проблем. Посмотрим, можем ли мы работать с этими объектами и запросами?
Проверка равенства прекрасно работает:
Ограничения тоже работают, как ожидалось:
Ключи и существующие элементы тоже работают. Не удивительно, что один запрос будет соответствовать элементам в массиве, а так же ключам в объекте:
Но как только мы начали делать ключам или элементам 'get' получаем проблемы;
(Видимо у автора статьи на момент её написания был установлен PotgreSQL 9.4 betta версии, поэтому часть запросов сыпали ошибки, проверил на 9.4.1 все запросы отрабатываются):
Вы по-прежнему можете использовать обход key-path если у вас не скалярные значения:
Обратите внимание на синтаксис для key path, для строк (должны быть json ключи) или integer (в индексах массивов).
Это накладывает весьма строгие ограничения. Я не знаю, как такие вещи работают в MondgoDB.
Но в перспективе, если вы храните данные в массивах и в объектах json в одной колонке, то в дальшейшем могут быть некоторые проблемы. Но не все потеряно. Можно получить строки на основе базовых объектов:
Затем можно этот запрос совместить с запросом выше:
Действительно, в Postgres вам даже не нужно быть уверенным что data @> '{} приходит первым.
Но что делать если нам нужны только array типы данных? Оказывается можно использовать тот же трюк:
И это все так же можно сочетать с другими операторами:
Что ж, запись @> оператора доступна только для jsonb столбцов, так что вы не сможете запросить смешанные данные для обычных json колонок.
А что дальше?
Рассмотрение jsonb в Postgres был сторонний проект, сейчас я работаю над json(b) запросами в ORM django. С Django 1.7 в функциях поиска можно будет написать, что-то вроде:
Но я не уверен, что будут работать имена из последнего набора. Название «get» кажется немного универсальным, и может быть, мы могли использовать разные имена для подстановки входного типа, хотя только integer и string допустимы.
На эту тему есть документация, но мне было не совсем понятно, как работают различные операции:
CREATE TABLE json_test (
id serial primary key,
data jsonb
);
INSERT INTO json_test (data) VALUES
('{}'),
('{"a": 1}'),
('{"a": 2, "b": ["c", "d"]}'),
('{"a": 1, "b": {"c": "d", "e": true}}'),
('{"b": 2}');
Запрос отработал, давайте выведем все данные, чтобы проверить:
SELECT * FROM json_test;
id | data
----+--------------------------------------
1 | {}
2 | {"a": 1}
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
5 | {"b": 2}
(5 rows)
Теперь сделаем фильтрацию результатов. Есть несколько операторов, которые мы можем использовать, и дальше увидим, почему в качестве типа выбрали jsonb.
Равенство
В jsonb мы можем проверить, что два JSON объекта идентичны:
SELECT * FROM json_test WHERE data = '{"a":1}';
id | data
----+------
1 | {"a": 1}
(1 row)
Ограничения
Также мы можем получить json объект, содержащий другой, т.е. «являющийся подмножеством»:
SELECT * FROM json_test WHERE data @> '{"a":1}';
Говорит: — Дай нам все объекты начинающиеся с ключа а и значения 1:
id | data
----+--------------------------------------
2 | {"a": 1}
4 | {"a": 1, "b": {"c": "d", "e": true}}
(2 rows)
Ограничения в обоих направлениях:
В этом случае запрос выведет пустой объект и точное совпадение для второго:
SELECT * FROM json_test WHERE data <@ '{"a":1}';
id | data
----+----------
1 | {}
2 | {"a": 1}
(2 rows)
Существование ключ/элемент
Последней партией операторов проверим существование ключа (или элемента типа строка в массиве).
id | data
----+--------------------------------------
2 | {"a": 1}
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
(3 rows)
Получим объекты, имеющие любые ключи из списка:
SELECT * FROM json_test WHERE data ?| array['a', 'b'];
id | data
----+--------------------------------------
2 | {"a": 1}
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
5 | {"b": 2}
(4 rows)
И все значения объектов имеющие точное соответствие ключей из списка:
SELECT * FROM json_test WHERE data ?& array['a', 'b'];
id | data
----+--------------------------------------
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
(2 rows)
Ключи для обхода
Вы так же можете фильтровать записи имеющие соответствие key->path. В простых случаях использование операторов ограничения может быть проще, но не в сложных, ими не обойтись. Эти операции мы можем использовать в SELECT, но все же интереснее применить их в выражении WHERE.
SELECT * FROM json_test WHERE data ->> 'a' > '1';
Получаем все записи значений ассоциативного элемента с ключом a равным 1.
Обратите внимание на необходимость использования текстового значения, а не числа:
id | data
----+---------------------------
3 | {"a": 2, "b": ["c", "d"]}
(1 row)
Можем сделать сравнение между примитивами объектов и массивов:
SELECT * FROM json_test WHERE data -> 'b' > '1';
id | data
----+--------------------------------------
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
5 | {"b": 2}
(3 rows)
Получается, что массивы и объекты больше чем цифры.
Так же можем посмотреть более глубокий path:
SELECT * FROM json_test WHERE data #> '{b,c}' = '"d"';
Получим объект, где элемент b имеет дочерний объект c, и с равен строке «d»:
id | data
----+--------------------------------------
4 | {"a": 1, "b": {"c": "d", "e": true}}
Так же есть версии этих операторов, которые возвращают текст, а не объект JSON. В случае последнего запроса это означает, что нам не нужно сравнивать с JSON объектом (в варианте, когда мы действительно хотим получить строку):
SELECT * FROM json_test WHERE data #>> '{b,c}' = 'd';
id | data
----+--------------------------------------
4 | {"a": 1, "b": {"c": "d", "e": true}}
(1 row)
Таким образом, до этого момента все хорошо. Мы можем работать с разными данными, и те же самые данные могут быть использованы в индексах jsonb тоже. Тем не менее, более внимательный читатель, возможно, заметил, что мы имеем дело с JSON данными, которые имеют путь к объекту от корня. Это не обязательно должно быть так: массивы также валидный JSON, действительно такими являются какие-либо из допустимых примеров:
SELECT
'null'::json,
'true'::json,
'false'::json,
'2'::json,
'1.0001'::json,
'"abc"'::json,
'1E7'::jsonb;
Обратите внимание на последнюю запись, которая является типом jsonb и преобразуется к канонической форме:
json | json | json | json | json | json | jsonb
------+------+-------+------+---------+-------+----------
null | true | false | 2 | 1.00001 | "abc" | 10000000
(1 row)
Так же JSON null отличается от SQL NULL.
Итак, что же происходит, когда мы храним объекты смешанного «типа» в колонке JSON?
INSERT INTO json_test (data)
VALUES ('[]'), ('[1,2,"a"]'), ('null'), ('1E7'), ('"abc"');
SELECT * FROM json_test;
id | data
----+--------------------------------------
1 | {}
2 | {"a": 1}
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
5 | {"b": 2}
6 | []
7 | [1, 2, "a"]
8 | null
9 | 10000000
10 | "abc"
(10 rows)
Вся структура вывелась без проблем. Посмотрим, можем ли мы работать с этими объектами и запросами?
Проверка равенства прекрасно работает:
SELECT * FROM json_test WHERE data = '{"a":1}';
SELECT * FROM json_test WHERE data = 'null';
Ограничения тоже работают, как ожидалось:
SELECT * FROM json_test WHERE data @> '{"a":1}';
SELECT * FROM json_test WHERE data <@ '{"a":1}';
Ключи и существующие элементы тоже работают. Не удивительно, что один запрос будет соответствовать элементам в массиве, а так же ключам в объекте:
SELECT * FROM json_test WHERE data ? 'a';
id | data
----+--------------------------------------
2 | {"a": 1}
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
7 | [1, 2, "a"]
(4 rows)
SELECT * FROM json_test WHERE data ?| array['a', 'b'];
id | data
----+--------------------------------------
2 | {"a": 1}
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
5 | {"b": 2}
7 | [1, 2, "a"]
(5 rows)
SELECT * FROM json_test WHERE data ?& array['a', 'b'];
id | data
----+--------------------------------------
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
(2 rows)
Но как только мы начали делать ключам или элементам 'get' получаем проблемы;
(Видимо у автора статьи на момент её написания был установлен PotgreSQL 9.4 betta версии, поэтому часть запросов сыпали ошибки, проверил на 9.4.1 все запросы отрабатываются):
SELECT * FROM json_test WHERE data ->> 'a' > '1';
ERROR: cannot call jsonb_object_field_text
(jsonb ->> text operator) on an array
Вы по-прежнему можете использовать обход key-path если у вас не скалярные значения:
SELECT * FROM json_test WHERE data #> '{b,c}' = '"d"';
ERROR: cannot call extract path from a scalar
SELECT * FROM json_test WHERE data #> '{b,c}' = '"d"' AND id < 8;
id | data
----+--------------------------------------
4 | {"a": 1, "b": {"c": "d", "e": true}}
(1 row)
Обратите внимание на синтаксис для key path, для строк (должны быть json ключи) или integer (в индексах массивов).
Это накладывает весьма строгие ограничения. Я не знаю, как такие вещи работают в MondgoDB.
Но в перспективе, если вы храните данные в массивах и в объектах json в одной колонке, то в дальшейшем могут быть некоторые проблемы. Но не все потеряно. Можно получить строки на основе базовых объектов:
SELECT * FROM json_test WHERE data @> '{}';
id | data
----+--------------------------------------
1 | {}
2 | {"a": 1}
3 | {"a": 2, "b": ["c", "d"]}
4 | {"a": 1, "b": {"c": "d", "e": true}}
5 | {"b": 2}
(5 rows)
Затем можно этот запрос совместить с запросом выше:
SELECT * FROM json_test WHERE data @> '{}' AND data ->> 'a' > '1';
id | data
----+---------------------------
3 | {"a": 2, "b": ["c", "d"]}
(1 row)
Действительно, в Postgres вам даже не нужно быть уверенным что data @> '{} приходит первым.
Но что делать если нам нужны только array типы данных? Оказывается можно использовать тот же трюк:
SELECT * FROM json_test WHERE data @> '[]';
id | data
----+-------------
6 | []
7 | [1, 2, "a"]
(2 rows)
И это все так же можно сочетать с другими операторами:
SELECT * FROM json_test WHERE data @> '[]' AND data ->> 1 = '2';
id | data
----+-------------
7 | [1, 2, "a"]
(1 row)
Что ж, запись @> оператора доступна только для jsonb столбцов, так что вы не сможете запросить смешанные данные для обычных json колонок.
А что дальше?
Рассмотрение jsonb в Postgres был сторонний проект, сейчас я работаю над json(b) запросами в ORM django. С Django 1.7 в функциях поиска можно будет написать, что-то вроде:
# Exact
MyModel.objects.filter(data={'a': 1})
MyModel.objects.exclude(data={})
# Key/element existence
MyModel.objects.filter(data__has='a')
MyModel.objects.filter(data__has_any=['a', 'b'])
MyModel.objects.filter(data__has_all=['a', 'b'])
# Sub/superset of key/value pair testing
MyModel.objects.filter(data__contains={'a': 1})
MyModel.objects.filter(data__in={'a': 1, 'b': 2})
# Get element/field (compare with json)
MyModel.objects.filter(data__get=(2, {'a': 1}))
# Get element/field (compare with scalar, including gt/lt comparisons)
MyModel.objects.filter(data__get=(2, 'a'))
MyModel.objects.filter(data__get__gt=('a', 1))
# key path traversal, compare with json or scalar.
MyModel.objects.filter(data__get=('{a,2}', {'foo': 'bar'}))
MyModel.objects.filter(data__get=('{a,2}', 2))
MyModel.objects.filter(data__get__lte=('{a,2}', 2))
Но я не уверен, что будут работать имена из последнего набора. Название «get» кажется немного универсальным, и может быть, мы могли использовать разные имена для подстановки входного типа, хотя только integer и string допустимы.
Комментарии (9)
format1981
01.04.2015 01:06+2Отличная статья. Я сам разбирался по оригиналу. Кстати с декабря прошлого года jsonb идет в postgres из коробки.
FractalizeR
01.04.2015 10:26+3Для расширенных запросов по JSON данным можно использовать JSQuery. Он более функционален, чем встроенные возможности Postgres. Хотя проект только начал развиваться.
IhorL
Посмотрев документацию Postgres, вижу поддержку XML. Тогда вопрос: не проще все это хранить и обрабатывать в базе в XML варианте? В MSSQL для меня сегодня гораздо удобнее хранить и обрабатывать в XML чем вот такие хитроумности. Не знаю как в Postgres но MSSQL умеет и древовидные xml строить с уровнями одним запросом. А раз и Postgres работает с XML то вопрос остается чисто в сериализации и десериализации json<>xml.
Я понимаю что это потеря производительности на конвертации но если речь идет об очень больших данных и производительности, тогда и смотреть нужно в сторону mongo redis и т.д.
madmax_inc
Вопрос представления данных в проекте. Мы на работе обрабатываем данные в XML (AIXM 5.1). И я бы не сказал, что SQL запросы по XPath удобнее/легче читаются. Просто необходимость вывода данных в XML определила формат. Если разработчику удобнее оперировать JSON, почему бы и нет.
itcoder Автор
У jsonb есть хорошее преимущество перед xml это возможность делать индексы па самим json объектам, с xml данными это сделать сложно, придется преобразовывать к типу символьной строки и потом создавать индекс. Да и почему бы нет, Potgres сейчас достаточно быстро развивается, приятно когда есть все.
int19h
У баз с полноценной поддержкой XML (не знаю, как с этим в Postgres, но думаю, что это там есть) индексы по XML как раз замечательно строятся, и XPath-запросы потом их используют. Собственно, он именно затем и нужен как отдельный от обычных блобов тип данных.