Clickhouse против Postgres — какую базу данных использовать для анализа логов nginx / forpes.ru

Главная
Clickhouse против Postgres — какую базу данных использовать для анализа логов nginx

Clickhouse против Postgres — какую базу данных использовать для анализа логов nginx -3

16.07.2020 07:25

chemtech 28 1800 Источник

В этом посте представлен перевод поста Surya Sankar. К сожалению, исходников этого тестирования нет. Попробуйте вместо обычного Postgres использовать Clickhouse. Так же можно попробовать Greenplum.

Этим постом я хотел обратить внимание сообщества на отсутствие бенчмарков Postgres vs Clickhouse. А также хотел бы обратить внимание этим постом для тех людей, которые делают аналитику на PostgreSQL.

Я уже давно ищу хороший способ анализа наших веб-журналов nginx. Если бы денег на эту процедуру было больше, то и вариантов было бы гораздо больше. Я мог бы настроить кластер AWS Redshift или хранилище данных Google BigQuery. Или я мог бы просто согласиться с разработкой плана, предлагаемых различными инструментами APM на рынке.

Но деньги-это действительно проблема в стартапе, который работает с ограниченным бюджетом. И Redshift, и BigQuery закончили бы с неприемлемыми ежемесячными бюджетами. То же самое и с готовыми продуктами предприятия. Поэтому я искал решение с открытым исходным кодом. Стек ELK действительно подходит для этого случая. Несмотря на то, что мне удалось настроить кластер с одним узлом, поддерживать его в рабочем состоянии было непростой задачей. Он безвозвратно потерпит неудачу при малейшем нарушении. Если какой-либо сценарий очистки не работает и диск заполнится, произойдет сбой. Иногда происходили сбои без видимой причины, и мне приходилось тратить несколько часов, чтобы все восстановить. В конце концов я решил, что хлопоты по поддержанию этого метода в рабочем состоянии не стоят того. Облачный план, предложенный компанией Elastic, все еще не входил в наш бюджет.

Наконец я наткнулся на Clickhouse — это СУБД с открытым исходным кодом, которая утверждает, что ее колоночная архитектура, где данные, принадлежащие столбцу, хранятся вместе, специально подходит для рабочих нагрузок OLAP. Требования были впечатляющими, и я решил попробовать. Но, пытаясь это сделать, я также хотел проверить, сможет ли Postgres удовлетворить мои требования. Я обращаюсь к SQLAlchemy всегда, когда хочу писать запросы, и, учитывая, что она очень хорошо интегрирована с Postgres, я действительно хотел рассмотреть возможность того, что, возможно, сам Postgres будет работать. Возможно, моя нагрузка на данные была недостаточно велика, чтобы гарантировать специализированное решение, такое как Clickhouse. Имея в виду эти вопросы, я приступил к настройке Postgres и Clickhouse для обработки моих логов nginx и сравнил оба.

Загрузка данных nginx в базы данных

Мои журналы nginx хранятся в корзинах AWS S3. Поэтому я получил дамп данных, просто синхронизировав содержимое этого сегмента с локальной папкой. Срок хранения журналов составлял примерно 2 месяца. Общий размер папки с gzipped журналами составил 277 Мбайт. Мне пришлось написать несколько скриптов для чтения этих файлов и загрузки данных в базы данных — clickhouse и postgres. У меня есть общий код, используемый для этого в репозиторий nginx в лог-аналитики. Я могу преобразовать его в готовый к использованию пакет pypi в ближайшее время. Я также напишу отдельный подробный пост об используемых методах моделирования и загрузки. Но поскольку этот пост посвящен сравнению баз данных после завершения загрузки, вы можете просто предположить, что загрузка сработала.

Сравнение размеров хранилища данных после загрузки

Как упоминалось ранее, размер архивированных (gzip) журналов доступа nginx составлял 277 МБ.

Размер базы данных clickhouse после загрузки данных определялся путем просмотра размера папки с именем базы данных в файле /var/lib/clickhouse/data. Я использовал БД с именем test. Таким образом, вывод команды du-sh /var/lib/clickhouse/data/test дал 733 МБ в качестве размера базы данных.

Размер базы данных postgres был определен путем просмотра размеров папок внутри нее /var/lib/postgresql/12/main/base. Там были разные папки с именами в виде цифр. Я смог найти тот, который ссылается на таблицу базы данных, используемую для загрузки данных журнала nginx, проверив выходные данные SELECT pg_relation_filepath('weblog_entries'); в клиенте psql. Размер папки оказался колоссальным 7,5 ГБ

Таким образом, Postgres занимал в 10 раз больше места, чем Clickhouse для тех же данных. И это было почти в 30 раз больше, чем исходный gzipped. Учитывая, что это было только для 2-месячных журналов и только для 1 сервера, загрузка журналов на год с 2-х серверов привела бы к 12-кратному увеличению этого размера, то есть 90 ГБ. Это было больше, чем размер файловой системы, которую я использовал. Это само по себе должно было исключить postgres как допустимый вариант.

Сравнение времени выполнения запроса

Я начал с простого сравнения времени, затраченного на подсчет всех записей

Clickhouse: 0.005 seconds

surya-VirtualBox :) SELECT COUNT() FROM test.weblog_entries;

SELECT COUNT()
FROM test.weblog_entries

--COUNT()-¬
¦ 6258734 ¦
L----------

1 rows in set. Elapsed: 0.005 sec.

Postgres: 62.96 seconds

test=# SELECT COUNT(*) FROM weblog_entries;
  count  
---------
 6566618
(1 row)

Time: 62960.427 ms (01:02.960)

Clickhouse был в 1260 раз быстрее.

Таким образом, мы видим, что Clickhouse явно выигрывает на несколько порядков. Но все же у него есть недостатки по сравнению с Postgres

Clickhouse не поддерживает уникальные ограничения. Поэтому я должен написать команду приложения, чтобы убедиться, что одна и та же запись журнала не загружается более одного раза. Я бы хотел, чтобы это можно было оставить в базе данных
SQLAlchemy поддерживает Clickhouse по-прежнему в зачаточном состоянии, используя только некоторые сторонние неофициальные библиотеки. В Clickhouse даже близко нет того, что доступно для Postgres

Postgresql поддерживает концепцию под названием Foreign Data Wrappers. Это механизм, который позволяет пользователю взаимодействовать с внешними источниками данных через интерфейс Postgresql. Percona открыла FDW, который они создали для Clickhouse. Это позволит мне использовать интерфейс postgres для связи с clickhouse. Я должен еще проверить, решает ли это 2 проблемы, упомянутые выше — открывать уникальные ограничения с помощью postgresql и поддерживать SQLALchemy с помощью драйверов Postgres. Если бы это оказалось так, я бы брал лучшее из обоих систем.

Комментарии (28)

Anthrax_Beta
16.07.2020 10:36
#21851278
-2
```
SELECT COUNT(*) FROM weblog_entries;
```
Такой запрос не надо делать. Лучше указать в параметре к COUNT какое-нибудь поле, в идеале первичный ключ, тогда запрос будет быстрее в разы.
1. chemtech Автор
  16.07.2020 10:44
  #21851302
  Конечно, в PostgreSQL так лучше не делать, потому что PostgreSQL OLTP, а Сlickhouse OLAP. Подсчет аналитики count(*) бывает надо делать. На скриншоте пример.
1. mihmig
  16.07.2020 10:49
  #21851336
  +1
  Вот почему так всегда?
  Сначала новичку говорят: для подсчёта количества строк в таблице делай
  SELECT COUNT(*) FROM table;
  А потом говорят, что так делать не надо…
  «забудьте всё, чему вас учили по физике в школе», ага.
1. anonymous
  16.07.2020 10:50
  #21851338
  на самом деле у различных БД алгоритм может немного отличаться и где-то (*) будет работать точно так же, а где-то с полем будет быстрее
  1. chemtech Автор
    16.07.2020 10:50
    #21851340
    -1
    Не знаю. Нет у меня бенчмарков. Самому только делать.
1. RSalo
  16.07.2020 10:57
  #21851366
  Я ещё больше скажу, счётчики строк можно брать из pg_class(если не слишком важна транзакционность и повышенная точность). И, скорее всего, Clickhouse обрезает всякие плюшки в виде транзакций и прочих штук, для большей производительности. Поэтому и вес меньше.

akryukov
16.07.2020 10:43
#21851296
SELECT COUNT(*) FROM weblog_entries;
Таким запросом мы можем измерить только то, хранит ли СУБД статистику по таблицам или нет.
Если речь о том, чтобы хранить логи, то надо писать запрос, характерный для анализа логов.
Что-нибудь вроде
SELECT datetime, stacktrace FROM weblog_entires where status='ERROR'
И даже в этом случае мы будем измерять производительность индекса по полю status, а не производительность СУБД в целом.
1. chemtech Автор
  16.07.2020 10:45
  #21851308
  Согласен. Точных данных у меня нет. Но все равно Сlickhouse будет быстрее считать.
  1. denaspireone
    16.07.2020 10:54
    #21851358
    В чем смысл сравнения строчно и колоночной БД?
    
    chemtech Автор
    16.07.2020 10:57
    #21851364
    Не все знают что PostgreSQL строчно, а Clickhouse колоночная БД.
    На самом деле не так важно какая БД. Главное чтобы она хорошо выполняла свою задачу.
    
    denaspireone
    16.07.2020 11:00
    #21851380
    На самом деле очень важно, какая БД. Если ты не знаешь её функционал и в каких случаях ее использовать — то лучше не лезть вообще.
    
    Тебя почитать, так на каждый сайт wordpress нужно ставить kubernetes в одну ноду, а лучше в 3:
    «На самом деле не так важно в чем запускать сайт. Главное чтобы инструмент был и он хорошо выполнял свою задачу.»
    
    chemtech Автор
    16.07.2020 11:08
    #21851430
    Согласен. Знать надо какая БД.
  1. akryukov
    16.07.2020 11:01
    #21851384
    Но все равно Сlickhouse будет быстрее считать.
    Это очень неочевидно.
    
    Тема производительности на самом деле довольно интересная. Плохо, что автор исходной статьи совершенно не умеет проводить исследования.

DSolodukhin
16.07.2020 10:48
#21851330
+3
Я только настроился почитать сравнение двух БД, а статья-то и закончилась.

Что касается постгреса, было бы интереснее и полезнее сравнить тот же timescaledb с clickhouse.
1. denaspireone
  16.07.2020 10:54
  #21851360
  Clickhouse на больших выборках будет выигрывать, на точненых и частых запросах проигрывать — вот и все сравнение.

denaspireone
16.07.2020 10:54
#21851356
-

maxp
16.07.2020 11:02
#21851392
+2
Автор офигенный! Непонятно что непонятно как запихал в базу, но выводы делать готов.
Так-то молодец, конечно, про sqlalchemy слышал, скрипты тоже писать умеет как-то.

gudvinr
16.07.2020 12:48
#21851872
Таким образом, мы видим, что Clickhouse явно выигрывает на несколько порядков.
А теперь попробуйте поизмерять вставки по одной записи в MergeTree кликхауса и в обычную таблицу без индекса в постгресе. Насколько порядков будет проигрывать кликхаус в этом случае?
1. chemtech Автор
  16.07.2020 12:54
  #21851910
  Зачем вставлять по 1 записи? В Clickhouse нужно вставлять пачками.
  1. gudvinr
    16.07.2020 13:01
    #21851940
    +1
    А зачем в postgres считать кол-во записей в таблице с логами? OLTP базы данных не для этого предназначены.
    
    Ваше сравнение настолько же бесполезное, насколько вставка по одной записи в кликхаус. Потому что так не нужно делать.
    
    chemtech Автор
    16.07.2020 13:33
    #21852082
    Вы знаете что OLTP базы данных не для этого предназначены. А вот у меня коллеги не думали об этом. Этим постом я хотел обратить внимание сообщества на отсутствие бенчмарков Postgres vs Clickhouse. А также хотел бы обратить внимание этим постом для тех людей, которые делают аналитику на PostgreSQL.
    
    gudvinr
    16.07.2020 14:04
    #21852250
    Померить время — это не бенчмарк. Конкретно у вас в статье это бесполезные запросы с бесполезными числами, которые не говорят ни о чём.
    
    Какие данные там лежат — вы не говорите. Какое железо, какая конфигурация БД — тоже. Структура индексов в постгресе не известна.
    Ваши результаты невозможно повторить, потому что не известно абсолютно ничего. Только то, что в вашей таблице примерно 6.5млн записей.
    
    Точнее, получается, не ваши, раз это перевод. Это не отменяет того, что оригинальная статья и данные в ней бесполезны.
    
    chemtech Автор
    16.07.2020 14:40
    #21852450
    -2
    Согласен. Может этот перевод сподвигнет сообщество сделать более качественное сравнение.

rakhinskiy
16.07.2020 12:59
#21851926
Не могу ничего сказать в сравнении с PostgreSQL но недавно переводил access логи nginx c ELK на clickhouse и разница (именно в разрезе статистики) колосcальная.
Я могу строить статистику запросов (а их ~5kk в час) за несколько месяцев а после добавления всех нужных materialized view время ответа <1s
И со всем этим справляется один сервер. Сейчас вот только допилил конфиг для vector на замену filebeat + logstash

TyVik
16.07.2020 13:53
#21852188
Да как вообще можно было додуматься анализировать логи в Postgres? Он же OLTP.

anonymous
16.07.2020 14:56
#21852534
COUNT(ClickHouse): 6258734
COUNT(Postgres): 6566618

Ого, 307 тысяч записей — разница в подсчёте как будто ЦИК считал явку :-)
Кто в итоге врёт и какому подсчёту можно верить?

Kroid
16.07.2020 16:12
#21852918
Этот пост не стоит усилий, потраченных на его перевод. Офигенное сравнение — непонятно что непонятно как непонятно куда загрузили, сделали count() и этим запросом начали и завершили сравнение. Такие авторы дискредитируют технологию, которую хвалят — может показаться, что раз фанат кликхауса глуповат, то и сама бд плохая, хоть на самом деле это далеко не так.
1. chemtech Автор
  16.07.2020 16:14
  #21852922
  -1
  Этим постом я хотел обратить внимание сообщества на отсутствие бенчмарков Postgres vs Clickhouse.

Clickhouse против Postgres — какую базу данных использовать для анализа логов nginx -3

Загрузка данных nginx в базы данных

Сравнение размеров хранилища данных после загрузки

Сравнение времени выполнения запроса

Комментарии (28)

chemtech Автор

chemtech Автор

chemtech Автор

chemtech Автор

chemtech Автор

chemtech Автор

chemtech Автор

chemtech Автор

chemtech Автор