В конце октября вышла новая версия HP Vertica. Команда разработчиков продолжила славные традиции выпуска строительной техники BigData и дала кодовое имя новой версии Excavator.
Изучив нововведения этой версии, я думаю, название выбрано верное: все что нужно для работы с большими данными у HP Vertica уже было реализовано, теперь же нужно балансировать и улучшать существующее, то есть копать.
Ознакомиться с полным списком нововведений можно в этом документе: http://my.vertica.com/docs/7.2.x/PDF/HP_Vertica_7.2.x_New_Features.pdf
Я же вкратце пройдусь по наиболее значимым с моей точки зрения изменениям.
Изменена политика лицензирования
В новой версии были изменены алгоритмы подсчета занимаемого размера данных в лицензии:
- Для табличных данных теперь при подсчете не учитывается 1 байт разделителя для числовых и дата-время полей;
- Для данных в зоне flex при подсчете размер лицензии считается, как 1/10 от размера загруженных JSON.
Таким образом, при переходе на новую версию, размер занимаемой лицензии вашего хранилища уменьшится, что особенно будет заметно на больших хранилищах данных, занимающих десятки и сотни терабайт.
Добавлена официальная поддержка RHEL 7 и CentOS 7
Теперь можно будет разворачивать кластер Vertica на более современных ОС Linux, что думаю должно обрадовать системных администраторов.
Оптимизировано хранение каталога базы данных
Формат хранения каталога данных в Vertica уже достаточно много версий оставался прежним. С учетом роста не только самих данных в базах данных, но и количества объектов в них и количества нод в кластерах, он уже перестал удовлетворять вопросам эффективности для высоконагруженных хранилищ данных. В новой версии была проведена оптимизация, с целью уменьшения размера каталога, что положительно сказалось на скорости его синхронизации между нодами и работе с ним при выполнении запросов.
Доработана интеграция с Apache решениями
Добавлена интеграция с Apache Kafka:
Такое решение позволяет организовать загрузку потоков в реальном времени через Kafka, где этот продукт будет заниматься сбором данных с потоков в JSON и далее параллельно загружать их в Flex зону хранилища Vertica. Все это позволит легко создавать загрузки потоковых данных без привлечения дорогостоящего ПО или ресурсоёмкой разработки собственных джобов на ETL.
Так же добавлена поддержка загрузки файлов с Apache HDFS в формате Avro. Это достаточно популярный формат хранения данных на HDFS и его поддержки раньше действительно очень не хватало.
Ну и работа Vertica с Hadoop стала настолько постоянным явлением у клиентов, что теперь нет необходимости устанавливать отдельно пакет работы с Hadoop в Vertica, он сразу в нее включен. Не забудьте только перед установкой новой версии удалить старый пакет интеграции с Hadoop!
Добавлены драйвера для Python
Теперь у Python для работы с Vertica есть собственные нативные полнофункциональные драйвера, официально поддерживаемые HP Vertica. Ранее разработчикам на Питоне приходилось довольствоваться ODBC драйверами, что создавало неудобства и дополнительные трудности. Теперь они смогут легко и просто работать с Vertica.
Улучшена функциональность драйверов JDBC
Добавлена возможность в рамках одной сессии одновременного выполнения множества запросов (Multiple Active Result Sets). Это позволяет сессии, для построения сложного аналитического запроса с разными секциями, одновременно запустить нужные запросы, которые по мере выполнения будут возвращать свои данные. Те данные, которые еще сессия не забрала с сервера, будут кэшироваться на его стороне.
Так же добавлена функциональность расчета хэш значения полей, аналогичного вызову функции Hash в Vertica. Это позволяет еще до загрузки записей в таблицу хранилища данных, рассчитать, на какие ноды они будут размещены по заданному ключу сегментации.
Расширено управление процессом восстановления нод кластера
Добавлена функциональность, которая позволяет установить приоритет recovery таблиц для восстанавливаемых нод. Это полезно, если требуется самостоятельно сбалансировать восстановление кластера, определив, какие таблицы будут восстановлены в числе первых, а какие лучше восстанавливать последними.
Добавлена новая функциональность механизма резервного копирования
- Можно проводить резервное копирование на локальные хосты нод;
- Можно восстановить из полной или объектной резервной копии выборочно схему или таблицу;
- С помощью функции COPY_PARTITIONS_TO_TABLE можно организовать шаринг хранения данных между несколькими таблицами с одинаковой структурой. После выполнения копирования данных партиций из таблицы в таблицу, они будут физически ссылаться на одни и те же ROS контейнеры скопированных партиций. При изменениях в этих партициях таблиц, у каждой далее появится своя версия изменений. Это дает возможность делать снапшоты партиций таблиц в другие таблицы для их использования, с гарантией, что исходные данные оригинальной таблицы останутся целыми, с высокой скоростью, без затрат на хранение скопированных данных на дисках.
- При объектном восстановлении можно указать поведение при существовании восстанавливаемого объекта. Vertica может его создать, если его еще нет в базе данных, не восстанавливать, если он есть, пересоздать из резервной копии или же создать рядом с существующим новый объект с префиксом в имени таблицы наименования резервной копии и ее даты.
Улучшена работа оптимизатора
При соединениях таблиц методом HASH JOIN, процесс обработки соединения мог занимать достаточно много времени, если обе соединяемых таблицы имели большое количество записей. Фактически приходилось на таблицу внешнего соединения строить хэш таблицу значений и далее сканируя таблицу внутреннего соединения, искать хэш в созданной хэш таблице. Теперь в новой версии сканирование в хэш таблице сделано параллельным, что должно в разы улучшить скорость соединения таблиц таким методом.
Для планов запросов реализована возможность с помощью хинтов в запросе создавать сценарии планов запросов: указывать явный порядок соединения таблиц, алгоритмы их соединения и сегментации, перечислять проекции, которые можно или нельзя использовать при выполнении запроса. Это позволяет более гибко добиваться от оптимизатора построения эффективных планов запросов. А чтобы BI системы могли воспользоваться такой оптимизацией при выполнении типовых запросов без требования вносить описания хинтов, в Vertica добавлена возможность сохранения сценария таких запросов. Любая сессия, выполняющая запрос, подходящий по шаблону к сохраненному по сценарию, будет получать уже описанный оптимальный план запроса и работать по нему.
Для оптимизации выполнения запросов с множеством вычислений в вычисляемых полях или условиях, включая like, в Vertica добавлена JIT компиляция выражений запроса. Ранее использовалась интерпретация выражений и это сильно деградировало скорость выполнения запросов, в которых, например, встречались десятки like выражений.
Расширена функциональность проверки целостности данных
Ранее Vertica при описании ограничений на таблицы проверяла только NOT NULL условие при загрузке и изменении данных. Полностью все ограничения PK, FK и UK проверялись только при одиночных DML операторах INSERT и UPDATE, а также для оператора MERGE, алгоритм работы которого напрямую зависит от соблюдения целостности PK и FK ограничений. Проверить же на нарушение целостности значений всех ограничений можно было с помощью специальной функции, которая выдавала список нарушающих ограничения записей.
Теперь в новой версии можно включить проверку всех ограничений для групповых DML операторов и COPY на все или только нужные таблицы. Это позволяет более гибко реализовывать проверки чистоты загружаемых данных и выбирать между скоростью загрузки данных и простотой проверки их целостности. Если данные в хранилище поступают из надежных источников и в больших объемах, разумно не включать проверку ограничений на такие таблицы. Если же объем поступающих данных не критичен, а вот их чистота под вопросом, проще включить проверки, чем реализовывать самостоятельно механизм их проверок на ETL.
Объявление Deprecated
Увы, любое развитие продукта всегда не только добавляет функциональность, но и избавляется от устаревшей. В данной версии Vertica объявлено устаревшим не так много, но есть пару значимых объявлений, о которых стоит задуматься:
- Поддержка файловой системы ext3
- Поддержка pre-join проекций
Оба пункта достаточно критичны для клиентов Vertica. Те, кто давно уже работает с этим сервером, могут запросто иметь кластера еще на старой фс ext3. И так же я знаю, многие, для оптимизации запросов к созвездиям используют pre-join проекции. В любом случае, явной версии удаления поддержки этих функций не указано и время к этому подготовиться у клиентов Vertica есть думаю, как минимум еще пару лет.
Резюмируя впечатления о новой версии
В этой статье перечислена только половина того, что добавилось в Vertica. Объем расширения функционала впечатляет, однако я перечислил только то, что актуально для всех проектов построения хранилищ данных. Если вы используете полнотекстовый поиск, геолокацию, расширенный security и прочие крутые фишки, реализованные в Vertica, то все изменения по ним вы можете прочитать по ссылке, что я дал в начале статьи или документации по новой версии Vertica:
https://my.vertica.com/docs/7.2.x/HTML/index.htm
От себя же скажу: работая с хранилищами данных большого объема на HP Vertica в десятки терабайт в разных проектах, я оцениваю изменения новой версии очень положительно. В ней действительно реализовано многое то, что хотелось бы получить и облегчить разработку и сопровождение хранилищ данных.
Комментарии (15)
elmar
12.11.2015 22:07Экскаватор — название версии СУБД Vertica, аналитической платформы больших данных. Дальше — my.vertica.com
SOLON7
12.11.2015 22:11Это СУБД для Хранилища данных. Главное ее достоинство это цена, первый терабайт по идее бесплатно.
Следующий терабайт 120 000 $, не понравилась ценовая политика, С такими ценами Только Ну очень Большие компании могут себе позволить СИЕ ЧУДО. Хоть оно и шустрое!!! Вертика отличается тем что там не Реалиционная архитектура, а колоночные индексы, потому и шустрая.ascrus
13.11.2015 00:06Ну логически там полная реляционная модель с таблицами, PK/FK/UK, все как полагается. А вот на уровне физического хранения да, там поколоночное хранение со своими интересными идеями. Все это достаточно подробно в статьях на Хабре других описано, том числе моих :)
ascrus
13.11.2015 00:14По GPL 1 тб у Вертики стоит 30 тыс. Плюс 6 тыс за поддержку. Откуда 120 тыс? :) Ну и скидки никто не отменял.
Ну а так цена на хранилище в 50-100 тб выходит где то на порядок ниже, чем у аппаратно ориентированных хранилищ данных. Понятное дело, для маленьких объемов, платить за 10 тб может показаться жирным, проще взять классический OLTP, но есть нюанс — Вертика не ограничивает количество серверов и их мощности в кластере. Иногда требуется на 10 тб построить высоконагруженное в реалтайм хранилище данных с моментальным откликом на ad-hoc запросы и горизонтальным масштабированием без остановки хранилища. Вот тогда может запросто оказаться, что цена Вертики за 10 тб окажется разумнее, чем затраты на реализацию и сопровождение этих требований.
P.S. Слышал, что у Вертики готовят решения для SMB, с другой ценовой политикой, но пока на нашем континенте таких редакций пока не видел.
voidnugget
13.11.2015 09:56Берём scylladb, допиливаем по потребностям, показываем HP (и не только) средний палец.
ascrus
13.11.2015 11:10Vertica ANSI SQL совместимый сервер. ScyllaDB не может быть ему конкурентом, он с другой оперы и конкурент Cassanda насколько я понимаю :) У Vertica конкуренты немного другие — Teradata, Exadata, Nettiza, GreenPlum…
voidnugget
13.11.2015 12:20CQL/SQL — те же яйца только в профиль, сам по себе ANSI SQL прям такой уж киллер-фичей не является.
Тут смысл в производительности, быстрее просто вряд ли получится сделать — scylladb очень хорошо вертикально масштабируется.
Я бы сказал что даже не представляю как это делать более эффективно, точнее представляю, но подобные вещи пока лабораторий не покидали, разве что на выставках показывались.
По поводу конкуренции — для колоночных БД нужно использовать специфические, для каждой конкретной задачи, методы индексации, по этому сравнивать их между собой не совсем корректно. Вот эффективность реализаций каких-то MVP-tree / X-tree / Fusion-tree cache oblivious структур — вполне даже.ascrus
13.11.2015 13:07>>>сам по себе ANSI SQL прям такой уж киллер-фичей не является
Я с Вами категорически не соглашусь. ANSI SQL это залог того, что все BI системы будут работать с этим СУБД. В Vertica за вычетом рекурсивных запросов полная совместимость с ANSI SQL, вплоть до аналитических оконных функций. Кому нужно аналитическое хранилище данных, если в нем ничего нельзя анализировать просто и быстро? Аналитикам проще взять Tableau, чем писать код к штуке, которая не поддерживает все накопленное богатство SQL.
Поэтому я и говорю, это из разных пьес, ScyllaDB сами же себя конкурентом Кассандре заявляют, а Кассандра другие задачи имеет и решает, там никто групповые запросы с сотнями миллионами и даже миллиардами записей в группировках и подзапросами делать не будет :)
ivanko
13.11.2015 09:17Драйвера питона есть только для linux x64 и несовместимы с другими OS (пока).
Хадуп встроен в Vertica, только лицензия теперь на него отдельная — по числу нод.
Multiple Active ResultSets — это прекрасно, но в целом такая функциональность есть у конкурентов.
Но этот релиз конечно крутой — исправили кучу того, что мешало жить раньше.
Во-первых, добавился LdapLink — теперь не только пользователи, но и роли могут быть унесены в Ldap (это я еще не тестировал, но руки чешутся еще с версии 6.1).
Во-вторых, добавили inherited privileges — теперь если создается новая таблица, то люди, у которых выдан грант select on all tables, ее все-таки видят, а не ждут повторного выполнения grant.
В-третьих, теперь не надо извращаться с предоставлением доступа к таблице sessions. Спец. роль SYSMONITOR дает доступ к таблицам 8)
В-четвертых, дали возможность уносить тяжелые запросы в другие пулы посередине исполнения (читай, понижать приоритет и уменьшать ресурсы).ascrus
13.11.2015 13:25>>>Хадуп встроен в Vertica
Немного не точно сказали. Коннекторы (дрова) Вертики для Хадупа раньше отдельным пакетом ставились, а теперь при инсталяции сервера автоматически ставятся. Самого Хадупа Вертике нет, как и раньше Хадуп нужно ставить отдельным инстансом, хотя конечно никто не запрещает его поставить на те же ноды, что и Вертика, но я в этом большого смысла не вижу — им придется разделять ресурсы на нодах, когда Вертика выполняет какие то массивные запросы, то Хадупу придется тяжеловато по памяти, дискам и сетевой активности, Вертика у него все может отобрать ;)
Насчет лицензий честно говоря не понял — коннекторы к Хадупу у Вертики входят в штатную комплектацию, лицензировать их не нужно вроде.ivanko
17.11.2015 06:36Про хадуп очевидно, что он не встроен. Дрова, конечно же. Такая же история была со spread. На 6.1 он чуть ли не отдельно ставился, а сейчас даже как пакет не виден.
С лицензиями сужу только по описанию — сами мы хадуп еще не подняли к вертике
Видимо, речь про HP Vertica SQL for Hadoop.
alexzaitsev
17.11.2015 11:25Хотя Release Notes прочитаны сразу после выхода, я ждал этой статьи :) Как всегда, по полочкам.
Для нас самое интересное оказалось в мелочах, которые «болели» давно:
— Наконец-то констрейнты стали настоящими — я даже не поверил, когда это прочитал в Release Notes
— Наконец-то гранты можно раздавать на схему целиком, а не на каждую таблицу
— Наконец-то задокументированы хинты для управления планом запроса
Это те мелочи, которых очень не хватало в сравнении с другими RDBMS. То ли услышали клиентские стоны, то ли время пришло.
Ну и восстановление по таблицам тоже не лишнее.
Насколько улучшилась производительность пока не понятно, обновиться просто не получилось, сначала приходится поднимать версию Debian.
ascrus
18.11.2015 02:18Привет, полностью согласен :) Очень приятно видеть развитие софта в том, что нужно конкретно ИТ, а не маркетинговые шашечки. Еще бы вот в новой версии индусов в саппорте проапгрейтили на русских и была бы вообще красота. Жалко это не в силах команды разработчиков Вертики.
prabhu
Кратко можете изложить что это такое и с чем его есть?