StarRocks 4.0: Real-Time Intelligence on Lakehouse / forpes.ru

Главная
StarRocks 4.0: Real-Time Intelligence on Lakehouse

StarRocks 4.0: Real-Time Intelligence on Lakehouse +1

04.12.2025 06:49

PhoenixLi 0 4300 Источник

Оглядываясь на эволюцию StarRocks, каждое крупное обновление неизменно отвечало ключевым запросам эпохи к аналитике данных.

StarRocks 1.x — ультрабыстрые запросы, решение проблем медленных BI‑отчётов и исследовательской аналитики.
StarRocks 2.x — «реальное время» в аналитике, чтобы быстрее получать бизнес‑инсайты.
StarRocks 3.x — архитектура разделения хранения и вычислений, единая и сверхбыстрая Lakehouse‑аналитика, упрощающая и ускоряющая работу с данными.

В новую эру ИИ обучение/инференс моделей и построение AI‑агентов предъявляют новые требования к платформам данных: свежесть данных ближе к real‑time, ниже задержка и выше конкуренция запросов, выше эффективность обработки и выгоднее стоимость. В версии 4.x StarRocks делает фокус на Real-Time Intelligence on Lakehouse и формирует Agent‑ready движок аналитики данных.

Реальное время: ещё эффективнее

В StarRocks 3.x, в архитектуре разделения хранения и вычислений, real‑time‑аналитика строилась поверх недорогих объектных хранилищ, что давало порядковое снижение затрат на хранение по сравнению с монолитными решениями. Однако объектные хранилища несут издержки на API‑вызовы, особенно в сценариях с высокой конкуренцией мелких записей.

Чтобы ещё сильнее повысить эффективность и снизить стоимость real‑time‑аналитики, StarRocks 4.0 провёл сквозную оптимизацию конвейера обработки в реальном времени:

File Bundling: объединение множества мелких файлов в крупные, снижение коэффициента write amplification и резкое сокращение числа API‑вызовов.
Кэш метаданных: метаданные в первую очередь читаются из BE‑кэша, что позволяет избегать частых обращений к S3.
Оптимизация Compaction‑стратегии: поддержание «чистоты» данных без перерасхода ресурсов.

Итог: в сценариях загрузки и запросов в реальном времени число API‑вызовов уменьшено на 70–90% по сравнению с 3.3, при этом задержки загрузки и запросов практически не меняются, а местами — даже снижаются.

Сверхбыстрая аналитика: следующий этап

StarRocks известен выдающейся производительностью. В версии 4.0 преимущество расширено и охватывает ещё больше сценариев.

1) Непрерывная оптимизация операторов

Глубоко оптимизированы ключевые операторы — JOIN, агрегирование, дедупликация и обработка spill на диск. Совокупный прирост производительности — около 60%. Оптимизации работают и для внутренних, и для внешних таблиц — ускорение независимо от места хранения данных.

2) Полуструктурированные данные: рывок JSON

JSON становится первоклассным типом данных. На уровне выполнения добавлены:

индексы и глобальный словарь,
отложенная материализация (late materialization),
проталкивание предикатов (predicate pushdown).

Результат: ускорение JSON‑запросов в 3–15 раз по сравнению с 3.5. При этом не требуется менять существующий конвейер: достаточно загружать JSON в StarRocks и использовать нативный SQL и JSON‑функции. Оптимизации хранения и выполнения применяются автоматически, обеспечивая производительность, сопоставимую с колонночным хранением. Реальная time‑аналитика по JSON — от логов и кликстрима до поведенческой и операционной аналитики — без «узких мест».

3) Предсказуемая производительность запросов

Из‑за изменения распределения данных, масштабирования кластера или перезапуска узлов оптимизатор может строить разные планы, что ведёт к колебаниям производительности. StarRocks 4.0 вводит SQL Plan Manager: он привязывает запрос к плану и сохраняет неизменный путь выполнения для одного и того же SQL даже при обновлении данных или колебаниях кластера. В сценариях с жёсткими SLA (отчёты, профили пользователей, финконтур) это существенно снижает вариативность.

4) Для более строгих сценариев

Decimal256 — высокоточная арифметика с расширенным диапазоном и точностью для денежных расчётов, сверки транзакций и риск‑аналитики.
Multi‑Statement Transactions — явное управление транзакциями BEGIN / COMMIT / ROLLBACK и поддержка кросс‑табличных INSERT/DELETE/UPDATE с сохранением атомарности и согласованности, что уменьшает накладные расходы на координацию и ускоряет последующий анализ.
ASOF JOIN — соединение временных/интервальных данных по «ближайшей» метке времени или порядковому номеру. Эффективно как в выравнивании котировок и объёмов, так и при согласовании многосенсорных данных в IoT.

Нативная аналитика Lakehouse

С версии 2.0 StarRocks поддерживает запросы к внешним таблицам и постоянно оптимизирует движок. Но «озёра» часто «грязные»: файлы не организованы под запросы, и даже мощный движок ограничен. Релиз 4.0 переносит зрелые оптимизации «складских» сценариев на открытые форматы — чтобы строить Lakehouse на Iceberg было так же просто и эффективно, как работать с внутренними таблицами StarRocks. Прежний опыт «записал — сразу запросил» теперь работает и для Iceberg.

1) Уровень файлов: записал — сразу запросил

StarRocks 4.0 усиливает запись и управление файлами — быстрее записывает и изначально формирует данные, удобные для запросов.

Доведение возможностей:
- Полная поддержка Iceberg Hidden Partition при создании и записи.
- Возможность задать ключи сортировки при создании.
Ускорение записи:
- Global Shuffle уменьшает число мелких файлов.
- Spill‑запись повышает эффективность памяти при крупной загрузке.
- Local Sort формирует более «запросо‑дружелюбные» файлы.
Активное управление:
- Compaction API для объединения файлов по мере необходимости бизнеса.

2) Уровень запросов: стабильность и ускорение

Для больших «разреженных» табличных структур в озёрах статистику трудно собрать и легко «просрочить». В 4.0 улучшены:

оптимизатор — строит экономичные планы даже при дефиците статистики,
сбор статистики — быстрее и легче,
стратегия обновления метаданных — метаданные «свежее».

Формируется многоуровневая система ускорения Lakehouse‑запросов:

на уровне файлов — «одна запись — сразу запрос»;
на уровне выполнения — свежая статистика, «умные» операторы и кэширование;
для субсекундных задержек и высокой конкуренции — материализованные представления обеспечивают дополнительное ускорение при едином источнике данных и без новых конвейеров.

3) Корпоративная безопасность

В Iceberg REST Catalog добавлен JWT Session Catalog и полностью поддержаны механизмы temporary credentials от AWS, GCP и Azure. Идентичность пользователя передаётся на сторону Catalog для централизованной авторизации, а учётные данные к хранилищу не требуется многократно конфигурировать. Пользователь получает и максимальную скорость доступа, и защиту уровня предприятия.

Взгляд в будущее

StarRocks 4.0 — новая отправная точка для Real‑Time Intelligence on Lakehouse. Линейка 4.x продолжит углублять ключевые возможности, формируя Agent‑ready аналитический движок.

Фокусы сообщества StarRocks:

Fast Query — стабильная и предсказуемая сверхбыстрая производительность для разнообразных сценариев.
Fast Delivery — оптимизация построения, управления и аналитики Lakehouse, чтобы путь от данных к бизнес‑ценности был быстрее.
AI Assistant — интеграция AI‑инструментов в экосистему БД: более умные рекомендации по моделированию (схемы, партиционирование, оптимизация запросов) и интерфейс на естественном языке для упрощения аналитики.
Agent Ready — для приложений на больших моделях и интеллектуальных агентах: дальнейшая оптимизация real‑time‑аналитики, эффективности обработки и многомерного поиска (векторный/текстовый), чтобы удовлетворить требования по реальности, масштабируемости и семантическому поиску.

Узнать больше

Release Notes: https://docs.starrocks.io/zh/releasenotes/release-4.0/