Оглядываясь на эволюцию StarRocks, каждое крупное обновление неизменно отвечало ключевым запросам эпохи к аналитике данных.

  • StarRocks 1.x — ультрабыстрые запросы, решение проблем медленных BI‑отчётов и исследовательской аналитики.

  • StarRocks 2.x — «реальное время» в аналитике, чтобы быстрее получать бизнес‑инсайты.

  • StarRocks 3.x — архитектура разделения хранения и вычислений, единая и сверхбыстрая Lakehouse‑аналитика, упрощающая и ускоряющая работу с данными.

В новую эру ИИ обучение/инференс моделей и построение AI‑агентов предъявляют новые требования к платформам данных: свежесть данных ближе к real‑time, ниже задержка и выше конкуренция запросов, выше эффективность обработки и выгоднее стоимость. В версии 4.x StarRocks делает фокус на Real-Time Intelligence on Lakehouse и формирует Agent‑ready движок аналитики данных.

Реальное время: ещё эффективнее

В StarRocks 3.x, в архитектуре разделения хранения и вычислений, real‑time‑аналитика строилась поверх недорогих объектных хранилищ, что давало порядковое снижение затрат на хранение по сравнению с монолитными решениями. Однако объектные хранилища несут издержки на API‑вызовы, особенно в сценариях с высокой конкуренцией мелких записей.

Чтобы ещё сильнее повысить эффективность и снизить стоимость real‑time‑аналитики, StarRocks 4.0 провёл сквозную оптимизацию конвейера обработки в реальном времени:

  • File Bundling: объединение множества мелких файлов в крупные, снижение коэффициента write amplification и резкое сокращение числа API‑вызовов.

  • Кэш метаданных: метаданные в первую очередь читаются из BE‑кэша, что позволяет избегать частых обращений к S3.

  • Оптимизация Compaction‑стратегии: поддержание «чистоты» данных без перерасхода ресурсов.

Итог: в сценариях загрузки и запросов в реальном времени число API‑вызовов уменьшено на 70–90% по сравнению с 3.3, при этом задержки загрузки и запросов практически не меняются, а местами — даже снижаются.

Сверхбыстрая аналитика: следующий этап

StarRocks известен выдающейся производительностью. В версии 4.0 преимущество расширено и охватывает ещё больше сценариев.

1) Непрерывная оптимизация операторов

Глубоко оптимизированы ключевые операторы — JOIN, агрегирование, дедупликация и обработка spill на диск. Совокупный прирост производительности — около 60%. Оптимизации работают и для внутренних, и для внешних таблиц — ускорение независимо от места хранения данных.

2) Полуструктурированные данные: рывок JSON

JSON становится первоклассным типом данных. На уровне выполнения добавлены:

  • индексы и глобальный словарь,

  • отложенная материализация (late materialization),

  • проталкивание предикатов (predicate pushdown).

Результат: ускорение JSON‑запросов в 3–15 раз по сравнению с 3.5. При этом не требуется менять существующий конвейер: достаточно загружать JSON в StarRocks и использовать нативный SQL и JSON‑функции. Оптимизации хранения и выполнения применяются автоматически, обеспечивая производительность, сопоставимую с колонночным хранением. Реальная time‑аналитика по JSON — от логов и кликстрима до поведенческой и операционной аналитики — без «узких мест».

3) Предсказуемая производительность запросов

Из‑за изменения распределения данных, масштабирования кластера или перезапуска узлов оптимизатор может строить разные планы, что ведёт к колебаниям производительности. StarRocks 4.0 вводит SQL Plan Manager: он привязывает запрос к плану и сохраняет неизменный путь выполнения для одного и того же SQL даже при обновлении данных или колебаниях кластера. В сценариях с жёсткими SLA (отчёты, профили пользователей, финконтур) это существенно снижает вариативность.

4) Для более строгих сценариев

  • Decimal256 — высокоточная арифметика с расширенным диапазоном и точностью для денежных расчётов, сверки транзакций и риск‑аналитики.

  • Multi‑Statement Transactions — явное управление транзакциями BEGIN / COMMIT / ROLLBACK и поддержка кросс‑табличных INSERT/DELETE/UPDATE с сохранением атомарности и согласованности, что уменьшает накладные расходы на координацию и ускоряет последующий анализ.

  • ASOF JOIN — соединение временных/интервальных данных по «ближайшей» метке времени или порядковому номеру. Эффективно как в выравнивании котировок и объёмов, так и при согласовании многосенсорных данных в IoT.

Нативная аналитика Lakehouse

С версии 2.0 StarRocks поддерживает запросы к внешним таблицам и постоянно оптимизирует движок. Но «озёра» часто «грязные»: файлы не организованы под запросы, и даже мощный движок ограничен. Релиз 4.0 переносит зрелые оптимизации «складских» сценариев на открытые форматы — чтобы строить Lakehouse на Iceberg было так же просто и эффективно, как работать с внутренними таблицами StarRocks. Прежний опыт «записал — сразу запросил» теперь работает и для Iceberg.

1) Уровень файлов: записал — сразу запросил

StarRocks 4.0 усиливает запись и управление файлами — быстрее записывает и изначально формирует данные, удобные для запросов.

  • Доведение возможностей:

    • Полная поддержка Iceberg Hidden Partition при создании и записи.

    • Возможность задать ключи сортировки при создании.

  • Ускорение записи:

    • Global Shuffle уменьшает число мелких файлов.

    • Spill‑запись повышает эффективность памяти при крупной загрузке.

    • Local Sort формирует более «запросо‑дружелюбные» файлы.

  • Активное управление:

    • Compaction API для объединения файлов по мере необходимости бизнеса.

2) Уровень запросов: стабильность и ускорение

Для больших «разреженных» табличных структур в озёрах статистику трудно собрать и легко «просрочить». В 4.0 улучшены:

  • оптимизатор — строит экономичные планы даже при дефиците статистики,

  • сбор статистики — быстрее и легче,

  • стратегия обновления метаданных — метаданные «свежее».

Формируется многоуровневая система ускорения Lakehouse‑запросов:

  • на уровне файлов — «одна запись — сразу запрос»;

  • на уровне выполнения — свежая статистика, «умные» операторы и кэширование;

  • для субсекундных задержек и высокой конкуренции — материализованные представления обеспечивают дополнительное ускорение при едином источнике данных и без новых конвейеров.

3) Корпоративная безопасность

В Iceberg REST Catalog добавлен JWT Session Catalog и полностью поддержаны механизмы temporary credentials от AWS, GCP и Azure. Идентичность пользователя передаётся на сторону Catalog для централизованной авторизации, а учётные данные к хранилищу не требуется многократно конфигурировать. Пользователь получает и максимальную скорость доступа, и защиту уровня предприятия.

Взгляд в будущее

StarRocks 4.0 — новая отправная точка для Real‑Time Intelligence on Lakehouse. Линейка 4.x продолжит углублять ключевые возможности, формируя Agent‑ready аналитический движок.

Фокусы сообщества StarRocks:

  • Fast Query — стабильная и предсказуемая сверхбыстрая производительность для разнообразных сценариев.

  • Fast Delivery — оптимизация построения, управления и аналитики Lakehouse, чтобы путь от данных к бизнес‑ценности был быстрее.

  • AI Assistant — интеграция AI‑инструментов в экосистему БД: более умные рекомендации по моделированию (схемы, партиционирование, оптимизация запросов) и интерфейс на естественном языке для упрощения аналитики.

  • Agent Ready — для приложений на больших моделях и интеллектуальных агентах: дальнейшая оптимизация real‑time‑аналитики, эффективности обработки и многомерного поиска (векторный/текстовый), чтобы удовлетворить требования по реальности, масштабируемости и семантическому поиску.

Узнать больше

Комментарии (0)