Оглядываясь на эволюцию StarRocks, каждое крупное обновление неизменно отвечало ключевым запросам эпохи к аналитике данных.
StarRocks 1.x — ультрабыстрые запросы, решение проблем медленных BI‑отчётов и исследовательской аналитики.
StarRocks 2.x — «реальное время» в аналитике, чтобы быстрее получать бизнес‑инсайты.
StarRocks 3.x — архитектура разделения хранения и вычислений, единая и сверхбыстрая Lakehouse‑аналитика, упрощающая и ускоряющая работу с данными.
В новую эру ИИ обучение/инференс моделей и построение AI‑агентов предъявляют новые требования к платформам данных: свежесть данных ближе к real‑time, ниже задержка и выше конкуренция запросов, выше эффективность обработки и выгоднее стоимость. В версии 4.x StarRocks делает фокус на Real-Time Intelligence on Lakehouse и формирует Agent‑ready движок аналитики данных.
Реальное время: ещё эффективнее
В StarRocks 3.x, в архитектуре разделения хранения и вычислений, real‑time‑аналитика строилась поверх недорогих объектных хранилищ, что давало порядковое снижение затрат на хранение по сравнению с монолитными решениями. Однако объектные хранилища несут издержки на API‑вызовы, особенно в сценариях с высокой конкуренцией мелких записей.
Чтобы ещё сильнее повысить эффективность и снизить стоимость real‑time‑аналитики, StarRocks 4.0 провёл сквозную оптимизацию конвейера обработки в реальном времени:
File Bundling: объединение множества мелких файлов в крупные, снижение коэффициента write amplification и резкое сокращение числа API‑вызовов.
Кэш метаданных: метаданные в первую очередь читаются из BE‑кэша, что позволяет избегать частых обращений к S3.
Оптимизация Compaction‑стратегии: поддержание «чистоты» данных без перерасхода ресурсов.
Итог: в сценариях загрузки и запросов в реальном времени число API‑вызовов уменьшено на 70–90% по сравнению с 3.3, при этом задержки загрузки и запросов практически не меняются, а местами — даже снижаются.


Сверхбыстрая аналитика: следующий этап
StarRocks известен выдающейся производительностью. В версии 4.0 преимущество расширено и охватывает ещё больше сценариев.
1) Непрерывная оптимизация операторов
Глубоко оптимизированы ключевые операторы — JOIN, агрегирование, дедупликация и обработка spill на диск. Совокупный прирост производительности — около 60%. Оптимизации работают и для внутренних, и для внешних таблиц — ускорение независимо от места хранения данных.

2) Полуструктурированные данные: рывок JSON
JSON становится первоклассным типом данных. На уровне выполнения добавлены:
индексы и глобальный словарь,
отложенная материализация (late materialization),
проталкивание предикатов (predicate pushdown).

Результат: ускорение JSON‑запросов в 3–15 раз по сравнению с 3.5. При этом не требуется менять существующий конвейер: достаточно загружать JSON в StarRocks и использовать нативный SQL и JSON‑функции. Оптимизации хранения и выполнения применяются автоматически, обеспечивая производительность, сопоставимую с колонночным хранением. Реальная time‑аналитика по JSON — от логов и кликстрима до поведенческой и операционной аналитики — без «узких мест».
3) Предсказуемая производительность запросов
Из‑за изменения распределения данных, масштабирования кластера или перезапуска узлов оптимизатор может строить разные планы, что ведёт к колебаниям производительности. StarRocks 4.0 вводит SQL Plan Manager: он привязывает запрос к плану и сохраняет неизменный путь выполнения для одного и того же SQL даже при обновлении данных или колебаниях кластера. В сценариях с жёсткими SLA (отчёты, профили пользователей, финконтур) это существенно снижает вариативность.
4) Для более строгих сценариев
Decimal256 — высокоточная арифметика с расширенным диапазоном и точностью для денежных расчётов, сверки транзакций и риск‑аналитики.
Multi‑Statement Transactions — явное управление транзакциями BEGIN / COMMIT / ROLLBACK и поддержка кросс‑табличных INSERT/DELETE/UPDATE с сохранением атомарности и согласованности, что уменьшает накладные расходы на координацию и ускоряет последующий анализ.
ASOF JOIN — соединение временных/интервальных данных по «ближайшей» метке времени или порядковому номеру. Эффективно как в выравнивании котировок и объёмов, так и при согласовании многосенсорных данных в IoT.
Нативная аналитика Lakehouse
С версии 2.0 StarRocks поддерживает запросы к внешним таблицам и постоянно оптимизирует движок. Но «озёра» часто «грязные»: файлы не организованы под запросы, и даже мощный движок ограничен. Релиз 4.0 переносит зрелые оптимизации «складских» сценариев на открытые форматы — чтобы строить Lakehouse на Iceberg было так же просто и эффективно, как работать с внутренними таблицами StarRocks. Прежний опыт «записал — сразу запросил» теперь работает и для Iceberg.
1) Уровень файлов: записал — сразу запросил
StarRocks 4.0 усиливает запись и управление файлами — быстрее записывает и изначально формирует данные, удобные для запросов.
-
Доведение возможностей:
Полная поддержка Iceberg Hidden Partition при создании и записи.
Возможность задать ключи сортировки при создании.
-
Ускорение записи:
Global Shuffle уменьшает число мелких файлов.
Spill‑запись повышает эффективность памяти при крупной загрузке.
Local Sort формирует более «запросо‑дружелюбные» файлы.
-
Активное управление:
Compaction API для объединения файлов по мере необходимости бизнеса.
2) Уровень запросов: стабильность и ускорение
Для больших «разреженных» табличных структур в озёрах статистику трудно собрать и легко «просрочить». В 4.0 улучшены:
оптимизатор — строит экономичные планы даже при дефиците статистики,
сбор статистики — быстрее и легче,
стратегия обновления метаданных — метаданные «свежее».
Формируется многоуровневая система ускорения Lakehouse‑запросов:
на уровне файлов — «одна запись — сразу запрос»;
на уровне выполнения — свежая статистика, «умные» операторы и кэширование;
для субсекундных задержек и высокой конкуренции — материализованные представления обеспечивают дополнительное ускорение при едином источнике данных и без новых конвейеров.
3) Корпоративная безопасность
В Iceberg REST Catalog добавлен JWT Session Catalog и полностью поддержаны механизмы temporary credentials от AWS, GCP и Azure. Идентичность пользователя передаётся на сторону Catalog для централизованной авторизации, а учётные данные к хранилищу не требуется многократно конфигурировать. Пользователь получает и максимальную скорость доступа, и защиту уровня предприятия.

Взгляд в будущее
StarRocks 4.0 — новая отправная точка для Real‑Time Intelligence on Lakehouse. Линейка 4.x продолжит углублять ключевые возможности, формируя Agent‑ready аналитический движок.
Фокусы сообщества StarRocks:
Fast Query — стабильная и предсказуемая сверхбыстрая производительность для разнообразных сценариев.
Fast Delivery — оптимизация построения, управления и аналитики Lakehouse, чтобы путь от данных к бизнес‑ценности был быстрее.
AI Assistant — интеграция AI‑инструментов в экосистему БД: более умные рекомендации по моделированию (схемы, партиционирование, оптимизация запросов) и интерфейс на естественном языке для упрощения аналитики.
Agent Ready — для приложений на больших моделях и интеллектуальных агентах: дальнейшая оптимизация real‑time‑аналитики, эффективности обработки и многомерного поиска (векторный/текстовый), чтобы удовлетворить требования по реальности, масштабируемости и семантическому поиску.
Узнать больше
Release Notes: https://docs.starrocks.io/zh/releasenotes/release-4.0/