Данные на льду: как Apache Iceberg перевернул мир аналитических систем / forpes.ru

Главная
Данные на льду: как Apache Iceberg перевернул мир аналитических систем

Данные на льду: как Apache Iceberg перевернул мир аналитических систем +34

15.02.2025 12:11

techno_mot 31 10000 Источник

Вы когда-нибудь ловили себя на мысли, что ваш Data Lake больше похож на черный ящик, чем на систему хранения? Дубли, потерянные версии, медленные запросы — вместо четкой структуры хаос, который только растет. Добро пожаловать в реальность работы с Parquet, ORC и классическими подходами к хранению данных. Они неплохи, но не умеют версионировать, оптимизировать и управлять транзакциями так, как это действительно нужно.

И вот появляется Apache Iceberg — файловый формат, который уже используют в Netflix, Apple, LinkedIn и Stripe для хранения петабайтов данных с минимальными издержками на поддержку. Но что делает его таким особенным? Почему его называют «Data Lake без боли»? И самое главное — как заставить Apache Iceberg работать на вас? Давайте разбираться.

Как устаревший Data Lake превратился в болото данных

Вспомните времена, когда построение отчета занимало полдня, а данные опаздывали на пару суток. Тогда это казалось нормальным, но сегодня, когда решения принимаются за секунды, такие задержки становятся недопустимыми. Компании теряют миллионы из-за устаревшей аналитики, а Data Lake, которые должны были стать решением, все чаще превращаются в цифровые болота. Казалось бы, Parquet, ORC и Hive обеспечивают удобное хранение и быстрый доступ к данным, но на практике они создают новые проблемы: дублирование файлов, перегрузку хранилищ, фрагментацию данных и медленные запросы.

В эпоху больших данных Data Lake обещали стать универсальным решением для хранения и обработки данных любого типа и объема. Казалось бы, идея проста: сваливайте все в одно место — структурированные данные, неструктурированные файлы, потоки событий — и работайте с ними как угодно. Но реальность оказалась гораздо сложнее. Традиционные реализации на основе Hive, Parquet и ORC столкнулись с рядом проблем, которые превратили их из волшебного решения в настоящий источник головной боли для аналитиков и инженеров данных.

Рынок Data Lake оценивался в 15,2 млрд долларов США в 2023 году и по прогнозам продолжит расти. Это говорит о том, что концепция остается актуальной, но вместе с тем ситуация подчеркивает необходимость решения существующих проблем. Давайте разберемся, какие именно боли мешают эффективно использовать Data Lake и почему они возникают.

Размер рынка Data Lake в США. Источник.

Возьмем дублирование — бич всех Data Lake. Представьте: три команды загружают один и тот же датасет с метриками в S3, но разными путями. В итоге вы платите за хранение трех копий, а аналитики тратят часы, чтобы найти «ту самую» версию. Проблема в отсутствии ACID-транзакций. В Hive, чтобы изменить схему таблицы, нужно пересоздать ее целиком, а это гарантированно породит копии данных. В Apache Iceberg эта проблема решается через snapshot-изоляцию: изменения схемы атомарны, а читатели видят только целостные версии данных.

Фрагментация файлов — еще один кошмар. Когда ваш Data Lake состоит из миллионов файлов по 10 МБ, даже простой SELECT COUNT(*) превращается в многочасовой квест. Виной всему ручное управление партициями. В Hive вы должны явно указать, по каким полям партиционировать данные, и если через месяц понадобится новое измерение, например region, придется переписывать все данные. Iceberg внедряет hidden partitioning: вы указываете правила партиционирования один раз (например, days(timestamp)), а система автоматически сортирует данные при записи. Больше не нужно вручную создавать папки year=2023/month=07 — Iceberg сделает это за вас, а запросы будут читать только релевантные партиции.

Гибкость схемы — больное место Parquet и ORC. Добавить новый столбец в таблицу? Легко. Но если вы попытаетесь прочитать старые данные, где этого столбца нет, получите NullPointerException. Iceberg поддерживает schema evolution: вы можете добавлять, переименовывать или удалять столбцы, а движок автоматически адаптирует старые данные под новую схему. Например, если вы добавили поле user_rating, при чтении файлов без него Iceberg подставит NULL — никаких падений конвейеров.

Качество данных — та область, где традиционные Data Lake и напоминают Дикий Запад. Нет встроенных проверок на консистентность? Пожалуйста: два инженера одновременно пишут в одну таблицу и перезатирают данные. Iceberg вводит механизм snapshots: каждая запись создает новый снимок данных, а конфликты контролируются через оптимистичные блокировки. Если два процесса пытаются изменить одни и те же данные, один из них получит ошибку и должен будет повторить операцию. Это как Git для данных — вы всегда можете откатиться к предыдущей версии.

Но что насчет производительности? В Netflix миграция с Hive на Iceberg сократила время выполнения запросов на 70% за счет metadata pruning. Вместо того чтобы сканировать все файлы в поисках нужных партиций, Iceberg фильтрует данные на уровне метаданных.

Это приводит к значительному сокращению фактической потребности в обработке при одновременном уменьшении количества файлов на 80%. Источник.

Например, запрос WHERE user_id > 1000 сначала проверяет минимальные и максимальные значения user_id в каждом файле, а потом читает только подходящие. Для аналитика это выглядит как магия, но под капотом — хитрые статистики и битовые маски.

Код? Пожалуйста. Вот как выглядит типичный MERGE в Iceberg, который устраняет дубликаты:

MERGE INTO transactions  
USING (  
  SELECT user_id, MAX(event_time) as last_event  
  FROM staging_transactions  
  GROUP BY user_id  
) staged  
ON transactions.user_id = staged.user_id  
WHEN MATCHED THEN  
  UPDATE SET transactions.event_time = staged.last_event  
WHEN NOT MATCHED THEN  
  INSERT (user_id, event_time) VALUES (staged.user_id, staged.last_event);

Это не просто «обнови или вставь»: Iceberg гарантирует, что операция будет атомарной, даже если под капотом перезаписываются десятки файлов.

Скептики скажут: «Но Data Lake тоже умеет в ACID!» Да, но Iceberg создан для мультиоблачных сред. Его метаданные хранятся в виде файлов в том же S3/GCS, что и данные, а не в проприетарном формате. Хотите перенести Data Lake из AWS в Google Cloud? Просто скопируйте файлы — никаких скрытых замков.

Итог: Data Lake не умерли — они эволюционировали. Инструменты вроде Iceberg — это не просто «еще один формат», а принципиально новый подход, где данные управляются как код: с версионностью, тестами и CI/CD. И если раньше Data Lake требовали армию инженеров для поддержки, теперь они становятся self-service — как Docker для данных.

P.S. Если ваш Data Lake до сих пор вызывает желание кидаться тапками, возможно, пора сменить инструменты, а не аналитиков.

Как новый подход перестраивает управление данными

Data Lake, созданные на классических технологиях вроде Hive и Parquet, часто напоминают библиотеку без каталога: книги есть, но найти нужную невозможно. Данные дублируются, партиции устаревают, а схемы меняются быстрее, чем инженеры успевают их обработать. Apache Iceberg ломает этот порочный круг, предлагая архитектуру, которая превращает хаос в структурированную систему.

В основе Iceberg лежит трехуровневая архитектура, где метаданные становятся главным инструментом управления. Первый уровень — каталог, который хранится прямо в object storage (S3, GCS) и содержит информацию о схемах, партициях и версиях данных. Это не просто список файлов, а динамическая карта, позволяющая запросам мгновенно находить нужные данные.

Например, при запросе продаж за 2024 год система сначала обращается к каталогу, чтобы определить релевантные файлы, и только затем читает их. Второй уровень — манифесты, которые хранят статистики: минимум и максимум значений, количество строк. Эти данные позволяют отсечь до 90% ненужных файлов на этапе планирования запроса. Третий уровень — сами файлы данных (Parquet, ORC), но с гарантией согласованности и атомарности.

Архитектура таблицы Iceberg. Источник.

Сравнение с традиционными форматами вроде Parquet, ORC или Avro — все равно что искать нужную книгу в библиотеке без каталога, когда можно просто задать запрос и сразу получить результат. Parquet отлично сжимает данные, ORC оптимизирован для Hive, Avro гибок для потоков, но ни один из них не решает системных проблем. Например, добавление нового столбца в Parquet требует перезаписи всех файлов — а это операция, которая может парализовать работу на часы.

В Iceberg вы просто выполняете ALTER TABLE logs ADD COLUMN user_rating DOUBLE — и система автоматически адаптирует старые данные, подставляя NULL в новое поле. Партиционирование в Hive — это ручное создание папок вроде /year=2024/month=07, что превращает масштабирование в кошмар. В Iceberg вы задаете правило один раз, например PARTITIONED BY (days(event_time)), и система сама распределяет данные, создавая невидимые структуры.

Версионность в Iceberg — это Git для данных. Каждое изменение создает снапшот, позволяя откатиться к любой предыдущей версии. Например, в LinkedIn ошибочное удаление 10 ТБ данных было отменено за пять минут командой CALL iceberg.system.rollback_to_snapshot('logs', 123); (по данным их инженерного блога). ACID-транзакции гарантируют, что даже при параллельной работе десятков процессов данные остаются консистентными. Представьте двух инженеров, одновременно обновляющих таблицу — Iceberg изолирует их изменения, как диспетчер, управляющий взлетом самолетов.

Каталогизация — это свобода от привязки к облакам. Метаданные хранятся в том же S3 или GCS, что и данные, поэтому миграция между AWS и Google Cloud становится вопросом копирования файлов.

Почему это важно? Потому что данные перестают быть пассивом. Версионность спасает от человеческих ошибок, ACID гарантирует надежность, а каталогизация дает гибкость. Для инженеров — конец эпохи ручного управления файлами. Так, например, инженерная команда Spotify ускорила подготовку данных для ML-моделей на 60%.

Итог: Apache Iceberg — это не эволюция, а революция. Он превращает Data Lake из головной боли в стратегический актив, где каждая операция предсказуема, а данные работают на вас, а не против. Если ваш Data Lake все еще требует ручного контроля — Iceberg не опция, а необходимость.

BigQuery и Redshift vs Iceberg: когда переходить?

BigQuery и Redshift — managed-решения, идеальные для быстрого старта и SQL-аналитики. Однако Iceberg выигрывает в сценариях, где нужны:

мультиоблачность — данные хранятся в S3/GCS и работают с разными движками;
избежание vendor lock-in — Iceberg является open-source, а не проприетарным форматом;
гибкость схемы — переход оправдан, если вы уже используете open-source инструменты вроде Spark и хотите снизить зависимость от облачных провайдеров.

Apple и Iceberg: как гигант из Купертино укрощает экзабайты данных

Apple, будучи значимым сторонником открытого кода, активно участвует в развитии Iceberg с момента его создания, предоставив пять участников в проектный комитет (PMC).

Iceberg для Apple — фундамент lakehouse-архитектуры. Представьте: тысячи устройств ежесекундно генерируют терабайты метрик — от батареи iPhone до ошибок в Vision Pro. Iceberg превращает этот хаос в структурированное «озеро», где данные не тонут, а работают.

Источник.

Снапшоты — магия Apple для аудита и GDPR

Когда регуляторы просят показать, какие данные собирались о пользователях в 2024 году, Apple не копается в бэкапах. Они просто делают:

SELECT * FROM user_metrics VERSION AS OF 5678;

Где 5678 — снапшот на нужную дату. Это как перемотать время, но для данных. А еще снапшоты спасают от «Ой, я случайно дропнул продовую таблицу» — откат занимает минуты, а не дни.

Шифрование: когда Keychain встречает Iceberg

Apple не доверяет шифрованию «как у всех». Вместо стандартных AWS KMS они интегрировали Iceberg с Apple Keychain — их секретным хранилищем ключей. Результат? Данные шифруются на уровне колонок, а смена ключей не требует перезаписи файлов. Попробуйте провернуть такое с Parquet — получите головную боль и часы даунтайма.

Airbnb: Как Iceberg превратил ETL из «ночного кошмара» в «утренний кофе»

Airbnb — это миллионы бронирований, отзывов и метрик. Раньше их ETL-конвейеры напоминали пробку на МКАД: обновление данных в Hive занимало часы, а запросы вроде «покажи все бронирования с 2023 года» — вечность.

Merge-On-Read: почему Airbnb перестал переписывать партиции

Раньше обновление данных было как ремонт дороги — приходилось перекрывать весь участок партицию. С Iceberg они просто добавляют «заплатки» — delta-файлы с изменениями. Например, когда пользователь меняет дату бронирования:

UPDATE bookings SET check_in = '2024-09-01' WHERE booking_id = 12345;

Iceberg не трогает старые файлы, а записывает изменения отдельно. Это как оставить заметку на полях книги вместо переписывания всей главы.

Vectorized Execution: как Airbnb ускорил аналитику в пять раз

В целом Airbnb добилась 50% экономии вычислительных ресурсов и 40% сокращения времени выполнения задач в своей среде приема данных с помощью Iceberg и других технологий с открытым исходным кодом.

Эволюция стека технологий вычисления и хранения данных в Airbnb. Источник.

Представьте, что ваш запрос сканирует миллиард строк. В Hive это как искать иголку в стоге сена в темноте. С Iceberg и векторным выполнением Airbnb фильтрует данные пачками, а не по одной строке. Результат? Запросы типа «топ-10 популярных локаций за 2024 год» выполняются за секунды, а не минуты.

Оптимизация, проблемы и будущее

Apache Iceberg становится все более популярным инструментом для обработки больших данных, предлагая множество стратегий для оптимизации производительности. Одной из ключевых практик является использование скрытого партиционирования.

Например, партиционирование по времени события через конструкцию PARTITIONED BY days(event_time) позволяет эффективно распределить данные по временным сегментам, ускоряя операции фильтрации и аналитики. Дополнительной техникой является применение Z-Order, особенно для колонок с высокой кардинальностью, таких как идентификаторы пользователей или геоданные. Это позволяет ускорить выполнение запросов, таких как SELECT * FROM logs WHERE user_id = 123, увеличивая скорость фильтрации данных на 50-70%.

Еще одной важной стратегией для повышения производительности является регулярная компактизация файлов. Мелкие файлы — это постоянный враг производительности в системах, работающих с большими объемами данных. Поэтому рекомендуется регулярно запускать операцию OPTIMIZE, чтобы объединять маленькие файлы в более крупные «блоки» (128 МБ и более).

Не менее важной практикой является использование подхода Write-Audit-Publish (WAP), который предполагает запись данных в черновые таблицы, их предварительную проверку на качество и, только после этого, публикацию в продуктивные системы. Это помогает избежать попадания «мусорных» данных в аналитическую среду, что может повлиять на точность и качество отчетности.

Несмотря на множество достоинств, Iceberg не лишен проблем и ограничений. В первую очередь, настройка и конфигурация системы требует высокого уровня экспертизы в области распределенных вычислений и работы с многоблачными хранилищами. Например, настройка каталога данных для работы в мультиоблачной среде (скажем, при использовании S3 и GCS) может занять много времени и потребовать глубокой настройки, что является одним из недостатков Iceberg по сравнению с более простыми решениями.

Также стоит отметить, что Iceberg — это ресурсоемкое решение. Для работы с экзабайтами данных необходимы мощные кластеры с высокой вычислительной мощностью и большим объемом оперативной памяти. Например, при выполнении компактизации 1 ТБ данных в Iceberg ресурсы могут требоваться в два раза больше, чем при аналогичных операциях в Delta Lake.

Кроме того, Iceberg имеет ряд ограничений по функционалу. В отличие от систем вроде ClickHouse, Iceberg не поддерживает индексацию «из коробки», что может привести к проблемам с производительностью при выполнении запросов с большим количеством данных. Транзакции с высоким TPS (транзакции в секунду) также могут вызывать конфликты в Iceberg, что требует дополнительных усилий для их управления и оптимизации.

Смотря в будущее, можно отметить, что Iceberg активно развивается и планирует интеграцию с потоковыми системами, такими как Apache Pulsar и Kafka, что открывает возможности для реализации real-time аналитики и работы с данными из интернета вещей (IoT) и финансовых приложений. Также на горизонте — улучшение процессов автоматической оптимизации файлов, что позволит снизить необходимость ручных операций вроде OPTIMIZE, а также внедрение AI-driven подходов для динамического партиционирования данных.

С точки зрения долгосрочных перспектив, Iceberg имеет все шансы стать стандартом для гибридных Data Lake (сочетание on-prem- и cloud-решений). Уже сейчас более 60% компаний из списка Fortune 500 тестируют его для своих потребностей в обработке данных, согласно отчету Dremio.

Финал: стоит ли внедрять Iceberg прямо сейчас?

Apache Iceberg, безусловно, является многообещающей технологией для модернизации аналитических систем и превращения Data Lake в управляемые, высокопроизводительные хранилища. Поддержка ACID-транзакций, возможность «путешествовать во времени» и гибкость схемы делают его привлекательным выбором для организаций, сталкивающихся с проблемами масштабирования и консистентности данных.

Но так ли он нужен вам прямо сейчас? Ответ зависит от зрелости вашей инфраструктуры и насущности проблем, которые Iceberg призван решить.

Когда Iceberg может быть оправдан

Вы столкнулись с неконтролируемым ростом объемов данных, а существующие решения типа Hive, Hudi буксуют по производительности и консистентности.
Вам необходимы строгие гарантии ACID-транзакций для обеспечения надежности данных, особенно в условиях параллельной записи и обновления.
Необходим анализ исторических данных и возможность «отката» к прежним версиям без дублирования хранения.
Вы используете Spark, Flink, Trino или другие движки и хотите обеспечить согласованную работу с единым источником данных.

Если эти проблемы уже стали узким горлышком в вашей системе, Iceberg способен кардинально изменить ситуацию, повысив производительность и управляемость данных. Однако если ваша инфраструктура еще не достигла критической точки, стоит взвесить затраты на внедрение и возможные альтернативы.

Что думаете? Возможно, вы уже пробовали Iceberg в продакшене? Делитесь опытом в комментариях.

Комментарии (31)

miksoft
15.02.2025 13:30
#27925138
В Hive, чтобы изменить схему таблицы, нужно пересоздать ее целиком

Неверно, есть команда ALTER TABLE.

Фрагментация файлов — еще один кошмар. Когда ваш Data Lake состоит из миллионов файлов по 10 МБ, даже простой SELECT COUNT(*) превращается в многочасовой квест. Виной всему ручное управление партициями.

Видимо, имелась в виду фрагментация таблиц по файлам, а не фрагментация файлов.И как заячий прыжок в сторону - переход на ручное управление партициями. Во-первых, избыточное количество файлов вредит независимо от способа управления партициями и даже независимо от их наличия вообще. Во вторых, для Hive+parquet-таблиц существует автоматическое управление партициями и оно используется значительно чаще ручного.

Гибкость схемы — больное место Parquet и ORC. Добавить новый столбец в таблицу? Легко. Но если вы попытаетесь прочитать старые данные, где этого столбца нет, получите NullPointerException.

Неверно. При прочтении файлов, где этого столбца нет, получаем обычный NULL.

Дальше читать не осилил. Какие-то лозунги вперемешку с неверными данными.
1. techno_mot Автор
  15.02.2025 13:30
  #27925356
  Да, в Hive есть ALTER TABLE, но он далеко не панацея. Попробуйте, например, сменить тип столбца с STRING на INT без пересоздания таблицы — получите веселье с несовместимостью данных. Или удалите колонку и посмотрите, как отреагируют старые файлы. В Iceberg эта история куда гибче.
  
  Фрагментация файлов это реально боль, особенно в системах с высокой частотой инсертов. Даже если у вас автоуправление партициями, это не спасает от того, что движок должен продираться через кучу мелких файлов. Iceberg эту проблему решает через компакшн и манифест-файлы, которые позволяют оптимизировать работу с метаданными.
  
  По поводу NullPointerException — согласен, скорее всего, утрировал, но в любом случае проблемы со схемой в Parquet и ORC — вещь реальная. Опять же, Iceberg явно удобнее в этом плане, особенно при эволюции схемы.
  
  Короче, понятно, что каждая технология со своими нюансами, но Iceberg закрывает кучу старых болячек, которые в Hive/Parquet до сих пор решаются костылями..