Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии
Data Internals X 2025 уже совсем скоро! 23 сентября начнётся профессиональное погружение в инженерию данных, системы хранения и обработки данных. Поэтому мы поговорили с членом программного комитета конференции Алексеем Жиряковым, чтобы узнать, что нас ждёт в этом году. Ведь лучший взгляд — это взгляд изнутри. Так лучше раскрывается опыт создания data-инфраструктуры и многочисленные вызовы одной из самых быстроразвивающихся отраслей IT.

Привет, Хабр! Меня зовут Алексей Жиряков, я член ПК Data Internals и давно живу в мире больших данных. Но чтобы понять, что в data-инженерии главное — это не просто накопление терабайтов информации, а эффективная обработка и хранение данных — мне понадобилось время. Ведь бюджеты — не резиновые, а экономия помогает бизнесу расти, высвобождая ресурсы на развитие. Остаётся не понаделать ошибок на этом пути или хотя бы свести их к минимуму, руководствуясь опытом экспертов отрасли. Для этого мы и собираем профессиональное сообщество, чтобы делиться секретами внутреннего устройства баз данных на production-масштабах, построением архитектур масштабируемых облачных сервисов, подходами к валидации и обеспечению качества данных.
В первую очередь мы ориентировались на:
дата инженеров, чтобы помогать решать даже самые сложные технические задачи;
архитекторов данных, чтобы выстраивать паттерны для больших систем;
техлидов, чтобы рассматривать возможности и ограничения технологий;
разработчиков СУБД, чтобы обсуждать инструменты работы с данными и делиться опытом по их использованию;
разработчиков и администраторов баз данных (DBA).
Я участвовал в формировании программы конференции, курировал докладчиков и узнал много интересного и полезного. Уже поделился этим со своей командой: на одном из созвонов мне жутко захотелось сразу же применить полученные знания оптимизации ClickHouse, до того были интересные подробности доклада. Так что уверен, что практический опыт докладчиков и глубина их решений помогут погрузиться в обычно остающиеся за кадром технические детали и повысить эффективность рутинных процессов. Ведь такая плотность экспертных знаний и нетворкинга встречается нечасто.
А современному data-инженеру важно понимать как управлять экспоненциально растущей лавиной данных, не «взрывая» бюджет. Приходится балансировать между скоростью, надёжностью и экономией — компрессировать данные, грамотно распределять их по «тёплому» и «холодному» хранению и оптимизировать ETL-процессы. Конечно, освоить это без стороннего опыта можно, но придётся набить немало шишек и заработать ещё больше седых волос. Поэтому лучше учиться на чужих ошибках и использовать методики и решения, опробованные на больших масштабах.
Для примера — несколько докладов, которые закрывают самые распространенные проблемы современной data-инженерии.

Доклад «Как мы решардим петабайтные кликхаузы в MyTracker: удаляй и властвуй» / Алексей Захожий (VK).
Это история о нестандартном способе масштабирования очень большого ClickHouse-кластера (десятки петабайт). Из опыта знаю, что перебалансировка данных в системах такого объёма — не просто технический вызов, а стратегическая задача. Докладчик поделится неожиданной техникой решардинга через DELETE, готовыми алгоритмами и практическими подходами для масштабирования ClickHouse без остановки сервиса.
Это позволяет закрыть боли с медленными процессами решардинга при работе с большими данными, снизить высокие затраты ресурсов на перенос больших объёмов данных и уменьшить простой сервисов во время миграции данных. А главное, этот опыт можно применять в своих проектах.
И это норма! В программу конференции мы отбирали только доклады с конкретными готовыми к внедрению решениями.
Доклад «Векторный поиск в YDB: опыт выбора и реализации» /
Александр Зевайкин (YDB).
Это даже не история, а настоящая эпопея. Докладчик детально раскроет современный подход к векторному поиску в эпоху AI. Честно расскажет о неудачных попытках применения HNSW и Random projections, а также об использовании готовых решений для RAG-систем. Всё это даёт практические знания по реализации векторных индексов в production-системах от разработчиков YDB. Так что, если вы хотите узнать как работает векторный поиск в YDB и как его реализовать — это возможность получить полезную информацию из первых рук.
Это поможет снизить сложность интеграции AI и векторного поиска в ваши системы. Порешать проблемы с низкой производительностью векторных индексов в распределённых СУБД, фильтрацией и обновлением векторных данных.
Акцент всех докладов идёт на технический уровень. Так легче достичь нужной глубины погружения в детали, обычно недоступные на бизнес-ориентированных конференциях.

Доклад «Data Quality как distributed-система: паттерны отказоустойчивости для данных» / Александр Бергер (Wildberries & Russ).
Докладчик предлагает практический путь перехода от ручного контроля к системной надёжности с помощью современных подходов. Ключевую роль по контролю качества данных в них играют большие языковые модели (LLM) для автогенерации проверок. Это готовые решения ориентированные на enterprise-масштаб включают в себя автоматические алерты, системы карантина данных и интеграцию с ML для детекции аномалий. Паттерны экономят 80% времени на управление качеством данных, что позволяет закрыть самые распространенные «боли»:
ручной контроль качества данных;
реактивный подход к проблемам с данными;
отсутствие автоматизации проверок и алертов.
Это следующий этап эволюции индустрии, который позволяет сокращать человеческий фактор и повышать надёжность систем. Можно много говорить о недостатках искусственного интеллекта, но даже самым ярым противникам уже сложно игнорировать факт, что ИИ-инструменты здорово облегчают жизнь.
Доклад «Все еще ходите за метриками в BI? Как мы экспериментировали с LLM и не пRAGадали» / Сергей Волков (Сбер).
Снова готовое решение, только теперь для автоматизации работы с BI-системами через LLM-агенты. Позволяет интегрировать GigaChat с корпоративными мессенджерами для поиска метрик. Решение значительно ускоряет аналитическую работу, ведь решение удачно опробовано на нагрузке в 6 млрд событий в день. Это значительно ускоряет процесс поиска нужных показателей среди тысяч дашбордов и помогает справляться с навигацией внутри крупных корпоративных BI-систем.
При этом важно понимать, что искусственный интеллект пока не решает глобальные проблемы. Это всё ещё ценный опыт, который передаётся из «уст в уста» среди специалистов.

Доклад «Дата Контракты - как создать продукт с нуля, изменив мышление всей компании» / Анна Мавлютова (Т-Банк)
Эта глобальная история, которая отзывается болью у каждого инженера, независимо от опыта и места работы. Стандартизация одновременно наводит ужас и дарит надежду на лучшее. Ведь все мы сталкивались с хаосом в управлении данными между командами или отсутствием стандартизации взаимодействия поставщиков и потребителей данных. Но мало кто по-настоящему знает и понимает, как всё это исправить.
Докладчик предлагает готовую методологию запуска Data Governance продукта от идеи до масштабирования на десятки команд. Это конкретные технические решения (GitOps, policy-as-code) и стратегии преодоления организационного сопротивления. Всё это подкреплено реальными кейсами по изменению корпоративной культуры и ускорения adoption новых процессов в enterprise-среде.
Не обделены вниманием и другие темы. Много докладов посвящено отечественным решениям и Open Source технологиям, потому что это критически важно в текущих реалиях. А опыта импортозамещения и внедрения открытого исходного кода, особенно для масштабных проектов, пока ещё недостаточно.
Все перечисленные решения, методики, подходы и паттерны — лишь часть того, что мы отобрали в программу конференции. Но все они направлены на то, чтобы превратить работу с данными в конкурентное оружие для бизнеса и показать вектор развития для специалистов в области data-инжиниринга. Каждый доклад — не просто теория, а проработанные решения из реального мира, с которыми сталкивались эксперты из топовых IT-компаний. Это настоящие знания внутренней кухни петабайтных систем. И, конечно, нетворкинг, возможность вживую задать вопрос экспертам, рассказать про свой кейс, спросить совета. А чтобы ничего не пропустить и не разрываться между докладами, участники получат записи и материалы. Поэтому, на мой взгляд, Data Internals X 2025 — must-visit конференция для настоящих data-инженеров. Подробная информация на официальном сайте.