«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD / forpes.ru

Главная
«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

29.12.2023 10:40

s_valuev 1 1800 Источник

Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».

Теория

Introduction to MLOps Principles

Статья с базовыми принципами MLOps, которые направлены на поддержание жизненного цикла моделей машинного обучения в продакшене. С их помощью компании сокращают время и затраты на разработку и развертывание ML-моделей, избегая технического долга. Всего автор выделил пять принципов:

Versioning (управление версиями),
Testing (тестирование),
Automation (автоматизация),
Monitoring and tracking (мониторинг и отслеживание),
Reproducibility (воспроизводимость).

Пригодится тем, кто только погружается в тему машинного обучения.

Mastering LLM Techniques: LLMOps

Нечасто встретишь у NVIDIA концептуальные статьи о ML. В этой они рассказывают о нескольких практиках, которые входят в систему MLOps. Среди них — GenAIOps, LLMOps и RAGOps. Каждая из них выполняет свои задачи: генерирует текст, изображение или ответы на запросы пользователей. Нравятся мне все эти сложные Ops-термины, можно перекинуться ими с коллегами на кофепоинте.

Зеленым цветом отмечена специфика генеративных моделей (GenAIOps).

Real-Time Data Architecture Patterns

Мощная статья об архитектурных аспектах построения аналитических систем. В частности, для потоковой обработки данных в режиме реального времени. В ней описаны:

базовые сценарии (Stream-to-Stream, Batch-to-Stream, Stream-to-Batch),
архитектуры Lambda, Kappa, Streaming, CDC,
примеры на базе Apache Kafka и Druid.

Вся информация хорошо структурирована, поэтому подойдет тем, кто хочет освежить свои знания или разобраться с нуля в архитектуре аналитических систем.

ML Model Registry: The Ultimate Guide

Полное руководство по Model Registry от Neptune. Чем он отличается от других методов хранения моделей, как настроить в MLOps-стек и все, что поможет с тестированием и развертыванием ML-моделей. Для большего понимания сопроводили информацию подробными схемами.

Схема работы Model Registry.

Если любите обзорные статьи, рекомендую обратить внимание. Достаточно прочитать один раз, чтобы раз и навсегда разобраться в Model Registry.

Performance Optimization in ETL Processes

Интересная теоретическая статья о способах оптимизации производительности ETL-процессов. Они нужны для улучшения обработки данных, повышения эффективности затрат и углубления понимания бизнеса. Всего автор выделил пять стратегий:

предобработка данных,
параллельные вычисления,
in-memory обработка,
оптимизация кода и запросов к СУБД,
микробатчинг.

Статья могла быть еще лучше, если бы в ней были практические примеры, но пока довольствуемся тем, что есть.

Schmarzo and the Value·Nauts: The Journey from Data to Value

Тратить деньги на модернизацию аналитических систем и получать за счет этого экономическую выгоду — не одно и то же. Об этом рассказывает в своей статье Bill Schmarzo, стратег по AI- и DA-инновациям. Из интересного в ней есть четырехуровневая модель зрелости монетизации данных и собственная схема «Путешествие к ценным данным», напоминающая PDCA-циклы (Plan-Do-Check-Act).

Cхема «Путешествие к ценным данным».

Integration of Big Data in Data Management

Еще не все считают большие данные умершими. Подтверждение — в статье о проблемах и перспективах использования данных в прикладной аналитике. При этом большинство вопросов касается технологий и платформенных решений. Пригодится, если хотите дать «вторую жизнь» своим данным и извлечь из них полезную информацию.

Визуализация проявляет

Обычно в Бюро Горбунова пишут о креативных темах: редактуре, рекламе, дизайне и всяком таком. Однако меня заинтересовала обзорная статья о визуализации данных. В ней описаны семь принципов визуализации, которые можно использовать как ориентир при создании своих работ:

визуализация проявляет,
информативность,
многомерность,
наглядность,
логичность и удобство использования,
эстетичность,
правдивость.

В первом принципе автор приводит два эталонных примера: мировую карту землетрясений и схему очагов заражения холерой 1854 году в Лондоне. Если хотите глубже погрузиться в тему, можете почитать об информативности и многомерности. Остальные у автора — в процессе.

Практика

Mastering LLM Techniques: Inference Optimization

Большая статья от NVIDIA, в которой они учат своих потребителей ускорять инферес LMM. Для этого предлагают несколько методов: например, снизить точность представления вещественного числа (Quantization) или поменять плотные матрицы на разреженные (Sparsity). А также заменить большую LLM на маленькую, затем мимикрировать ее под свою «старшую сестру» (Distillation).

И это не говоря о том, что можно всячески играться с распараллеливанием вычислений внутри модели, кэшировать Key/Value-тензоры, шарить их внутри self-attention слоя и многое другое.

Процесс кэширования Key/Value-тензоров.

Динамический шеринг GPU в Kubernetes с помощью MIG

Вторая статья о технологии шеринга GPU — Dynamic MIG. В комментариях к первой нам писали, что нельзя переразбивать конфигурацию MIG при наличии активных процессов. Мы же говорим, что можно, и делимся способом, как это сделать. Использовать коммерческое решение Fractions от Run:ai или open source-модуль Nebuly Operating System.

Scaling Data Teams: 5 Learnings from BlaBlaCar

История о децетрализирализации и масштабировании аналитических команд от BlaBlaCar. В 2021 году они начали с отдельных подразделений аналитиков, инженеров и дата-саентистов, а в 2023 пришли к пяти кросс-функциональным командам. Если помимо работы с данными вы сталкиваетесь с управленческими задачами, рекомендую ознакомиться с этой статьей.

Инфраструктура

Apple M2 Max GPU vs Nvidia V100, P100 and T4

Автор не мог выбрать между графическими процессорами от Apple и NVIDIA, поэтому сравнил их по производительности. В дополнение протестировал на этих процессорах обучение ML-моделей: M2 Max в 4,38 раз быстрее M1 и, в некоторых сценариях, лучше по производительности, чем Nvidia T4 и P100. Чем это не аргумент в пользу Apple.

AMD launches Instinct MI300X and MI300A

В начале декабря AMD анонсировал новую линейку AI-ускорителей: Instinct MI300X и Instinct M1300A. Если в прошлом поколении на один чип приходилось 128 ГБ памяти, то теперь уже — 192 ГБ. При этом NVIDIA H200 получил 141 ГБ, что почти вдвое больше по сравнению с предшественником H100.

Интересно, будет ли доступен форм-фактор Open Compute Project Accelerator Module? Гарантии и поддержки вендора у нас нет, а так хотя бы замену комплектующих можно будет организовать.

H100 and other GPUs — which are relevant for your ML workload?

Полезная статья для тех, кто планирует закупить GPU на следующий год. Во-первых, в ней вы узнаете термины FP64, TF32 и BF16. Во-вторых, ознакомитесь с показателями новых карт от NVIDIA (L4, L40, H100 SXM, H100 PCI).

Основные характеристики GPU и бенчмарки производительности для ML.

L-линейка от NVIDIA используется для инференса, но может помочь и в стриминге, и с обучением ML-моделей. При этом она в несколько раз уступает H100, хотя в L40 целых 48 ГБ памяти, как и в A6000 Ada.

Инструменты

The Return of the H2O.ai Database-like Ops Benchmark

В одной из статей NVIDIA ссылается на рейтинг инструментов и методов обработки информации — Database-like Ops Benchmark. Он измеряет производительность groupby и join различных аналитических инструментов, таких как data.table, polars, dplyr, clickhouse, duckdb и других.

Оригинальный бенчмарк от H2O.ai застрял в 2021 году, а ребята из DuckDB обновили его под современные реалии. Возникает вопрос, насколько объективно. Ведь теперь их СУБД побеждает во всех эталонных запросах.

Выбор СУБД: шпаргалка, чтобы не запутаться

Неожиданно приятный материал о выборе СУБД для анализа данных. В нем автор делится тремя подходами с подробными схемами и дополнительными рекомендациями.

Пройти тест и сопоставить результаты с таблицей соответствия СУБД.
Следовать по стрелкам на предложенной в тексте схеме.
Использовать теорему САР: из трех факторов (доступность, согласованность и устойчивость к распределению) выбрать один.

Как говорится, все гениальное — просто.

What Can You Expect from Apache Doris as a Data Warehouse?

Обзорная статья от создателей Apache Doris о том, насколько «быстрее, выше, сильнее» стала их аналитическая СУБД с релизом 2.X.X. Помимо перечисления всех преимуществ в ней описаны особенности выполнения запросов, хранения данных на дисках и S3, а также разные пользовательские сценарии: например, LakeHouse, анализ логов и другие. Пригодится, если присматриваете альтернативу ClickHouse.

Сравнение Open Source BI-платформ

В статье автор сравнил BI-инструменты с открытым исходным кодом. В качестве испытуемых выбрал Superset, Metabase и DataLens, предварительно разделив критерии оценки на четыре группы:

настройка внешнего вида и визуализации дашбордов,
работа с данными,
интерактивное взаимодействие с дашбордом,
администрирование и безопасность.

Выбрать лидера — сложно, поскольку каждая из BI-платформ обладает своими особенностями и ограничениями. Но вы можете ознакомиться с результатами в итоговой таблице: часть 1, часть 2.

Видео

LLMs Mini Summit

Почти двухчасовая запись с обсуждением LLM на MLOps Mini Summit Meetup. В видео выступили четыре специалиста:

Thomas Capelle, ML-инженер в компании Weights & Biases, рассказал о Fine-tune LLM, которое улучшает точность и производительность моделей;
Boris Dayma, генеральный директор Craiyo, поделился лучшими практиками обучения LLM: использование параллельного обучения, ведение журнала тренировок и другие;
Robbie McCorkell, инженер-основатель Leap Labs, рассказал об интерпретируемых моделях на примере классификаторов изображений и показал, как применить эту концепцию к LLM;
Jonathan Whitaker, AI Researcher в Data Science Castnet, поделился результатами конкурса «LLM Science Exam» от Kaggle, в котором ответил на вопросы GPT 3.5, основанные на статьях с Википедии.

Построение MLOPS платформы. Как мы обуздали хаос в головах и технике

Коллеги из МТС поделились опытом построения внутренней платформы для DS/ML-разработчиков: с какими проблемами они столкнулись и как их решили. Смотрел их доклад и вспоминал, как мы наступали на такие же грабли.

Для своей системы они выбрали ClearML и дополнили его Seldon Core и JupyterHub. У них есть еще много дополнительных инструментов, но так у всех.

Схема процесса работы у коллег из МТС.

Scaling MLOps for Computer Vision

В последнее время MLOps.community зачастили с mini summit. На этот раз — прикольные доклады о Computer Vision с использованием платформы Flyte. У нас в России эта сфера сильно развита, поэтому многим будет интересно. В видео три доклада:

«Flyte: A Platform for the Agile Development of AI Products» от David Espejo, Open Source Developer Advocate в Union;
«Flyte at Recogni» от Fabio Grätz, старшего Software Engineer в Recogni;
«Lessons Learned from Running AI Models at Scale» от Arno Hollosi, технического директора Blackshark.ai.

AWS re:Invent 2023 — Introduction to MLOps engineering on AWS

Большой обзорный доклад о MLOps с конференции AWS re:Invent 2023. Сперва спикер погружает слушателей в саму концепцию, упоминая MLOps Security и MLOps Maturity. Затем показывает, как это работает в платформе Sagemaker. Однако у каждого свои взгляды на MLOps, поэтому с некоторыми моментами в видео можно поспорить.

Понравились материалы из дайджеста? Делитесь своими в комментариях!

Комментарии (1)

zabanen2
30.12.2023 06:56
#26323520
+2
а эту статью можно перевести на хабре? не то, чтобы я английский не понимал, сколько доступа нет, обрывается на

хотя отбой) зарегистрировался, получил доступ к полной статье. может и сам перенесу