Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.
Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».
Воспользуйтесь навигацией, чтобы выбрать интересующий вас блок:
→ Теория
→ Мнение
→ Практика
→ Обзор рынка
→ Инструменты
→ Видео
Теория
All You Need to Know to Build Your First LLM App
Большая статья на Medium (осторожно, количество бесплатно просматриваемых статей ограничено) для тех, кто хочет создать собственную LLM. Выглядит как хорошо проиллюстрированный мини-учебник для тех, кто уже понимает базовые вещи. Большое количество аспектов разложено по полочкам и со схемами. Есть даже примеры кода. Можете попробовать добавить в нее свой контекст и использовать на благо бизнеса.
Intro To LLMOps
Еще один пример образовательного контента по LLM. На сайте Arize AI появился новый курс по LLMOps, который можно освоить за несколько часов. Для новичков и тех, кому нужно более глубокое погружение, не подойдет. Но для золотой середины, владеющей нужной математикой, — самое то. Пока в нем три раздела:
- эмбединги, сокращение размерностей, механизмы внимания и т.д.),
- LLMOps for Developers (Prompt Engineering, Langchain и evaluation),
- LLMs in production (Deployment, metrics, anomaly detection).
Emerging Architectures for LLM Applications
В блоге Andreessen horowitz снова годный контент. На этот раз ребята представили понятную схему со стеком приложений для работы с LLM и разобрали ее по кусочкам. Отлично для систематизации знаний и определения белых пятен в работе с LLM.
Актуальные подходы к ETL. Или EL-T? Технологический разбор
Классный разбор от ребят из «Инфосистемы Джет» про то, куда, как и в каком порядке можно поставить в аналитическую систему наши любимые Extract, Transform, Load. Теорию разложили на практике, приведя в пример проект, который они реализовали для финансовой компании. Читается интересно и даже на русском языке!
Data Warehouses: The Undying Titans of Information Storage
Если вы еще не разобрались с понятием DWH, дайте шанс этому тексту. Подробный и качественный материал, охватывающий историю появления, борьбу и последующее единение с Data Lake, а также альтернативные подходы к хранению данных.
The Great Data Mesh Debate: Will It Sink or Swim?
Текст подтверждает, что Data Mesh-подход — это не столько про техническую реализацию, сколько про изменения в менеджменте и процессах. Автор рассматривает основные принципы и сложности при внедрении необходимых практик. Правда, ответа на вопрос «Утонет Data Mesh или нет», заявленный в заголовке, в тексте я так и не нашел.
Data Products: Strategic Data for AI and Machine Learning
Толковая статья про дата-продукты (снова Medium с ограничением для не-подписчиков). Какую они проблему решают, как можно их построить, какие есть особенности эксплуатации. Описано популярно, без инженерного погружения.
Мнение
What Does GPT-3 Mean For the Future of MLOps
В блоге Neptune, как обычно, классная статья. На этот раз — с обсуждением использования языковых моделей в рамках MLOps. Текст — расшифровка Q&A-сессии нескольких специалистов, можно послушать в виде подкаста. Получилось достаточно комплексно рассмотреть влияние LLM на дальнейшее развития инструментов и принципов production ML.
The Golden Age of Open Source in AI Is Coming to an End
Название статьи говорящее: кажется, будущее настоящих Open Source-моделей печально. Статистика из статьи оптимизма не добавляет — достаточно посмотреть на некоторые данные, собранные автором. С другой стороны, каждый хочет заработать на своем интеллектуальном труде. Ну и вопрос финансирования разработок никуда не уходит. Чтобы разрабатывать Open Source серьезного уровня, необходимы ресурсы.
Можно наблюдать стремительное падение свободных лицензий на использование моделей.
Pros and Cons of Multi-Step Data Platforms
Автор рассуждает о плюсах и минусах распространенного сейчас подхода к проектированию аналитических систем — гибридного. При таком подходе компания использует не одно комплексное решение, а набор инструментов, лучше подходящих для решения конкретных задач. Вот такие сборные солянки и называются «многоходовыми дата-платформами».
Основные вызовы при их построении:
- качественная интеграция между инструментами,
- надежные и точные транзакции,
- обеспечение безопасности.
Практика
Кейс внедрения Dbt в «Детском Мире»
В этот раз кейс один, но зато есть очень любопытный. Руководитель Big Data-платформы в «Детском мире» рассказал об опыте внедрения инструмента Dbt. В целом, стек у компании интересный: Zeppelin, Airflow в Kubernetes, Gitlab, Spark.
Обзор рынка
Machine Learning Operations Market UPD 16 June 2023
Актуальная версия отчета по рынку MLOps. Понятно, что оценки каждого агентства отличаются и единого правильного способа не существует, но самое интересное в таких ответах — выводы и рассуждения. Так, нам обещают мировой CAGR (совокупный среднегодовой темп роста) — 38,5%. Также из отчета видно, что тренд на on-prem есть не только в России, но и в мире. Это печально.
State of data 2023
Ребята из Airbyte опросили 886 респондентов и выкатили отчет о состоянии рынка аналитики данных. Итоги оформлены стильно, но некоторые визуализации спорные и трудно читаются. Если интересны топы инструментов в разных категориях, вам будет любопытно. В отчете также можно найти данные по самым популярным YouTube-каналам, подкастам и сообществам.
В категории оркестраторов лидирует self-hosted Airflow.
The State of Data Engineering 2023
В дополнение к предыдущему тексту — landscape инструментов для дата-инжиниринга и некоторые мысли о сфере от lakeFS. Сильных изменений в сравнении с предыдущим отчетом я на заметил, но, если вы с ним не знакомы, будет полезно. Для развлечения составители решили уточнить у ChatGPT, как бы он оценил статус дата-инжиниринга в 2023 году в 50 словах.
All the Nvidia news announced by Jensen Huang at Computex
В одной небольшой новости сведены все важные анонсы Nvidia с выставки Computex. Особенно ужасает DGX GH200. Теоретический объем видеопамяти — 144 ТБ. Даже подумать страшно, сколько это будет стоить.
Инструменты
MLOps Landscape in 2023: Top Tools and Platforms
Neptune собрала собственный список крутых инструментов и платформ для MLOps. Не очень понятно, почему в списке нет ClearML — награду в этом году платформа получила, а в топ не попала. При этом MosaicML в перечне есть. Какова логика выбора составителей — нет ответа.
How to Deploy an AI Model in Python with PyTriton
Лично я очень ждал этого события. Не конкретно появления питоновской библиотеки для Triton, а в целом — любой верхнеуровневой либы. С ванильным Triton разбираться то еще удовольствие, хотя по возможностям работы с GPU я аналогов не знаю. Теперь есть повод для массовой волны изучения и добавления в свой production. Мы в команде тоже изучим, когда появится время, и расскажу — может, даже здесь, на Хабре. Говорят, что работать с ней так же просто, как с Flask.
Announcing Motherduck: hybrid execution scales DuckBD from your laptop into the cloud
На рынке облачных аналитических платформ прибыло — состоялся релиз MotherDuck. Внутри все основано, что следует из названия, на DuckDB. Обещают serverless, notebook-like UI, нативную работу с S3 и прочие «blazing fast». Доступ пока по инвайтам, будет интересно понаблюдать за публичным релизом.
26 Data Catalogs – From Open Source To Managed
Большой каталог с каталогами! В списке и проприетарные, и с открытым кодом. Есть довольно распространенные Amundsen, DataHub и Castor, но, признаюсь, большинство названия вижу первый раз. Так что есть к чему присмотреться и что дополнительно изучить.
Видео
Faster LLM Inference: Speeding up Falcon 7b (with QLoRA adapter)
Продолжительность: 18 минут
Нашел интересный YouTube-канал по AI-разработку. Уже даже актуальные модели разбираются, объяснения вполне понятные — прояснил для себя несколько моментов. Вдохновился и тоже поднял Falcon 7B. При моих настройках модель заняла в памяти 15 Гб и вполне прилично отвечала на базовые запросы. На русском можно ничего не спрашивать — я проверил :)
NEW “Orca” Open-Source Model
Продолжительность: 19 минут
У меня от этого видео мурашки по коже. Автор разбирает статью сотрудников Microsoft, которые частично критикуют ChatGPT, но при этом предлагают новый подход к обучению моделей. В частности, пользоваться «чатом» в качестве промежуточного звена для поэтапного обучения — от простого к сложному. Метрики получаемой модели при меньшем количестве параметров удивляют. Очень советую посмотреть, если вы research supervisor или вокруг этого.
Introduction to MLOps at the Edge
Продолжительность: 46 минут
VP по продукту и дизайну в компании barbara рассказывает про особенности организации MLOps для Edge-устройств, а в конце показывает свой продукт. По некоторым аспектам продукта есть вопросы, но механики работы с моделями можно подсмотреть. Больше понравилась первая часть про концептуальные аспекты и кейсы. Еще один вариант, который можно сравнить с KubeEdge.
MLOps в билайн: как катить машинное обучение в production силами DS
Продолжительность: 36 минут
Новый кейс с опытом построения ML-систем в отечественной компании — только на этот раз в формате видео. Head of Data Science в «Билайне» рассказывает, как они внедряли MLOps-процессы, с чего начали, с какими проблемами столкнулись.
vassabi
а можно найти эту статистику в абсолютных числах?
а то у меня такое впечатление, что это не "пермиссивных уменьшилось", а это рост (вернее - взрыв) "рестриктивных" затмил рост всех остальных. Также интересно что идет заметный рост% "некоммерческих" (т.е. непермиссивных, но все равно это не закрытые) , так что рано ужасаться ИМХО :)