Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Используйте навигацию, если не хотите читать текст полностью:
→ Теория
→ Практика
→ Инструменты
→ Инфраструктура
→ Обзор рынка
→ Исследования
→ Видео
Теория
Cohere LLM University
В прошлом дайджесте я писал про курс по LLM от Arize AI, а тут уже целый университет от Cohere. В каждой главе есть видео и текстовые материалы — можно выбрать удобный формат обучения. Курс подойдет и для новичков, и для продвинутых разработчиков, которые по структуре почти ничем от Arize не отличается, сделано хорошо. Всего в университете 4 модуля:
- основы LLM,
- текстовое представление,
- генерация текста,
- развертывание.
LangChain 101: Part 1. Building Simple Q&A App
Вводная статья по LangChain из курса LangChain 101. В ней автор рассказывает об основных компонентах фреймворка и показывает примеры его использования. Подойдет тем, кто еще не погружался в тему.
Основные компоненты LangChain.
Evolution of the Data Landscape
Отличная статья про развитие аналитических инструментов в терминологии эволюционной теории — с использованием дивергентного и конвергентного подхода. Авторы показывают, какие изменения произошли в инструментарии и архитектуре решений при переходе между тремя ключевыми этапами их развития:
- традиционный,
- современный,
- Data-first.
Databases Scaling Strategies
Небольшой ликбез по способам и особенностям масштабирования баз данных. Рассматриваются два больших блока — стратегии чтения и записи. Для чтения рассмотрели механизмы кэширования, репликации с первичной и вторичной БД, а также индексирование для поиска и быстрого доступа к данным. Для записи — стратегии шардирования и альтернативные варианты вроде использования NoSQl.
Практика
Аналитика небольших данных: как совместить Excel, Python и SQL с помощью инструментов с открытым исходным кодом
Тем, кто работает в небольшой команде, рекомендую почитать эту статью. Автор показывает, как с помощью Excel-заменителя Grist и BI в виде Metabase сделать аналог аналитической системы. В целом, довольно познавательно. Хотя, признаюсь, развертываемый «Excel» я еще не видел.
Как мы посчитали уровень Data Driven’ности в компании и вклад в него каждого аналитика?
Интересный подход к оценке уровня зрелости аналитики в компании от ребят из СберМаркета. В статье они поделились предпосылками data-культуры, их подходом к расчету и планами по развитию методологии. А также пытались ответить на главный вопрос: «Какими должны быть данные в компании, чтобы считать себя data driven?».
Выделили 3 основных элемента для оценки:
- стабильность,
- качество,
- используемость.
Инструменты
ClickHouse: полезные лайфхаки
На Хабре вышел обзор полезных фишек в ClickHouse и особенностей его SQL-диалекта. Или, как пишет автор, «Things I wish I knew». Внутри — целая ода этой СУБД. Автор использует его около 8 лет и за это время не раз убедилась, что ClickHouse идеально подходит для быстрой аналитики.
4 Alternatives to Fivetran: The Evolving Dynamics of the ETL & ELT Tool Market
Неплохая подборка альтернатив Fivetran для извлечения, преобразования и загрузки данных. Среди инструментов — Portable.io, Estuary.dev, Airbyte и Matillion. Как и бывает в подборках, автор рассказывает о ключевых особенностях, преимуществах и недостатках каждого решения.
Искусственный интеллект и машинное обучение в Selectel
Мы собрали на сайте все релевантные для AI продукты: вычислительные серверы с мощным GPU, преднастроенные виртуальные образы и другие инструменты, которые помогают решать AI- и ML-задачи быстрее. А чтобы эта страница была действительно полезной и удобной, добавили общую схему их взаимосвязи.
Инфраструктура
Breaking MLPerf Training Records with NVIDIA H100 GPUs
Nvidia хвастается своими достижениями в главном бенчмарке для ML-задач. И неспроста: в MLPerf Training v3.0 ее платформа на базе H100 Tensor Core установила новые рекорды производительности. А также — двукратный прирост по сравнению с A100 и трехкратный в работе с BERT.
NVIDIA H100 GPUs Now Available on AWS Cloud
У AWS вышла новая конфигурация виртуальных серверов на базе Nvidia под названием p5.48xlarge. Стоимость пока неизвестна. В нем:
- 8 GPU H100,
- 192 vCPU,
- 2 ТБ RAM;
- 3200 Гбит/c EFAv2 и EBS на 80 Гбит/c.
Вот такое теперь суровое настоящее для тех, кто хочет свою LLM.
Обзор рынка
ThoughtSpot acquires Mode Analytics, a BI platform, for $200M in cash and stock
Аналитическая платформа ThoughtSpot покупает BI-инструмент Mode. Это четвертое приобретение ThoughtSpot после покупки компании SeekWell в марте 2021 года и Diyotta в мае того же года. Интересно, мне одному кажется, что на рынке происходит «укрупнение» поставщиков за счет покупки платформами более мелких игроков?
Sourcetable raises $3M, claiming the future of spreadsheets is spreadsheets
Подъехал очередной «убийца» Excel — Sourcetable. Его автор Eoin McMillan утверждает, что существующие на рынке решения не реализуют высокий потенциал электронных таблиц, поэтому решил создать собственное. Недавно компания привлекла раунд инвестиций в размере $3M. Сможет ли Sourcetable заменить таких гигантов, как Microsoft Excel и Google Sheets — вопрос, как мне кажется, риторический. Как говорится, если не можешь победить зло — присоединись к нему.
Исследования
Latest Unisphere Research Survey Reveals Top Data Architecture Trends for 2023 and Beyond
Результат исследования современных архитектур для отработки данных, проведенного несколькими аналитическими агентствами. В превью есть краткая выжимка того, чем озабочены респонденты: облачные DWH, realtime-аналитика, выбор правильного подхода организации аналитики (LakeHouse, Data Mesh, Data Fabric, etc), прикладной AI/ML поверх этого всего. Особо любознательные могут скачать полный отчет в pdf в обмен на контакты.
Аналитика 3.0 — 2023
Специалисты из CNews поделились результатами ежегодного исследования рынка аналитических решений. Среди них — традиционный топ поставщиков, прогнозы рынка и выводы. Так, они подсчитали, что рынок больших данных и бизнес-аналитики растет примерно на 30% в год и основной драйвер этого — импортозамещение.
Видео
MLOps at Gucci: From Zero to Hero
Продолжительность: 36 минут
Доклад от представителей ML-направления Gucci про их production ML. Точнее, как они с нуля реализовали принципы MLOps в своих проектах, используя Databricks. Презентация, конечно, красивая, но особых откровений не было. Однако всегда интересно посмотреть, как устроены процессы у других.
Minimize Risks and Accelerate MLOps with Model Performance Monitoring and Explainability
Продолжительность: 19 минут
Все чаще повседневные действия решаются алгоритмами с AI. Однако со временем AI-модели деградируют и их результаты становится сильно хуже. И Если вовремя этого не заметить, компания начнет терять деньги. В докладе Krishna Gad, CEO fiddler, рассказывает про различные аспекты мониторинга моделей, уделяя внимание ответственному подходу работы с алгоритмами AI. Получилось наглядно и не без сложных формул.