image

Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».

Используйте навигацию, если не хотите читать текст полностью:

Теория
Практика
Инструменты
Инфраструктура
Обзор рынка
Исследования
Видео

Теория


Cohere LLM University


В прошлом дайджесте я писал про курс по LLM от Arize AI, а тут уже целый университет от Cohere. В каждой главе есть видео и текстовые материалы — можно выбрать удобный формат обучения. Курс подойдет и для новичков, и для продвинутых разработчиков, которые по структуре почти ничем от Arize не отличается, сделано хорошо. Всего в университете 4 модуля:

  • основы LLM,
  • текстовое представление,
  • генерация текста,
  • развертывание.

LangChain 101: Part 1. Building Simple Q&A App


Вводная статья по LangChain из курса LangChain 101. В ней автор рассказывает об основных компонентах фреймворка и показывает примеры его использования. Подойдет тем, кто еще не погружался в тему.


Основные компоненты LangChain.

Evolution of the Data Landscape


Отличная статья про развитие аналитических инструментов в терминологии эволюционной теории — с использованием дивергентного и конвергентного подхода. Авторы показывают, какие изменения произошли в инструментарии и архитектуре решений при переходе между тремя ключевыми этапами их развития:

  • традиционный,
  • современный,
  • Data-first.


Databases Scaling Strategies


Небольшой ликбез по способам и особенностям масштабирования баз данных. Рассматриваются два больших блока — стратегии чтения и записи. Для чтения рассмотрели механизмы кэширования, репликации с первичной и вторичной БД, а также индексирование для поиска и быстрого доступа к данным. Для записи — стратегии шардирования и альтернативные варианты вроде использования NoSQl.

Практика


Аналитика небольших данных: как совместить Excel, Python и SQL с помощью инструментов с открытым исходным кодом


Тем, кто работает в небольшой команде, рекомендую почитать эту статью. Автор показывает, как с помощью Excel-заменителя Grist и BI в виде Metabase сделать аналог аналитической системы. В целом, довольно познавательно. Хотя, признаюсь, развертываемый «Excel» я еще не видел.

Как мы посчитали уровень Data Driven’ности в компании и вклад в него каждого аналитика?


Интересный подход к оценке уровня зрелости аналитики в компании от ребят из СберМаркета. В статье они поделились предпосылками data-культуры, их подходом к расчету и планами по развитию методологии. А также пытались ответить на главный вопрос: «Какими должны быть данные в компании, чтобы считать себя data driven?».

Выделили 3 основных элемента для оценки:

  • стабильность,
  • качество,
  • используемость.

Инструменты


ClickHouse: полезные лайфхаки


На Хабре вышел обзор полезных фишек в ClickHouse и особенностей его SQL-диалекта. Или, как пишет автор, «Things I wish I knew». Внутри — целая ода этой СУБД. Автор использует его около 8 лет и за это время не раз убедилась, что ClickHouse идеально подходит для быстрой аналитики.

4 Alternatives to Fivetran: The Evolving Dynamics of the ETL & ELT Tool Market


Неплохая подборка альтернатив Fivetran для извлечения, преобразования и загрузки данных. Среди инструментов — Portable.io, Estuary.dev, Airbyte и Matillion. Как и бывает в подборках, автор рассказывает о ключевых особенностях, преимуществах и недостатках каждого решения.

Искусственный интеллект и машинное обучение в Selectel


Мы собрали на сайте все релевантные для AI продукты: вычислительные серверы с мощным GPU, преднастроенные виртуальные образы и другие инструменты, которые помогают решать AI- и ML-задачи быстрее. А чтобы эта страница была действительно полезной и удобной, добавили общую схему их взаимосвязи.

Инфраструктура


Breaking MLPerf Training Records with NVIDIA H100 GPUs


Nvidia хвастается своими достижениями в главном бенчмарке для ML-задач. И неспроста: в MLPerf Training v3.0 ее платформа на базе H100 Tensor Core установила новые рекорды производительности. А также — двукратный прирост по сравнению с A100 и трехкратный в работе с BERT.


NVIDIA H100 GPUs Now Available on AWS Cloud


У AWS вышла новая конфигурация виртуальных серверов на базе Nvidia под названием p5.48xlarge. Стоимость пока неизвестна. В нем:

  • 8 GPU H100,
  • 192 vCPU,
  • 2 ТБ RAM;
  • 3200 Гбит/c EFAv2 и EBS на 80 Гбит/c.

Вот такое теперь суровое настоящее для тех, кто хочет свою LLM.


Обзор рынка


ThoughtSpot acquires Mode Analytics, a BI platform, for $200M in cash and stock


Аналитическая платформа ThoughtSpot покупает BI-инструмент Mode. Это четвертое приобретение ThoughtSpot после покупки компании SeekWell в марте 2021 года и Diyotta в мае того же года. Интересно, мне одному кажется, что на рынке происходит «укрупнение» поставщиков за счет покупки платформами более мелких игроков?

Sourcetable raises $3M, claiming the future of spreadsheets is spreadsheets


Подъехал очередной «убийца» Excel — Sourcetable. Его автор Eoin McMillan утверждает, что существующие на рынке решения не реализуют высокий потенциал электронных таблиц, поэтому решил создать собственное. Недавно компания привлекла раунд инвестиций в размере $3M. Сможет ли Sourcetable заменить таких гигантов, как Microsoft Excel и Google Sheets — вопрос, как мне кажется, риторический. Как говорится, если не можешь победить зло — присоединись к нему.

Исследования


Latest Unisphere Research Survey Reveals Top Data Architecture Trends for 2023 and Beyond


Результат исследования современных архитектур для отработки данных, проведенного несколькими аналитическими агентствами. В превью есть краткая выжимка того, чем озабочены респонденты: облачные DWH, realtime-аналитика, выбор правильного подхода организации аналитики (LakeHouse, Data Mesh, Data Fabric, etc), прикладной AI/ML поверх этого всего. Особо любознательные могут скачать полный отчет в pdf в обмен на контакты.

Аналитика 3.0 — 2023


Специалисты из CNews поделились результатами ежегодного исследования рынка аналитических решений. Среди них — традиционный топ поставщиков, прогнозы рынка и выводы. Так, они подсчитали, что рынок больших данных и бизнес-аналитики растет примерно на 30% в год и основной драйвер этого — импортозамещение.

Видео


MLOps at Gucci: From Zero to Hero


Продолжительность: 36 минут

Доклад от представителей ML-направления Gucci про их production ML. Точнее, как они с нуля реализовали принципы MLOps в своих проектах, используя Databricks. Презентация, конечно, красивая, но особых откровений не было. Однако всегда интересно посмотреть, как устроены процессы у других.

Minimize Risks and Accelerate MLOps with Model Performance Monitoring and Explainability


Продолжительность: 19 минут

Все чаще повседневные действия решаются алгоритмами с AI. Однако со временем AI-модели деградируют и их результаты становится сильно хуже. И Если вовремя этого не заметить, компания начнет терять деньги. В докладе Krishna Gad, CEO fiddler, рассказывает про различные аспекты мониторинга моделей, уделяя внимание ответственному подходу работы с алгоритмами AI. Получилось наглядно и не без сложных формул.

Полезные материалы по теме


   

Комментарии (0)