Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.

Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.

Еще более подробные дайджесты по DataOps и MLOps публикуем каждую неделю — в Telegram-сообществе «MLечный путь». Там обсуждаем проблемы и лучшие практики организации production ML-сервисов, а также обмениваемся опытом. Присоединяйтесь к более 500 специалистам, развивающим ML- и Data-направления в российских и зарубежных компаниях.

Мнение


The rapture and the reckoning


Текст написан Бэном Стэнсилом (Benn Stancil) — экс-старшим аналитиком Microsoft, ныне — основателем и CTO компании Mode (занимается развитием дата-платформы). Бэн здраво рассуждает, что еще нескоро языковые модели заменят аналитиков. По его наблюдениям, тот же ChatGPT в половине случаев пишет неверные SQL-запросы. А ведь это даже не продакшен, а просто работа с тестовыми данными. Конечно, еще дообучат, но до победы ИИ все равно еще далеко.

Еще Бэн использует интересную аналогию, вспоминая концепт беспилотных автомобилей. Их появление на дорогах обещают «всегда завтра». Но, возможно, вместо того, чтобы обучать машины ездить по существующим дорогам, проще просто перестроить сами дороги. С аналитическими системами (даже modern data stack), возможно, будет проще поступать аналогично. Если уж захочется полноценно заменить «кожаных мешков» на чат-ботов.

The Inference Cost Of Search Disruption


Здесь рассказывают, сколько придется заплатить Google за inference ChatGPT для всех клиентских запросов. Именно за инфраструктуру. Спойлер: он себе такую сумму позволить не может.

В остальном в тексте углубляются в различные способы использования Large Language Models для поиска, ежедневные затраты на ChatGPT, стоимость логических выводов для LLM и в другие интересные материи.

Кейсы


Платформа данных в Леруа Мерлен — как мы победили масштабирование


Интересные тексты про работу и развитие дата-платформы пишут в блоге Леруа Мерлен на Хабре. Структурировано и понятно.

Из интересного в этом тексте:

  • заменили NiFi на Flink — кажется, работать с многочисленными источниками станет проще,
  • обработанные данные лежат как в Greenplum, так и в S3 — это должно быть удобно для инструментов, которые не могут просто так ходить в Greenplum.

Для контекста будет также интересно почитать про создание этой дата-платформы.

Делаем ТруЪ-DevOps в мире хранилищ данных


Подробная и хорошо написанная статья про DevOps для Data Warehouse c 6,5 Петабайтами данных. Кейс Почты России (Почтатеха) тоже опубликован на Хабре.

Есть любопытный рассказ про DWH компании «в разрезе»: какие данные хранятся, кто входит в команду разработки, какие инструменты используют. Большая часть текста — именно рекомендации для DevOps-специалистов, но есть полезные блоки про коммуникацию между командами и выстраивание процессов.

Dbt Labs acquires Transform, adding semantic tools to its data analytics platform


Dbt Labs приобретает компанию Transform, чтобы добавить еще больше возможностей по развитию семантического слоя и моделированию данных. У Techcrunch, как обычно, емкие заголовки, из которых сразу все понятно.

Для контекста Transform — это такой очередной «new wave of BI-tool» с самообслуживанием, инструментами командной работы и повышенным observability. Последняя концепция подразумевает отслеживание инцидентов и проблем с качеством данных и их быстрое решение.

Для dbt это логичный шаг — дать пользователям инструмент для визуализации поверх собственного слоя моделей данных.



Обзоры рынка и рейтинги


The 2023 MAD Landscape


Спустя 18 месяцев с прошедшего релиза вышел новый Machine Learning, Artificial Intelligence & Data Landscape. Этот лэндскейп составляет с 2020 году Mэтт Терк — управляющий директор компании FirstMark. Он — известный инвестор в предприятия, облачные технологии, данные и ML/AI на ранних стадиях.

Помимо интерактивной карты различных решений в сферах ML, AI и Data, в статье также описаны:

  • тренды рынка: финансирование, выходы на IPO, поглощения компаний,
  • тренды в инфраструктуре данных,
  • тренды в сфере машинного обучения и искусственного интеллекта.

Ряд трендов могут быть неактуальны для России, но исследование, определенно стоит изучить для понимания мирового контекста.

Про российский рынок немного написали на CNews. Объ­ем рын­ка ИИ в Рос­сии по ито­гам 2022 г. сос­та­вил око­ло 635 млрд руб. Это на 15% боль­ше, чем го­дом ран­ее. Лидер среди отраслей — розничная торговля (retail).

Российский рынок BI: активная стадия трансформации. Обзор TAdviser 2022


TAdviser сформировал обзор российского рынка business intelligence. В нем — список крупнейших участников рынка BI — вендоры и интеграторы. Есть информация по выручке и ключевым проектам каждого участника обзора.

Итоги и основные числа пока только за 2021 год:

  • объем рынка — около 45 млрд рублей,
  • рост год к году — 16%.

Из интересного: собрана статистика по аудиториям Telegram-каналов конкретных решений — западных и отечественных, а также показатели рынка труда. Сколько есть вакансий, какова средняя зарплата специалиста и т.д.

Тренд года угадать несложно — импортозамещение.


Крупнейшие поставщики BI-решений в России. Источник

Snowflake is the DBMS of the Year 2022, defending the title from last year


Короткий текст про результаты самого известного рейтинга СУБД — DB Engines. На позиции той или иной СУБД влияет количество упоминаний систем на сайтах, частота поиска решения из Google Trends, число вакансий, где упоминается использование этой СУБД, и другие параметры.

Итак, в топ-3 по итогам года вошли:

  • Snowflake,
  • Google BigQuery,
  • PostgreSQL.

Ну, хоть одну из победительниц можно без особых проблем использовать в отечественных сервисах.

Snowflake на первом месте второй год подряд, а PostgreSQL регулярно в топ-3. Snowflake — известный американский облачный Data Warehouse, использовать который в текущих условиях несколько затруднительно.

Подборки


11 Open Source Data Exploration Tools You Need to Know in 2023


В тексте — сборная солянка из инструментов для исследования и визуализации данных. К группировке есть вопросы: странно, что Superset и Metabase находятся в разных разделах статьи. Также в него почему-то добавили аналитическую СУБД Apache Doris.

Есть несколько из них, которые хочется отдельно отметить:


10 useful Github repositories every Data Scientist should bookmark


Нечасто в текстах с подобными заголовками можно встретить действительно годные рекомендации. Но это не тот случай: большинство репозиториев в списке кажутся полезными.

Выделим самые интересные:

  • Free-programming-books — огромное количество бесплатных материалов и книг на разных языках мира (как вам, например, программирование на малазийском?).
  • Open API — открытые API на любой вкус, можно использовать как для изучения, так для баловства и обогащения данных в сайд-проектах.
  • Data Science Python Notebooks — примеры «ноутбуков» по работе как с Python, так и отдельными библиотеками, фреймворками, конкретными задачами.
  • 500 AI-ML Projects — каталог каталогов AI/ML-проектов, в которых можно черпать вдохновение бесконечно долго.


Сообщества


The Infrastructure-less MLOps


Если вас интересует идея «бессерверного» MLOps, обратите внимание на это англоязычное сообщество. Из приятного — есть бесплатный онлайн-курс по SML и блог. Последний — свободный для комьюнити. То есть любой зарегистрировавшийся участник может предложить свой текст на площадку.

Также на сайте можно посмотреть карту используемых продуктов (landscape). Впрочем, набор не сильно отличается от характерного для MLOps.


Бесплатный онлайн-курс по SML. Источник

Видео


MLOPs Projects with Rust


Время просмотра: 35 мин.

Если вы интересуетесь темами AI и ML и готовы потреблять контент на английском языке, в целом, советуем подписаться на канал Pragmatic AI Labs. Это компания, которая занимается обучением, консалтингом в области Cloud-Native AI и ML, а также производством AI-решений.

В этом видео основатель компании Noah Gift (Ной Гифт) показывает, как можно работать с MLOps-проектами, используя язык программирования Rust. Вдруг вам приходила идея попробовать Rust в своих проектах. Посмотрите на работающий пример Pragmatic AI Labs и подумайте еще раз, нужно ли оно вам.

Assimilate Onnx


Время просмотра: 35 мин.

И снова на экране — GitHub компании Pragmatic AI Labs и его фаундер. На этот раз он показывает примеры внедрения в проекты моделей ONNX (Open Neural Network Exchange). Считается, что это хороший стандартизированный способ делать модели, которые могут быть использованы в разных фреймворках. Хотя конвертиться из него в другие форматы не всегда получается.

GitOps, CI/CD and MLOps — How it all comes together for a Developer


Время просмотра: 40 мин.

Хороший доклад от главного архитектора из Red Hat на DevNation Day в Индии. Ritesh Shah рассказывает про связь всех перечисленных страшных подходов в рамках MLOps.

Комментарии (1)


  1. Proydemte
    00.00.0000 00:00

    сколько придется заплатить Google за inference ChatGPT для всех клиентских запросов. Именно за инфраструктуру. Спойлер: он себе такую сумму позволить не может.
    Агрессивно кэшировать запросы и TTL несколько дней, то для популярных запросов вполне можно позволить.
    Но, возможно, вместо того, чтобы обучать машины ездить по существующим дорогам, проще просто перестроить сами дороги.
    А вот пеерсторить дороги, действительно никто себе такую сумму позволить не может. Кроме крошечных стран, типа Монако или Люксембурга.