Мы регулярно публикуем подборки литературы для специалистов: делали дайджест книг для желающих поближе познакомиться с Postgres и Kubernetes. Сегодня на очереди справочники и пособия по машинному обучению, которые можно найти в открытом доступе. Эти материалы помогут погрузиться в ML, разобраться в базовых математических концепциях, понять тренды опенсорсных технологий для систем ИИ и перейти к работе с ML-платформой.
«State of Open Source AI»
Целевая аудитория книги — ML-инженеры, разработчики и другие специалисты, желающие понять тренды в сфере машинного обучения. Материал написан командой из компании Prem, предоставляющей услуги по обучению ML-моделей. Организация участвует в жизни open source комьюнити и недавно представила LLM широкого назначения Prem-1B. Поэтому неудивительно, что книга State of Open Source AI также распространяется по открытым лицензиям: CC-BY-4.0 (текст) и Apache-2.0 (код).
Справочник включает анализ моделей LLaMA, Stable Diffusion и DALL-E, а также знакомит с инструментами вроде ONNX для хранения и обработки нейросетей, а также TensorRT — SDK для глубокого обучения. Отдельные главы посвящены обсуждению этических вопросов лицензирования и использования интеллектуальных технологий.
Каждый раздел начинается с краткого обзора в формате TL;DR, после которого авторы углубляются в детали — например, приводят примеры данных для обучения моделей. В книге есть глоссарий, позволяющий найти определения терминов и инструментов. Погружение в темы достаточно глубокое, и, по словам авторов, для лучшего усвоения материала у читателя должны быть хотя бы базовые знания в сфере MLOps.
«Python и анализ данных»
Автор книги — Уэс МакКинни, разработчик библиотеки pandas для обработки и анализа данных. Пособие ориентировано на специалистов, желающих разобраться в возможностях языка Python для аналитики. Автор рассказывает об инструменте визуализации Matplotlib, а также о том, как читать, очищать и преобразовывать массивы данных с помощью библиотек NumPy и pandas.
Наибольший интерес представляет третье издание «Python и анализ данных», которое было опубликовано в 2022 году издательством O’Reilly. Автор актуализировал материал и привел его в соответствие с версиями pandas 2.0.0 и Python 3.10.
Пособие похоже на онлайн-документацию по библиотекам. Читатели рекомендуют держать книгу в качестве настольного руководства, чтобы обращаться к нему по мере необходимости. Делать это несложно, учитывая, что материал доступен бесплатно на сайте Уэса МакКинни (еще есть официальный русский перевод). А все примеры кода выложены на GitHub и Gitee вместе с необходимыми датасетами.
«Approaching (Almost) Any Machine Learning Problem»
Дата-инженер и гроссмейстер Kaggle Абхишек Тхакур выпустил это руководство в 2020 году. Оно пригодится специалистам, желающим попрактиковаться в решении задач машинного обучения. Книга начинается с установки Python и настройки окружения. Но автор быстро переходит к углубленному разбору тем вроде контролируемого и неконтролируемого обучения, кросс-валидации и метрик оценки моделей.
Отдельные разделы посвящены организации проектов машинного обучения и работе с различными типами данных, включая категориальные переменные. Во второй части книги автор разбирает конкретные типы задач, такие как классификация изображений, текстов и методы ансамблирования. По сути, книга реализована по модели «учись, пока пишешь код». Иными словами, чтобы получить максимальную пользу от прочтения, стоит воспроизводить примеры и стараться применять их на практике.
Полная версия руководства доступна на GitHub. Если вам понравится стиль и подача автора, можете обратить внимание на его YouTube-канал, где выходят ролики про работу с нейросетями и ML-моделями — например, BARK, Stable Diffusion, Llama 2.
«Математика в машинном обучении»
Пособие будет полезно студентам, начинающим разработчикам и всем, кто хочет освоить или повторить ключевые математические концепции, необходимые в ML. Руководство состоит из двух разделов. Первый посвящен линейной алгебре, аналитической геометрии, матрицам, векторному исчислению, статистике, а второй — линейной регрессии, методу главных компонент, гауссову моделированию.
В прошлом году книгу «Математика в машинном обучении» уже упоминали на Хабре. Участники обсуждения отметили, что книга хорошо структурирована и помогает разобраться в базовой математике, необходимой для ML. Однако некоторым пособие показалось излишне сложным.
Руководство переведено на русский язык. Однако автор обзора на портале Proglib подчеркнул, что русская версия содержит много ошибок в формулах и опечаток, поэтому лучше сверяться с оригиналом. Издание на английском языке доступно бесплатно. Разбор решений и список литературы есть на GitHub.
«Metalearning: Applications to Automated Machine Learning and Data Mining»
Эта книга посвящена метаобучению — ML-подходу, направленному на разработку моделей, которые могут быстро адаптироваться к новым задачам или условиям при минимальном количестве данных. Идея заключается в том, чтобы обучить модель хорошо справляться сразу с несколькими задачами.
Пособие ориентировано на исследователей и практиков. Оно охватывает практически все аспекты метаобучения и автоматического машинного обучения (AutoML), начиная с основных концепций и архитектурных принципов подхода. Отдельная глава посвящена методологиям оценки и обработки наборов данных, после чего рассмотрены методы оптимизации гиперпараметров и методы ансамблей.
Большое внимание авторы уделяют взаимосвязи между метаобучением и AutoML и показывают, как совместное применение этих подходов позволяет автоматизировать ML-пайплайн.
Впервые руководство вышло в 2009, но было переиздано в 2022-м. И это самое второе издание можно скачать бесплатно на английском языке.
«Machine Learning in Production: From Models to Products»
Это — руководство по разработке ПО на базе систем машинного обучения. Его автор — Кристиан Кестнер, доцент факультета компьютерных наук Университета Карнеги — Меллона. Он написал книгу на основе своего курса по ML в программировании.
Учебник охватывает весь жизненный цикл разработки продукта — от требований и проектирования до проверки качества и ввода в эксплуатацию. Книги рассказывает о проблемах развертывания систем на базе машинного обучения и как грамотно соединять ML-компоненты с «классическими» составляющими программных продуктов. Отдельные главы посвящены качеству данных, моделей и конвейеров, а также построению работы дата-инженеров и управлению техническим долгом.
Наконец, Кестнер обсуждает этику в ML-инженерии, безопасность и прозрачность систем — то, без чего сложно представить полноценную работу в этой нише.
Пока что книга только готовится к публикации, которая намечена на апрель 2025 года. Однако руководство можно прочитать уже сейчас — электронная версия выложена на GitHub. Также к нему прилагаются учебные материалы: слайды, видео, задания и обширный список дополнительной литературы.
Больше литературных подборок в нашем блоге на Хабре:
kokanov
Гроссмейстер Каггл? Надо запомнить :-)))
з.ы. вероятно там должно быть слово грандмастер.