Делимся блогами, посвященными машинному обучению и data science. Материалы от практикующих дата-сайентистов, программистов, физиков и биоинформатиков будут интересны как начинающим, так и «прожженным» специалистам.

Фотография Claudio Schwarz / Unsplash
Фотография Claudio Schwarz / Unsplash

Лонгриды о машинном обучении

Автор блогаЛиор Синай, инженер из Южной Африки, который пишет о математике, алгоритмах, языках программирования и ML-моделях. В статьях много примеров, что делает их полезными для студентов и начинающих разработчиков. Один из циклов статей в блоге посвящен разработке генеративных трансформеров на языке Julia. Синай шаг за шагом объясняет, как обучить модель воспроизводить текст в стиле Шекспира, следуя методологии из научной работы OpenAI о GPT-1. Он описывает подготовку датасета — очистку текстов от предисловий, аннотаций и лишних символов — и приводит код для обработки эмбеддингов. Часто автор сопровождает текст наглядными иллюстрациями.

Еще есть канал Игоря Котенкова — Сиолошная, где автор делится как обзорами на последние разработки в области (LLM), так и личным взглядом на область ИИ в целом. Также в блоге можно почитать о последних достижениях в космосе

— Роман Ленц,@RLents, руководитель направления анализа данных и ML в ПГК

Еще один интересный цикл — пять публикаций о разработке пакета для автоматического дифференцирования MicroGrad.jl [его исходный код есть на GitHub]. В первой части разбираются основы: градиентный спуск и теория оптимизации. Во второй — реализация автоматического дифференцирования с использованием метапрограммирования. Цикл завершается тем, что Синай демонстрирует, как применять разработанный движок для построения многослойного перцептрона и обучить его на наборе данных Moons. С 2020 года вышло несколько десятков объемных статей — от тысячи слов и больше. Обычно за год инженер публикует три-четыре материала, но в целом — это один из тех блогов, которые можно положить в фид и проверять время от времени.

Заметки программиста-математика

Эмилио Доригатти — исследователь в области вычислительной иммунологии, работающий в крупной немецкой фармацевтической компании. В блоге он пишет на более широкие темы, поэтому материалы будут интересны не только дата-сайентистам от мира медицины. Специалист ведет свой блог с 2019 года — начинал со своеобразных «обзоров» комиксов xkcd с математическими выкладками.

В одном из свежих постов Доригатти объясняет, как реализовать тензорную библиотеку с нуля: спроектировать набор функций для работы с многомерными массивами, включая базовые математические операции. В будущем он планирует развить эту тему, рассказав о реализации графовых нейросетей и операций транспонирования. Еще одна статья посвящена обработке данных в PyTorch Lightning — техникам работы с датасетами, которые не помещаются в оперативную память. 

Но иногда Доригатти пишет о математических задачах. Однажды инженер застрял в пробке на извилистой дороге — и в блоге появилась статья о том, как оценить общее количество автомобилей и среднюю длину затора на бесконечной дороге. Сначала он привел аналитическое решение, а затем дополнил его симуляциями. Правда, материалы в блоге выходят нерегулярно: в 2024 году вышел всего один, а в 2023-м — одиннадцать.

Физик и дата-сайентист делится опытом

Алекс Молас — испанский специалист по данным, разрабатывающий ML-системы для локальной платформы объявлений. В своем блоге он делится знаниями о Data Science и ML, следуя принципу: «Лучший способ что-то понять — попытаться объяснить это другим». Блог может быть интересен как начинающим, так и практикующим дата-сайентистам, ML-инженерам и даже ученым-физикам, ведь у Моласа есть бэкграунд в этой области. Писать он начал в конце 2020 года, и с тех пор публикует около десятка материалов в год. Тексты получаются компактными (500–1500 слов), но емкими, с живым и понятным языком.

Темы варьируются от прикладных до неожиданных:

  • Практика: обучение моделей TensorFlow, оптимизация Jupyter-ноутбуков (с помощью bash-скрипта можно сократить их объем на 94%);

  • Аналитика: анализ гендерного разрыва в шахматах с математической точки зрения, критика многофакторной аутентификации;

  • Нестандартные задачи: расчет максимально возможной длины прыжка с качелей — с применением физики и численных методов. Исходный код этого небольшого проекта можно посмотреть в репозитории.

Кому-то может быть интересно мнение Моласа о Leetcode-интервью на технических собеседованиях. В частности, автор приводит несколько доводов в защиту подхода. Он считает, что такого рода задачи помогают оценить способность кандидатов находить решение нестандартных проблем и проверяют аналитическое мышление.

Есть в блоге и лаконичные эссе — например, о том, что делает код хорошим (ключевой критерий — читаемость). А еще автор курирует подборку полезных, по его мнению, ресурсов по ML, большинство из которых бесплатны и открыты для всех.

Актуальные статьи про нейросети

Каждую неделю на сайте научно-исследовательской платформы Learn and Burn выходит одна-две статьи на самые разные темы в области систем ИИ и анализа данных. Например, недавно вышел обзор вайтпейпера о том, насколько LLM могут быть подвержены загрязнению данных при работе с GSM-Symbolic, GSM8K и прочими датасетами. А в другой публикации рассматривают эффективность статистического способа для выявления галлюцинаций в ответах систем ИИ. И еще пример — статья о том, как дифференциальный трансформер может оптимизировать поиск релевантной информации.

Кстати, куратор этой рассылки — инженер Тайлер Нейлон — ведет и собственный блог. В нем можно почитать о визуализации необученных, «сырых» нейронных сетей. Другая статья посвящена LSH: как этот метод позволяет ускорить поиск информации, для каких типов данных он подходит и за что отвечают хеш-функции.

Разбор алгоритмов от преподавателя

Почитать про data science и смежных областях на русском языке можно в профессиональном блоге Александра Дьяконова. Он руководитель направления наук о данных в Центральном университете и в 2012 году возглавлял топ Kaggle. В блоге можно найти статьи о разработке графовых нейронных сетей: какие есть проблемы, как эти трудности обходят, зачем нужно обобщение агрегации и так далее. А в материале, посвященном ML и библиотеке sklearn, Дьяконов демонстрирует, почему алгоритмы могут выдавать неверные вероятности, а результаты перекрестной проверки — различаться.

По материалам собственных лекций автор подготовил объемный сборник о глубоком обучении. Для написания этой веб-книги он обращался к записям, эссе и конспектам его аудитории. В ней можно изучить устройство нейронных сетей, а также способы борьбы с переобучением (мини-батчи, продвинутая оптимизация и другие).

Новые записи в блоге появляются нечасто, примерно раз в год. Поэтому советуем обратить внимание на Telegram-канал автора, где он рекомендует материалы и исследования примерно раз в две недели. Что интересно, сейчас Александр работает над открытой книгой о машинном обучении и анализе данных. Уже доступны материалы о метрических алгоритмах и их подтипах, о критериях контроля качества и выбора моделей, также можно узнать про поиск аномалий. Позже должны появиться подразделы, посвященные обработке данных, генерации и отбору признаков, а также визуализации и градиентному бустингу.

Telegram-канал Open Data Science

Новостной Telegram-канал, который курирует русскоязычное Data Science сообщество Open Data Science. Ресурс по большей части является агрегатором статей. Публикации разнообразны не только по темам, но и по уровню сложности — подойдет как совсем начинающим без какого-либо опыта в программировании, так и практикующим дата-сайентистам. Скажем, в ленте можно найти пост про тензерирование с примерами конфигураций, кода и ссылками на репозитории. В другой публикации рассказывают, как FP8-вычисления могут ускорить обучение больших моделей на 27%. В рамках одного поста кратко описывают историю применения типов FP16 и BF16, какие преимущества и нюансы есть в FP8 и зачем нужен torch.compile.

Кроме конкретных примеров разработок, в канале можно встретить и подборки полезных ресурсов. Например, в этом посте рекомендуют различные открытые руководства по дистилляции моделей. А здесь можно найти интересные для себя проекты научных центров и лабораторий ИИ под крылом Университета ИТМО.

Могу порекомендовать еще один канал с подборками — ai_newz. Для тех, кто не хочет тратить время на поиск новостей из мира ИИ. Автор каждую неделю готовит нейродайджест с ключевыми событиями за период. Они разбиты на темы — со ссылками и краткими обзорами

— Роман Ленц,@RLents, руководитель направления анализа данных и ML в ПГК

Приведем еще несколько Telegram-каналов, которые помогут подтянуть знания в сфере дата-сайенс и на которые есть смысл подписаться.

Прокачать хард-скиллы

Для этих целей подойдет канал Время Валеры. Его ведет Валерий Бабушкин, автор книги «Machine Learning System Design». Он рассказывает о системах искусственного интеллекта, делает выжимки по курсам и лекциям, делится полезными ссылками — например, на датасеты, — а также собственными мыслями про state of the industry.

Еще один полезный ресурс — Нескучный Data Science, где публикуют образовательные материалы: статьи и видео. Отдельное внимание уделяется NLP — решениям задач по теме. Также на канале есть раздел, посвященный карьере и развитию в Data Science.

Если вас интересуют продукты на базе больших языковых моделей, обратите внимание на канал LLM под капотом. Там разбирают важные новости и кейсы, автор также делится личным опытом и мнением: как OpenAI сэкономил ему 8 часов работы и стоит ли раскрывать секреты разработки LLM-систем.

Наконец, нельзя не отметить канал Анализ данных (Data analysis) с полезными ресурсами и новостями — например, было про ризонинг-модель Magistral и синтетический датасет для беспилотных автомобилей от Nvidia.

Про генеративные системы

Data Secrets — канал с обзорами и новостями из мира GenAI. Автор не только делится материалами, но и готовит свои разборы. Например, недавно он публиковал подробный конспект по большим языковым моделям с иллюстрациями и примерами.

Другой известный канал — Machinelearning, один из популярных по машинному обучению (почти 200 тыс. подписчиков). Его также рекомендует наш коллега Роман Ленц. Здесь публикуют новости из мира ИИ, анонсы мероприятий, хакатонов и обучающих курсов. Хотя сейчас основное внимание уделяется GenAI, в более ранних постах можно найти материалы по ML, компьютерному зрению и не только.

О системах ИИ и МО простыми словами

В канале AI для всех — обзоры и пересказы научных статей, в том числе опубликованных на arxiv.org. Например, один из последних материалов был посвящен исследованию ученых из Национального университета Сингапура, которые попытались ответить на вопрос: «Могут ли LLM научиться думать?» (они разработали фреймворк Thinkless, позволяющий языковым моделям выбирать между кратким и развернутым рассуждением в зависимости от сложности задачи).

Игорь Акимов — автор канала AI Product | Igor Akimov — публикует новости о главных событиях из мира LLM, «выжимки» с технологических конференций, а также собственные размышления о развитии ИИ-технологий и открытого ПО.

Комментарии (0)