Код, железо, стратегия: в чем секрет победителей ML-соревнований? / forpes.ru

Главная
Код, железо, стратегия: в чем секрет победителей ML-соревнований?

Код, железо, стратегия: в чем секрет победителей ML-соревнований? +20

23.05.2025 09:11

full_moon 0 1600 Источник

Кто из вас участвовал в соревнованиях по машинному обучению? А кто выигрывал? В мире ML олимпиады, хакатоны и прочие состязания — это не просто способ проверить свои навыки. Это полигон, где рождаются и проверяются новые подходы к решению сложных задач.

В 2024 году прошло более 400 таких соревнований с общим призовым фондом свыше $22 миллионов. Но кто же эти люди, которые выиграли этот куш? И что такого они сделали, чтобы обойти других?

Мы проанализировали отчет The State of Machine Learning Competitions 2024 и выделили из него самые ценные моменты для практикующих разработчиков. Если хотите узнать, что на самом деле отличает победителей от остальных участников, этот материал для вас.

Что внутри отчета: краткий обзор

Ландшафт ML-соревнований

Индустрия ML-соревнований переживает настоящий бум. Только представьте: призовой фонд вырос почти в три раза за год — с $7,8 млн в 2023 до $22 млн в 2024. Платформы для проведения таких турниров тоже не отстают. Большинство из них увеличили аудиторию более чем на 25%, а некоторые и вовсе удвоили количество пользователей. Безусловным лидером остается Kaggle с 22+ миллионами зарегистрированных участников и призовым фондом более $4 млн.

*Сравнение платформ по числу участников и медианному размеру наград*

Возродился интерес к «большим вызовам» (grand challenges) — амбициозным соревнованиям с миллионными призовыми фондами. AI Cyber Challenge от DARPA с призовым фондом $14 млн исследует применение ИИ в кибербезопасности. Vesuvius Challenge пытается расшифровать древние папирусные свитки, погребенные при извержении Везувия две тысячи лет назад. AI Mathematical Olympiad с призовым фондом $10 млн стимулирует создание модели, способной решать олимпиадные задачи по математике.

Помимо этих «больших вызовов» проводились десятки соревнований от компаний, некоммерческих организаций и правительственных структур. Например, Бюро мелиорации США профинансировало серию турниров с общим призовым фондом $500 тыс. для разработки точных прогнозов водоснабжения.

При этом деньги — не единственная мотивация. Академические конференции вроде NeurIPS, MICCAI и ICRA регулярно проводят соревнования, где главная награда — признание научного сообщества и возможность выступить с докладом или опубликовать статью.

Что касается участия, разброс был значительным: от нишевых конференц-турниров с участием менее 10 команд до масштабных соревнований, в которых состязались более 5000 команд.

Инструменты и стратегии победителей

Python остается безоговорочным лидером среди языков программирования — 76 из 79 победных решений были написаны на нем. Исключения редки, но показательны: победитель Polytope Permutation Puzzle использовал Rust, а чемпион March Machine Learning Mania 2024 — школьный учитель естественных наук — применил R для симуляции Монте-Карло.

Среди Python-библиотек в 2024 году появились новые фавориты: einops для упрощения тензорных операций, TRL для дообучения языковых моделей с помощью подкрепляющего обучения, Accelerate для распределенных вычислений на PyTorch, Shapely для работы с геометрическими объектами и Rasterio для обработки геопространственных данных.

В области глубокого обучения сохраняет лидерство PyTorch — 53 победных решения против 7 на TensorFlow. Почти все решения на TensorFlow использовали Keras.

*Соотношение использования PyTorch и TensorFlow*

В компьютерном зрении 12 решений были построены на сверточных нейросетях (CNN), 5 — на трансформерах и 3 — на их комбинации. Среди семейств моделей наиболее популярны U-Net, ConvNeXt и EfficientNet.

Что касается железа, более 80% победителей использовали GPU NVIDIA. Один применил TPU Google через Colab, остальные обошлись CPU. NVIDIA A100 стал самым популярным GPU среди победителей, опередив ближайший аналог более чем в два раза. Из потребительских карт чаще всего встречались RTX 4090 и RTX 3090. Забавно, но ни один победитель не использовал GPU AMD.

Два победителя соревнований использовали узлы с 8xH100 для обучения: Numina (AI Mathematical Olympiad) и The ARChitects (ARC Prize 2024). Эта конфигурация стоит около $24/час при использовании облачных вычислений — примерно как арендовать небольшой спортивный автомобиль, только вместо ветра в волосах вы получаете шум вентиляторов и тепловой удар в серверной. Другие победители тоже тратили заоблачные деньги на облачные ресурсы — от $100 до $500 на решение. Впрочем, были и те, кто обошелся бесплатными ноутбуками Kaggle или Colab.

Более половины победителей, которых нашли авторы отчета в 2024 году, были индивидуальными участниками. Команды с более чем пятью участниками (обычно это верхний предел) встречались редко: командная работа означает дележ призового фонда, а на это готовы не все. Кроме того, некоторые платформы прямо поощряют индивидуальные заявки через систему прогрессии.

В обработке естественного языка наблюдается интересный сдвиг. Если раньше доминировали энкодерные LLM, то теперь все чаще используются декодерные (авторегрессивные) модели. Среди победителей 2024 года были наиболее популярны Llama, Mistral, Gemma, Qwen и DeepSeek.

Энкодерные модели тоже сохраняют свою нишу. Серия DeBERTa остается наиболее популярной, хотя чаще всего энкодеры комбинируются с декодерами. Типичная стратегия — генерация синтетических данных декодерными моделями и последующее обучение на них энкодерных.

В области математики и рассуждений два крупнейших призовых фонда (более $1 млн каждый) были выделены для соревнований AI Mathematical Olympiad и ARC Prize. Команда Numina выиграла $131 тыс. в первом прогресс-призе AIMO, дообучив модель DeepSeekMath-Base-7B. Победители ARC Prize 2024 применили подход, при котором сетки токенизировались в одномерные последовательности, а языковая модель предсказывала выходные данные.

Для временных рядов и табличных данных деревья решений с градиентным бустингом по-прежнему доминируют. Глубокое обучение еще не придумало, как эффективно справляться с таблицами Excel — совсем как большинство людей. 16 победных решений использовали LightGBM, 13 — Catboost и 8 — XGBoost. Часто встречались ансамбли из нескольких библиотек GBDT. Другой успешный подход — комбинирование градиентного бустинга с нейронными сетями.

Pandas долгое время был доминирующей библиотекой для датафреймов, но ситуация меняется. 7 победных решений использовали Polars (против 3 в 2023 году и ни одного в 2022).

Цитата одного из участников: «Polars значительно быстрее, чем Pandas. Теперь все мои эксперименты по разработке функций я пишу на Polars. Pandas все еще остается в арсенале для быстрого разведочного анализа (EDA), но занимает не больше 20% моего рабочего времени.»

Что касается данных, некоторые соревнования ограничивают участников только предоставленными наборами, другие разрешают внешние источники. Многие победители использовали генеративные модели для создания дополнительных синтетических обучающих данных.

В чем секрет победы?

Отчет о соревнованиях по машинному обучению содержит массу фактов, но между строк скрываются неочевидные закономерности и выводы, которые могут оказаться гораздо полезнее сухой статистики. Давайте разберемся, какие реальные уроки можно извлечь, если вчитаться чуть глубже.

Тренды в победных решениях

Выбор языка: принцип соответствия инструмента задаче

Хотя большинство победителей использовало Python, анализ исключений раскрывает важный принцип: выбирайте язык, который лучше подходит для вашей задачи.

Rust применялся в задаче оптимизации головоломок не просто так, а потому что его система владения памятью и отсутствие сборщика мусора критичны для вычислительно-интенсивных задач с ограниченными ресурсами. R выбирали для статистического моделирования и линейных смешанных моделей благодаря его специализированным пакетам в этих областях.

Не бойтесь выйти за рамки Python, если задача требует специфических возможностей другого языка. Иногда лучше использовать менее знакомый язык, чем пытаться втиснуть решение в привычный, но неоптимальный фреймворк.

Новые библиотеки: индикаторы болевых точек

Появление новых библиотек в арсенале победителей — это не просто мода, а индикатор реальных проблем, с которыми сталкиваются разработчики. Следите за библиотеками, которые упрощают сложные операции — именно они часто дают конкурентное преимущество, позволяя сосредоточиться на логике решения.

Изучая новые библиотеки, обращайте внимание не на сам инструмент, а на проблему, которую он решает. Например, появление einops говорит о том, что работа с тензорами в нативном API слишком запутана и подвержена ошибкам. Популярность TRL указывает на растущую потребность в тонкой настройке языковых моделей с помощью обратной связи. Accelerate решает проблему масштабирования на несколько устройств без переписывания кода.

Анализируя новые библиотеки, мы замечаем недоработки в текущих инструментах, которые можно использовать для создания более эффективных решений. Такой подход позволяет стратегически взглянуть на экосистему ML и оценить, где открываются возможности для прорыва.

Архитектурные решения: контекст важнее тренда

В компьютерном зрении наблюдается интересная закономерность: несмотря на общий тренд к трансформерам, CNN остаются более популярными. Но дело не в консерватизме победителей, а в понимании контекста применения каждой архитектуры.

Особенно показателен пример соревнования Zindi's Arm UNICEF Disaster Vulnerability Challenge, где победители переформулировали одну и ту же задачу двумя способами: обнаружение объектов (с бокс-детекцией крыш) и прямую регрессию для предсказания количества домов определенного типа. Комбинирование разных подходов к формулировке проблемы — мощная стратегия, которая часто остается незамеченной.

Вместо того чтобы бесконечно оптимизировать одну модель, попробуйте взглянуть на вопрос под разными углами. Иногда самый большой выигрыш дает не улучшение модели, а переосмысление самой задачи.

Железо и вычисления: деньги vs изобретательность

Анализ используемых вычислительных ресурсов выявляет интересную стратегию: асимметричное распределение ресурсов между этапами разработки. Многие победители экономили на этапе экспериментов, используя бесплатные или малые ресурсы, но инвестировали значительные средства в финальное обучение моделей, когда стратегия уже была определена.

Пример победителя LLM 20 Questions, который начал с локального RTX 4090, но затем масштабировался до 8x RTX 4090, иллюстрирует этот подход. Он потратил около $500 на серверные расходы, но только после того, как понял, что его подход работает и ему не хватает только вычислительной мощности.

Но, как мы уже отметили, были и те, кто обучал свои решения полностью бесплатно через Kaggle или Colab. Особенно показателен пример победителей SNOMED Entity Linking Challenge, которые использовали словарный подход, обучавшийся всего 6 минут на CPU. Они обошли команды с ансамблями BERT-моделей и решения на Mistral-7B. Иногда простое, но хорошо продуманное решение эффективнее сложной модели — это классический пример бритвы Оккама в действии.

Команды и победители

Более половины победивших команд были классифицированы как «first-time победители», поскольку ни один из их участников ранее не выигрывал соревнование на той же платформе. Это разрушает еще один миф: для победы не обязательно быть ветераном платформы — свежий взгляд и энтузиазм новичков могут оказаться решающими факторами.

А еще для победы вовсе не обязательно собирать свою команду: больше половины победителей были индивидуальными участниками. Некоторые и вовсе в части соревнований участвуют в команде, а в части — в соло. Здесь нет универсальной стратегии — все зависит от типа соревнования, доступного времени и специфики платформы.

Специфика победных решений

Если общие тренды дают нам представление о популярных инструментах, то анализ специфики решений показывает, как эти инструменты применяются в разных областях. Давайте разберемся, какие подходы действительно работают в конкретных типах задач, и какие практические уроки мы можем извлечь.

Синтетические данные: создание преимущества из ничего

Современные проблемы требуют современных решений. И одним из таких является стратегическое использование синтетических данных. Победители не просто дополняли существующие наборы данных, а создавали специализированные синтетические данные для решения конкретных проблем в своих моделях.

Например, победители AI Mathematical Olympiad использовали GPT-4 для генерации «путей рассуждения», а затем тщательно фильтровали их, оставляя только те, где финальный ответ был корректным. Это не просто топорное увеличение объема данных, а целенаправленное создание примеров для развития определенных цепочек рассуждения, позволяющее преодолеть конкретные узкие места.

В соревновании Solafune's Finding Mining Sites победитель полагался на внешние наборы данных, содержащие миллион изображений, при том что было предоставлено только 1000 аннотированных. Когда правила позволяют, поиск и интеграция релевантных внешних данных может дать решающее преимущество.

В общем-то, тут вывод простой: не запрещено — значит разрешено. Не отбирайте у себя легальные козыри. Но поступайте с умом: более глубокое понимание имеющихся данных может быть эффективнее, чем добавление новых.

Гибридные стратегии вместо слепой веры в декодеры

Хотя общий тренд перехода от энкодерных к декодерным моделям очевиден, реальная практика победителей показывает более сложную картину. Победители соревнований не просто используют их «из коробки», а стратегически варьируют.

Особенно показателен пример победителя соревнования LMSYS (Chatbot Arena). Вместо использования самой большой доступной модели, он обучил относительно компактную Gemma2-9b параллельно с гораздо более крупными Llama3-70B и Qwen2-72B, а затем применил дистилляцию для передачи знаний от больших моделей к меньшей. Финальная 8-битная квантованная Gemma была единственной моделью, использованной при инференсе.

Другой интересный случай — соревнование LLM 20 Questions, где участники создавали агентов для игры в «20 вопросов». Победитель реализовал «рукопожатие» — специальный первый вопрос для определения, использует ли партнер похожую стратегию. Это как небольшое напоминание, что в соревнованиях с взаимодействующими агентами важно не только качество модели, но и умение предвидеть поведение других участников.

Вместо выбора между декодерными или энкодерными моделями, победители часто комбинируют их. Как пример: в соревновании Specializing LLMs for Telecom Networks победитель использовал ColBERT для поиска и Falcon-7.5B с Phi-2 для генерации в паттерне RAG. Специализированные архитектуры по-прежнему имеют преимущества в конкретных задачах, и их комбинирование часто дает лучший результат, чем слепая вера в одну архитектуру.

Данные и предобработка

Хотя большинство обсуждений вращается вокруг моделей и архитектур, анализ победных решений показывает, что инновации в предобработке данных часто дают большее преимущество, чем улучшения в самих моделях. В ML-соревнованиях глубокое понимание структуры данных часто важнее, чем сложность модели.

Рост популярности Polars как альтернативы Pandas — не просто технический выбор. Причина явления проста: скорость и эффективность использования памяти. Когда вы работаете с большими объемами данных и сложными преобразованиями, эти факторы становятся критичными. Инвестируйте время в изучение более эффективных альтернатив для базовых операций.

Когда все используют одни и те же модели, преимущество получает тот, кто может быстрее итерироваться и обрабатывать больше данных за то же время.

Квантизация и оптимизация: нужные компромиссы

В соревнованиях участники сталкиваются с двумя основными ограничениями: стоимостью ресурсов для обучения и лимитами среды оценки при инференсе. Победители не просто принимают эти ограничения, а превращают их в стратегические решения.

Так, многие победители использовали квантизацию моделей (4-бит, 5-бит, 8-бит) для ускорения инференса и уменьшения требований к памяти.

Особенно показателен пример команды Numina из AIMO Progress Prize 1, которая отметила, что квантизация «привела к небольшому падению точности, но это компенсировалось возможностью генерировать множество кандидатов во время инференса». То есть лучше иметь множество «неплохих» прогонов, чем один «идеальный», но медленный.

Другой распространенный прием — использование адаптеров низкого ранга (LoRA) вместо полного дообучения. Победители ARC Prize применили как LoRA, так и 4-битную квантизацию при работе с моделью Mistral-NeMo-Minitron-8B. Это позволило им эффективно использовать ограниченную память GPU для модели с большим количеством параметров.

Пример задачи с ARC Prize (источник изображения)

Однако не все победители идут по пути оптимизации. Та же команда Numina в другом случае отказалась от LoRA, потому что «не была уверена, что сможет достичь производительности полного дообучения без значительных экспериментов». Имея доступ к узлу 8x H100, они предпочли традиционное полное дообучение. Оптимизация — не самоцель, а средство адаптации к конкретным ограничениям.

Математика и рассуждения

В соревнованиях по математике и рассуждениям победители демонстрируют удивительную изобретательность в переосмыслении задач.

Рассмотрим три разных, но показательных решения:

Победители ARC Prize преобразовали двумерные сетки головоломок в одномерные последовательности токенов, что позволило использовать стандартные языковые модели для задачи, которая на первый взгляд требовала совершенно другого подхода.
Уже упомянутая Numina в AIMO Progress Prize сделала ставку на специализированную модель DeepSeekMath-Base-7B, изначально обученную для решения математических задач. Она дополнила это сбором сотен дополнительных математических проблем для валидации. Выбор базовой модели, предварительно обученной на задачах, близких к целевой, может оказаться решающим фактором.
В соревнованиях ICML 2024 AI4Math Workshop победители в основном использовали API языковых моделей, а не обучали собственные. Два из трех победных решения обращались к API GPT-4. Когда правила позволяют, использование API передовых моделей может быть более эффективным, чем разработка собственных решений с нуля.

Общая черта победителей в этой категории — стратегическое использование доступных и проверенных методов. Для задач такого типа качество и разнообразие обучающих примеров часто важнее архитектурных инноваций.

Вместо заключения: что стоит за ML-соревнованиями?

Обратили внимание, что в отчете почти не упоминаются GANs, которые гремели несколько лет назад? А задачи рекомендательных систем? Происходит естественный отбор не только решений, но и типов задач. Когда проблема становится «решенной» на уровне инженерии, она исчезает из соревнований — ведь ML-олимпиады это прежде всего полигон для нерешенных задач. В этом смысле соревнования — отличный индикатор переднего края исследований. Хотите понять, какие задачи еще не имеют устоявшихся решений? Просто посмотрите, за что предлагают большие призовые.

За фасадом ML-соревнований в целом скрывается любопытная экономика знаний и талантов. Многие победители Optiver Trading at the Close и подобных алготрейдинговых турниров получили работу в хедж-фондах с одним условием, ставшим стандартной практикой: подписать NDA и никогда публично не раскрывать детали своего подхода. Компании фактически инвестируют в призовой фонд вместо рекрутинговых агентств, превращая публичные соревнования в источник приватной экспертизы. Это создает интересный дисбаланс: чем ценнее находка, тем меньше шансов, что сообщество ее увидит.

В конечном счете, ML-соревнования — это особая форма коллективного интеллекта, продвигающая всю отрасль вперед. Да, они помогают проверить навыки и заработать призы, но также формируют стандарты того, что считается «хорошим решением» в конкретной области. Если вы до сих пор смотрели на них только как на спорт или способ заработка — попробуйте взглянуть на них иначе. За каждой победой стоит не только набор технических решений, но и вклад в эволюцию целой отрасли. А это уже, согласитесь, немного больше, чем просто строчка в резюме или дополнительные баллы на Kaggle.