
Кто из вас участвовал в соревнованиях по машинному обучению? А кто выигрывал? В мире ML олимпиады, хакатоны и прочие состязания — это не просто способ проверить свои навыки. Это полигон, где рождаются и проверяются новые подходы к решению сложных задач.
В 2024 году прошло более 400 таких соревнований с общим призовым фондом свыше $22 миллионов. Но кто же эти люди, которые выиграли этот куш? И что такого они сделали, чтобы обойти других?
Мы проанализировали отчет The State of Machine Learning Competitions 2024 и выделили из него самые ценные моменты для практикующих разработчиков. Если хотите узнать, что на самом деле отличает победителей от остальных участников, этот материал для вас.
Что внутри отчета: краткий обзор
Ландшафт ML-соревнований
Индустрия ML-соревнований переживает настоящий бум. Только представьте: призовой фонд вырос почти в три раза за год — с $7,8 млн в 2023 до $22 млн в 2024. Платформы для проведения таких турниров тоже не отстают. Большинство из них увеличили аудиторию более чем на 25%, а некоторые и вовсе удвоили количество пользователей. Безусловным лидером остается Kaggle с 22+ миллионами зарегистрированных участников и призовым фондом более $4 млн.

Возродился интерес к «большим вызовам» (grand challenges) — амбициозным соревнованиям с миллионными призовыми фондами. AI Cyber Challenge от DARPA с призовым фондом $14 млн исследует применение ИИ в кибербезопасности. Vesuvius Challenge пытается расшифровать древние папирусные свитки, погребенные при извержении Везувия две тысячи лет назад. AI Mathematical Olympiad с призовым фондом $10 млн стимулирует создание модели, способной решать олимпиадные задачи по математике.
Помимо этих «больших вызовов» проводились десятки соревнований от компаний, некоммерческих организаций и правительственных структур. Например, Бюро мелиорации США профинансировало серию турниров с общим призовым фондом $500 тыс. для разработки точных прогнозов водоснабжения.
При этом деньги — не единственная мотивация. Академические конференции вроде NeurIPS, MICCAI и ICRA регулярно проводят соревнования, где главная награда — признание научного сообщества и возможность выступить с докладом или опубликовать статью.
Что касается участия, разброс был значительным: от нишевых конференц-турниров с участием менее 10 команд до масштабных соревнований, в которых состязались более 5000 команд.
Инструменты и стратегии победителей
Python остается безоговорочным лидером среди языков программирования — 76 из 79 победных решений были написаны на нем. Исключения редки, но показательны: победитель Polytope Permutation Puzzle использовал Rust, а чемпион March Machine Learning Mania 2024 — школьный учитель естественных наук — применил R для симуляции Монте-Карло.
Среди Python-библиотек в 2024 году появились новые фавориты: einops для упрощения тензорных операций, TRL для дообучения языковых моделей с помощью подкрепляющего обучения, Accelerate для распределенных вычислений на PyTorch, Shapely для работы с геометрическими объектами и Rasterio для обработки геопространственных данных.
В области глубокого обучения сохраняет лидерство PyTorch — 53 победных решения против 7 на TensorFlow. Почти все решения на TensorFlow использовали Keras.

В компьютерном зрении 12 решений были построены на сверточных нейросетях (CNN), 5 — на трансформерах и 3 — на их комбинации. Среди семейств моделей наиболее популярны U-Net, ConvNeXt и EfficientNet.

Что касается железа, более 80% победителей использовали GPU NVIDIA. Один применил TPU Google через Colab, остальные обошлись CPU. NVIDIA A100 стал самым популярным GPU среди победителей, опередив ближайший аналог более чем в два раза. Из потребительских карт чаще всего встречались RTX 4090 и RTX 3090. Забавно, но ни один победитель не использовал GPU AMD.
Два победителя соревнований использовали узлы с 8xH100 для обучения: Numina (AI Mathematical Olympiad) и The ARChitects (ARC Prize 2024). Эта конфигурация стоит около $24/час при использовании облачных вычислений — примерно как арендовать небольшой спортивный автомобиль, только вместо ветра в волосах вы получаете шум вентиляторов и тепловой удар в серверной. Другие победители тоже тратили заоблачные деньги на облачные ресурсы — от $100 до $500 на решение. Впрочем, были и те, кто обошелся бесплатными ноутбуками Kaggle или Colab.

Более половины победителей, которых нашли авторы отчета в 2024 году, были индивидуальными участниками. Команды с более чем пятью участниками (обычно это верхний предел) встречались редко: командная работа означает дележ призового фонда, а на это готовы не все. Кроме того, некоторые платформы прямо поощряют индивидуальные заявки через систему прогрессии.
В обработке естественного языка наблюдается интересный сдвиг. Если раньше доминировали энкодерные LLM, то теперь все чаще используются декодерные (авторегрессивные) модели. Среди победителей 2024 года были наиболее популярны Llama, Mistral, Gemma, Qwen и DeepSeek.
Энкодерные модели тоже сохраняют свою нишу. Серия DeBERTa остается наиболее популярной, хотя чаще всего энкодеры комбинируются с декодерами. Типичная стратегия — генерация синтетических данных декодерными моделями и последующее обучение на них энкодерных.
В области математики и рассуждений два крупнейших призовых фонда (более $1 млн каждый) были выделены для соревнований AI Mathematical Olympiad и ARC Prize. Команда Numina выиграла $131 тыс. в первом прогресс-призе AIMO, дообучив модель DeepSeekMath-Base-7B. Победители ARC Prize 2024 применили подход, при котором сетки токенизировались в одномерные последовательности, а языковая модель предсказывала выходные данные.
Для временных рядов и табличных данных деревья решений с градиентным бустингом по-прежнему доминируют. Глубокое обучение еще не придумало, как эффективно справляться с таблицами Excel — совсем как большинство людей. 16 победных решений использовали LightGBM, 13 — Catboost и 8 — XGBoost. Часто встречались ансамбли из нескольких библиотек GBDT. Другой успешный подход — комбинирование градиентного бустинга с нейронными сетями.
Pandas долгое время был доминирующей библиотекой для датафреймов, но ситуация меняется. 7 победных решений использовали Polars (против 3 в 2023 году и ни одного в 2022).

Что касается данных, некоторые соревнования ограничивают участников только предоставленными наборами, другие разрешают внешние источники. Многие победители использовали генеративные модели для создания дополнительных синтетических обучающих данных.
В чем секрет победы?
Отчет о соревнованиях по машинному обучению содержит массу фактов, но между строк скрываются неочевидные закономерности и выводы, которые могут оказаться гораздо полезнее сухой статистики. Давайте разберемся, какие реальные уроки можно извлечь, если вчитаться чуть глубже.
Тренды в победных решениях
Выбор языка: принцип соответствия инструмента задаче
Хотя большинство победителей использовало Python, анализ исключений раскрывает важный принцип: выбирайте язык, который лучше подходит для вашей задачи.
Rust применялся в задаче оптимизации головоломок не просто так, а потому что его система владения памятью и отсутствие сборщика мусора критичны для вычислительно-интенсивных задач с ограниченными ресурсами. R выбирали для статистического моделирования и линейных смешанных моделей благодаря его специализированным пакетам в этих областях.
Не бойтесь выйти за рамки Python, если задача требует специфических возможностей другого языка. Иногда лучше использовать менее знакомый язык, чем пытаться втиснуть решение в привычный, но неоптимальный фреймворк.
Новые библиотеки: индикаторы болевых точек
Появление новых библиотек в арсенале победителей — это не просто мода, а индикатор реальных проблем, с которыми сталкиваются разработчики. Следите за библиотеками, которые упрощают сложные операции — именно они часто дают конкурентное преимущество, позволяя сосредоточиться на логике решения.
Изучая новые библиотеки, обращайте внимание не на сам инструмент, а на проблему, которую он решает. Например, появление einops говорит о том, что работа с тензорами в нативном API слишком запутана и подвержена ошибкам. Популярность TRL указывает на растущую потребность в тонкой настройке языковых моделей с помощью обратной связи. Accelerate решает проблему масштабирования на несколько устройств без переписывания кода.
Анализируя новые библиотеки, мы замечаем недоработки в текущих инструментах, которые можно использовать для создания более эффективных решений. Такой подход позволяет стратегически взглянуть на экосистему ML и оценить, где открываются возможности для прорыва.
Архитектурные решения: контекст важнее тренда
В компьютерном зрении наблюдается интересная закономерность: несмотря на общий тренд к трансформерам, CNN остаются более популярными. Но дело не в консерватизме победителей, а в понимании контекста применения каждой архитектуры.
Особенно показателен пример соревнования Zindi's Arm UNICEF Disaster Vulnerability Challenge, где победители переформулировали одну и ту же задачу двумя способами: обнаружение объектов (с бокс-детекцией крыш) и прямую регрессию для предсказания количества домов определенного типа. Комбинирование разных подходов к формулировке проблемы — мощная стратегия, которая часто остается незамеченной.
Вместо того чтобы бесконечно оптимизировать одну модель, попробуйте взглянуть на вопрос под разными углами. Иногда самый большой выигрыш дает не улучшение модели, а переосмысление самой задачи.
Железо и вычисления: деньги vs изобретательность
Анализ используемых вычислительных ресурсов выявляет интересную стратегию: асимметричное распределение ресурсов между этапами разработки. Многие победители экономили на этапе экспериментов, используя бесплатные или малые ресурсы, но инвестировали значительные средства в финальное обучение моделей, когда стратегия уже была определена.

Пример победителя LLM 20 Questions, который начал с локального RTX 4090, но затем масштабировался до 8x RTX 4090, иллюстрирует этот подход. Он потратил около $500 на серверные расходы, но только после того, как понял, что его подход работает и ему не хватает только вычислительной мощности.
Но, как мы уже отметили, были и те, кто обучал свои решения полностью бесплатно через Kaggle или Colab. Особенно показателен пример победителей SNOMED Entity Linking Challenge, которые использовали словарный подход, обучавшийся всего 6 минут на CPU. Они обошли команды с ансамблями BERT-моделей и решения на Mistral-7B. Иногда простое, но хорошо продуманное решение эффективнее сложной модели — это классический пример бритвы Оккама в действии.
Команды и победители
Более половины победивших команд были классифицированы как «first-time победители», поскольку ни один из их участников ранее не выигрывал соревнование на той же платформе. Это разрушает еще один миф: для победы не обязательно быть ветераном платформы — свежий взгляд и энтузиазм новичков могут оказаться решающими факторами.

А еще для победы вовсе не обязательно собирать свою команду: больше половины победителей были индивидуальными участниками. Некоторые и вовсе в части соревнований участвуют в команде, а в части — в соло. Здесь нет универсальной стратегии — все зависит от типа соревнования, доступного времени и специфики платформы.

Специфика победных решений
Если общие тренды дают нам представление о популярных инструментах, то анализ специфики решений показывает, как эти инструменты применяются в разных областях. Давайте разберемся, какие подходы действительно работают в конкретных типах задач, и какие практические уроки мы можем извлечь.
Синтетические данные: создание преимущества из ничего
Современные проблемы требуют современных решений. И одним из таких является стратегическое использование синтетических данных. Победители не просто дополняли существующие наборы данных, а создавали специализированные синтетические данные для решения конкретных проблем в своих моделях.
Например, победители AI Mathematical Olympiad использовали GPT-4 для генерации «путей рассуждения», а затем тщательно фильтровали их, оставляя только те, где финальный ответ был корректным. Это не просто топорное увеличение объема данных, а целенаправленное создание примеров для развития определенных цепочек рассуждения, позволяющее преодолеть конкретные узкие места.
В соревновании Solafune's Finding Mining Sites победитель полагался на внешние наборы данных, содержащие миллион изображений, при том что было предоставлено только 1000 аннотированных. Когда правила позволяют, поиск и интеграция релевантных внешних данных может дать решающее преимущество.
В общем-то, тут вывод простой: не запрещено — значит разрешено. Не отбирайте у себя легальные козыри. Но поступайте с умом: более глубокое понимание имеющихся данных может быть эффективнее, чем добавление новых.
Гибридные стратегии вместо слепой веры в декодеры
Хотя общий тренд перехода от энкодерных к декодерным моделям очевиден, реальная практика победителей показывает более сложную картину. Победители соревнований не просто используют их «из коробки», а стратегически варьируют.
Особенно показателен пример победителя соревнования LMSYS (Chatbot Arena). Вместо использования самой большой доступной модели, он обучил относительно компактную Gemma2-9b параллельно с гораздо более крупными Llama3-70B и Qwen2-72B, а затем применил дистилляцию для передачи знаний от больших моделей к меньшей. Финальная 8-битная квантованная Gemma была единственной моделью, использованной при инференсе.
Другой интересный случай — соревнование LLM 20 Questions, где участники создавали агентов для игры в «20 вопросов». Победитель реализовал «рукопожатие» — специальный первый вопрос для определения, использует ли партнер похожую стратегию. Это как небольшое напоминание, что в соревнованиях с взаимодействующими агентами важно не только качество модели, но и умение предвидеть поведение других участников.
Вместо выбора между декодерными или энкодерными моделями, победители часто комбинируют их. Как пример: в соревновании Specializing LLMs for Telecom Networks победитель использовал ColBERT для поиска и Falcon-7.5B с Phi-2 для генерации в паттерне RAG. Специализированные архитектуры по-прежнему имеют преимущества в конкретных задачах, и их комбинирование часто дает лучший результат, чем слепая вера в одну архитектуру.
Данные и предобработка
Хотя большинство обсуждений вращается вокруг моделей и архитектур, анализ победных решений показывает, что инновации в предобработке данных часто дают большее преимущество, чем улучшения в самих моделях. В ML-соревнованиях глубокое понимание структуры данных часто важнее, чем сложность модели.
Рост популярности Polars как альтернативы Pandas — не просто технический выбор. Причина явления проста: скорость и эффективность использования памяти. Когда вы работаете с большими объемами данных и сложными преобразованиями, эти факторы становятся критичными. Инвестируйте время в изучение более эффективных альтернатив для базовых операций.
Когда все используют одни и те же модели, преимущество получает тот, кто может быстрее итерироваться и обрабатывать больше данных за то же время.
Квантизация и оптимизация: нужные компромиссы
В соревнованиях участники сталкиваются с двумя основными ограничениями: стоимостью ресурсов для обучения и лимитами среды оценки при инференсе. Победители не просто принимают эти ограничения, а превращают их в стратегические решения.
Так, многие победители использовали квантизацию моделей (4-бит, 5-бит, 8-бит) для ускорения инференса и уменьшения требований к памяти.
Особенно показателен пример команды Numina из AIMO Progress Prize 1, которая отметила, что квантизация «привела к небольшому падению точности, но это компенсировалось возможностью генерировать множество кандидатов во время инференса». То есть лучше иметь множество «неплохих» прогонов, чем один «идеальный», но медленный.
Другой распространенный прием — использование адаптеров низкого ранга (LoRA) вместо полного дообучения. Победители ARC Prize применили как LoRA, так и 4-битную квантизацию при работе с моделью Mistral-NeMo-Minitron-8B. Это позволило им эффективно использовать ограниченную память GPU для модели с большим количеством параметров.

Однако не все победители идут по пути оптимизации. Та же команда Numina в другом случае отказалась от LoRA, потому что «не была уверена, что сможет достичь производительности полного дообучения без значительных экспериментов». Имея доступ к узлу 8x H100, они предпочли традиционное полное дообучение. Оптимизация — не самоцель, а средство адаптации к конкретным ограничениям.
Математика и рассуждения
В соревнованиях по математике и рассуждениям победители демонстрируют удивительную изобретательность в переосмыслении задач.
Рассмотрим три разных, но показательных решения:
Победители ARC Prize преобразовали двумерные сетки головоломок в одномерные последовательности токенов, что позволило использовать стандартные языковые модели для задачи, которая на первый взгляд требовала совершенно другого подхода.
Уже упомянутая Numina в AIMO Progress Prize сделала ставку на специализированную модель DeepSeekMath-Base-7B, изначально обученную для решения математических задач. Она дополнила это сбором сотен дополнительных математических проблем для валидации. Выбор базовой модели, предварительно обученной на задачах, близких к целевой, может оказаться решающим фактором.
В соревнованиях ICML 2024 AI4Math Workshop победители в основном использовали API языковых моделей, а не обучали собственные. Два из трех победных решения обращались к API GPT-4. Когда правила позволяют, использование API передовых моделей может быть более эффективным, чем разработка собственных решений с нуля.
Общая черта победителей в этой категории — стратегическое использование доступных и проверенных методов. Для задач такого типа качество и разнообразие обучающих примеров часто важнее архитектурных инноваций.
Вместо заключения: что стоит за ML-соревнованиями?
Обратили внимание, что в отчете почти не упоминаются GANs, которые гремели несколько лет назад? А задачи рекомендательных систем? Происходит естественный отбор не только решений, но и типов задач. Когда проблема становится «решенной» на уровне инженерии, она исчезает из соревнований — ведь ML-олимпиады это прежде всего полигон для нерешенных задач. В этом смысле соревнования — отличный индикатор переднего края исследований. Хотите понять, какие задачи еще не имеют устоявшихся решений? Просто посмотрите, за что предлагают большие призовые.
За фасадом ML-соревнований в целом скрывается любопытная экономика знаний и талантов. Многие победители Optiver Trading at the Close и подобных алготрейдинговых турниров получили работу в хедж-фондах с одним условием, ставшим стандартной практикой: подписать NDA и никогда публично не раскрывать детали своего подхода. Компании фактически инвестируют в призовой фонд вместо рекрутинговых агентств, превращая публичные соревнования в источник приватной экспертизы. Это создает интересный дисбаланс: чем ценнее находка, тем меньше шансов, что сообщество ее увидит.
В конечном счете, ML-соревнования — это особая форма коллективного интеллекта, продвигающая всю отрасль вперед. Да, они помогают проверить навыки и заработать призы, но также формируют стандарты того, что считается «хорошим решением» в конкретной области. Если вы до сих пор смотрели на них только как на спорт или способ заработка — попробуйте взглянуть на них иначе. За каждой победой стоит не только набор технических решений, но и вклад в эволюцию целой отрасли. А это уже, согласитесь, немного больше, чем просто строчка в резюме или дополнительные баллы на Kaggle.