Индустрия давно ждёт от ИИ не только красивых ответов, но и действий: спланировать задачу, выбрать инструменты, исправить ошибки и довести дело до результата. Авторы LIMI (Less Is More for Intelligent Agency) предлагают смелую идею: чтобы «воспитать» агентность, не нужно тонуть в миллионах примеров. Важнее правильно собрать несколько десятков демонстраций того, как ИИ должен работать вместе с человеком и средой.

LIMI демонстрирует принцип «меньше — значит больше» для агентного интеллекта. Слева: 73,5% на AgencyBench, лучше всех базовых моделей. Справа: используя всего 78 обучающих примеров, LIMI показывает улучшение на 53,7% по сравнению с моделями, обученными на 10 000 примерах.
LIMI демонстрирует принцип «меньше — значит больше» для агентного интеллекта. Слева: 73,5% на AgencyBench, лучше всех базовых моделей. Справа: используя всего 78 обучающих примеров, LIMI показывает улучшение на 53,7% по сравнению с моделями, обученными на 10 000 примерах.

Почему «мало — это много»

Агентность — это не просто длинные рассуждения. Это умение брать на себя инициативу: видеть цель, строить план, корректировать курс по обратной связи, вызывать инструменты, держать контекст и доводить работу до результата. Авторы формулируют принцип эффективности агентности: стратегически отобранные, полные демонстрации автономного поведения учат этому лучше, чем большой датасет. В LIMI всего 78 таких эпизодов — и этого оказалось достаточно, чтобы модель уверенно обогнала куда более «сытых данными» конкурентов.

Как это работает

Команда сфокусировалась на двух типах задач, которые покрывают большую часть интеллектуальной работы:

  • совместная разработка ПО (vibe coding): разбор кода, навигация по проекту, вызов инструментов, дебаг, коммуникация;

  • исследовательские процессы: поиск литературы, анализ данных, дизайн экспериментов, интерпретация результатов и чёткая отчетность.

Каждый эпизод — это не один вопрос, а целая последовательность действий: план, шаги, вызовы инструментов, наблюдения среды, исправления после неудач, подтверждение успеха. Средняя длина такой записи — около 42 тыс. токенов. Плотность сигналов очень высокая: один запрос покрывает несколько взаимосвязанных подзадач.

Пример запроса пользователя: один запрос охватывает взаимосвязанные подзадачи (планирование, выполнение, сотрудничество), демонстрируя высокую плотность обучающих сигналов в качественных демонстрациях.
Пример запроса пользователя: один запрос охватывает взаимосвязанные подзадачи (планирование, выполнение, сотрудничество), демонстрируя высокую плотность обучающих сигналов в качественных демонстрациях.

Как собрали эти эпизоды

Источники запросов взяты из реальной практики разработчиков и исследователей, а также синтез из pull‑request’ов на GitHub (репозитории с высокой популярностью). GPT‑5 помогал превращать содержимое PR в чёткие и проверяемые задания для агента. Дальше включались 4 PhD‑аннотатора: в среде SII CLI они совместно с ИИ проходили всю задачу end‑to‑end, фиксируя каждый шаг, каждую попытку, каждую ошибку и её исправление. Получившийся набор — 78 тщательно отобранных запросов и их полных»траекторий.

Конвейер построения данных LIMI. Слева: формирование пула пользовательских запросов через синтез PR на GitHub и сбор реальных запросов с проверкой качества. Справа: сбор траекторий в рамках совместной работы человека и ИИ в CLI-среде SII, с фиксацией полных последовательностей взаимодействий.
Конвейер построения данных LIMI. Слева: формирование пула пользовательских запросов через синтез PR на GitHub и сбор реальных запросов с проверкой качества. Справа: сбор траекторий в рамках совместной работы человека и ИИ в CLI-среде SII, с фиксацией полных последовательностей взаимодействий.

Что получилось на практике

На AgencyBench LIMI показывает 73,5% в среднем, заметно опережая сильные базовые модели: Kimi‑K2‑Instruct (24,1%), DeepSeek‑V3.1 (11,9%), Qwen3‑235B‑A22B‑Instruct (27,5%) и саму базу GLM‑4.5 (45,1%). Ключевой момент — эффективность данных: против модели, обученной на 10 000 примеров, LIMI даёт относительное улучшение на 53,7%, используя данных в 128 раз меньше.

За пределами основного бенчмарка картина сохраняется: на обобщающих наборах LIMI в среднем даёт 57,2%, обгоняя базовую GLM‑4.5 (43,0%). Рост есть и без инструментов (только «внутренняя логика»), а с SII CLI результат дополнительно поднимается за счёт лучшей оркестрации инструментов.

Характеристики обучающих данных LIMI. Слева: распределение длины траекторий, отражающее сложность взаимодействий (в среднем 42,4 тыс. токенов). Справа: охват доменов в «vibe coding» и исследовательских рабочих процессах.
Характеристики обучающих данных LIMI. Слева: распределение длины траекторий, отражающее сложность взаимодействий (в среднем 42,4 тыс. токенов). Справа: охват доменов в «vibe coding» и исследовательских рабочих процессах.

Почему это важно для индустрии

Во многих компаниях уже есть LLM‑сервисы, но переход к настоящим агентам буксует: слишком много пробелов между задачей, инструментами, логами, проверкой прогресса. LIMI показывает рабочий рецепт:

  • уменьшить объём, но резко повысить качество демонстраций;

  • записывать полные траектории в реальной среде;

  • курировать кейсы, где агент не только говорит, но и делает;

  • учить модель видеть цель, планировать и исправляться — то есть развивать модель мира и навыки управления действием во времени.

Главная идея исследования проста: бессмысленно просто насыпать больше данных. Если цель — агентность, данные должны быть отобраны строго по существу задачи. Важна последовательность действий, точки принятия решений, обратная связь среды и финальные критерии успеха. Такой сдвиг помогает переносить целые навыки.

Стоит ожидать, что индустрия будет активнее записывать траектории реальных рабочих процессов: не просто промты и ответы, а детальные шаги, инструменты, логи, проверки и выходы из тупиков. Это подталкивает нас к более ответственному дизайну мультиагентных систем и к более бережному отношению к данным: можно добиться больше, тщательно собирая меньше.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)