Привет, Хабр! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Онлайн-Университета «Зерокодер», а также автор книги «Искусственный интеллект: путь к новому миру». Как можно понять, я интересуюсь нейросетями и разными сторонами их использования: читаю новости, научные работы, пишу статьи сам.

Сегодня я хочу рассказать о японском стартапе Sakana AI, который изобрел open-source фреймворк TreeQuest. Он позволяет использовать сразу несколько разных больших языковых моделей для того, чтобы получить более точный результат. 

Но начну я с голубей. 

Коллективный разум голубей-онкологов 

Оказывается, голуби могут отличать злокачественные опухоли от доброкачественных. Причем делают это с высокой точностью и даже в команде — и в команде, что характерно, им это удается лучше.

Исследование провела команда из Университета штата Айова. В роли подопытных — обычные сизые голуби, привычные всем нам жители улиц и голубятен. Им показывали гистологические срезы и маммограммы, а правильный ответ (рак или нет) подкрепляли едой — классическое оперантное обучение, только без слов, разметки и объяснений.

Через некоторое время отдельные птицы начали демонстрировать стабильную точность в 80–85% на новых изображениях. Более того, они обобщали знания — могли переносить навык на незнакомые снимки, не виденные во время обучения.

Однако ключевая находка ученых заключается в том, что групповая точность оказалась существенно выше индивидуальной.

Метод назвали flock-sourcing: если хотя бы несколько голубей в команде из четырех считали снимок злокачественным, система принимала это за сигнал «рак». Совместная точность взлетела до 99%, что существенно выше, чем у любого отдельного участника эксперимента (в среднем 0.73–0.85). Единственная зона, где птицы уступали, — это особо сложные маммограммы с тонкими массами, на которых даже опытные радиологи часто ошибаются.

Факт, что группа «неспециалистов» показывает результат, сравнимый с профессионалами, пусть и в узком сценарии — сам по себе интересен. Но еще важнее то, что коллективная перцепция (своеобразное «усредненное мнение») может использоваться в реальных задачах.

Например:

  • для оценки качества медицинских изображений,

  • как вспомогательный фильтр при тестировании систем визуализации,

  • или даже как аналог голосования в ансамблях нейросетей.

Исследование с голубями было первым из серии. Но спустя годы появились и работы, где коллективная точность используется уже в мире машинного обучения — с похожими результатами. А это наводит на мысли: возможно, нам стоит внимательнее присматриваться не только к архитектурам и метрикам, но и к «поведению в стае».

Ансамблевое обучение 

Ensemble learning, или ансамблевое обучение, — это подход в машинном обучении, при котором несколько моделей объединяются, чтобы получить более точный и устойчивый результат, чем каждая из них по отдельности. Принцип тот же, что и с голубями: групповое мнение надежнее индивидуального.

Как это работает на практике? Есть несколько методов. 

1. Бэггинг (bagging), при котором модели обучаются независимо на разных подвыборках данных. Классический пример — Random Forest: это много деревьев решений, каждое обучено на случайной части данных. Итоговый ответ — голосование (классификация) или усреднение (регрессия).

2. Бустинг (boosting) — модели обучаются последовательно: каждая новая старается исправить ошибки предыдущей. Самый известный пример — XGBoost или CatBoost. Здесь слабые модели (обычно деревья) «усиливают» друг друга.

3. Стекинг (stacking) — модели обучаются параллельно, а сверху добавляется мета-модель, которая учится на их выходах. Например: логистическая регрессия объединяет результаты SVM, дерева и нейросети.

Ансамбли работают, потому что разные модели совершают разные ошибки, эти самые ошибки сглаживаются при объединении, а сильные стороны отдельных моделей дополняют друг друга.

Это похоже на голосование экспертов: один может ошибиться, но если большинство согласно — итог будет надежнее.

TreeQuest: как модели перестали конкурировать и начали работать вместе

Именно механизм ансамблевого обучения решил использовать стартап Sakana AI из Японии. Тогда как большинство разработчиков LLM заняты примерно одним: сделать одну большую модель, которая умеет все — быстрее, точнее, глубже, Sakana AI предлагает другой подход: не соревноваться, а кооперироваться.

Они разработали алгоритм Adaptive Branching Monte Carlo Tree Search (AB‑MCTS), который позволяет нескольким крупным языковым моделям решать задачи совместно — как команда, где каждый агент вносит вклад. Этот алгоритм лежит в основе TreeQuest — нового open-source фреймворка, уже доступного под Apache 2.0.

Sakana AI считает, что у каждой LLM свои сильные стороны: одна лучше логически структурирует, другая — генерирует текст, третья — делает качественные обобщения. Вместо того чтобы пытаться создать единую «идеальную» модель, в TreeQuest задействуются разные LLM одновременно, как агенты в общем поиске решений.

Идеология проста: «Мы воспринимаем уникальные особенности каждой модели не как ограничения, а как ресурсы для формирования коллективного интеллекта».

Ключ — в том, на каком этапе объединяются модели. Здесь речь не о fine-tuning или pretraining, а о выводе (inference). Алгоритм AB‑MCTS организует поиск так:

  • одни агенты углубляют текущие гипотезы (поиск вглубь),

  • другие предлагают альтернативы (поиск вширь),

  • все это — с учетом предыдущих ответов, как в дереве решений.

Получается итеративный перебор вариантов с обратной связью между моделями. Каждая из них может использовать ответы других как подсказку и «догадать» решение.

Что показывает практика

TreeQuest протестировали на ARC‑AGI‑2 — бенчмарке для оценки «обобщающего интеллекта». Вариант с тремя моделями (o4‑mini + Gemini 2.5 Pro + DeepSeek‑R1‑0528) решил свыше 30% задач, в то время как одиночный o4‑mini справился только с 23%.

Интересные выводы:

  • o4‑mini ошибается,

  • DeepSeek и Gemini используют эту ошибку как частичную подсказку,

  • результат — корректное решение через пару итераций.

То есть неправильный ответ одной модели может стать топливом для правильного вывода у другой.

TreeQuest рассчитан на задачи, где нужно поэтапное, многошаговое решение, особенно в условиях ограниченного количества вызовов к API моделей. Примеры: автоматическая генерация и рефакторинг кода, улучшение точности ML-моделей через повторную интерпретацию данных, снижение галлюцинаций в генеративных системах, оптимизация вычислительных сервисов и пайплайнов.

Все это можно подключать через открытый API, с поддержкой кастомных метрик качества решений.

Интересная параллель: все это напоминает эксперименты с голубями, где стая определяла диагноз точнее, чем отдельные птицы. Здесь — та же история, но вместо голубей: ChatGPT, Gemini и DeepSeek.

Grok4 Heavy: как устроена «учебная группа» из нейросетей

Пока индустрия соревнуется в создании мощных универсальных моделей, в компании Илона МАска xAI решили пойти другим путем. Недавно они представили Grok4 Heavy — архитектуру, в которой нейросети работают не в одиночку, а кооперативно, как студенты, готовящиеся к экзамену в группе.

Результаты — впечатляющие: модель превзошла не только базовую Grok4, но и флагманские решения от OpenAI и Google на ряде бенчмарков. Но дело тут не просто в мощности, а в архитектурной идее, которая ближе к коллективному разуму, чем к классическому inference.

Grok4 Heavy запускает несколько агентов параллельно. Каждый решает задачу самостоятельно, без знания о подходах остальных. А затем начинается самое интересное:

  • агенты сравнивают свои выводы;

  • обмениваются идеями;

  • и коллективно формируют итоговый ответ.

Важно: это не просто голосование по большинству. Иногда только один агент находит правильный путь и объясняет его остальным. Это делает финальное решение не просто усредненным, а прошедшим внутреннюю интерпретацию и проверку.

По сути, Grok4 Heavy реализует механизм коллективной интерпретации: каждая модель дает свою версию решения, но итоговая версия — это результат диалога между ними.

Такая архитектура требует существенно больше вычислений на этапе вывода по сравнению с обычным запуском одной модели. Но xAI делает ставку на то, что качество важнее стоимости запроса, особенно в задачах, где цена ошибки высока: медицина, наука, робототехника.

С учетом того, что затраты на ИИ все ближе к стоимости электроэнергии, ставка выглядит оправданной.

Коллективные ИИ: новая парадигма

Grok4 Heavy и TreeQuest от Sakana AI — разные реализации одной идеи: отказ от одиночной «супермодели» в пользу взаимодействующей команды агентов.

В первом случае — координация внутри архитектуры, во втором — между разными внешними моделями (например, o4-mini, Gemini и DeepSeek).

Но вывод один: многоголовый интеллект работает. Причем в ряде задач он обходит одиночные модели, даже если каждая из них сильна сама по себе.

Такой подход открывает перспективы для гибких ИИ-систем, в которых:

  • разные модели специализируются на своих задачах: код, визуальный анализ, логика, язык;

  • они взаимодействуют, подсказывают и «проверяют» друг друга;

  • возникает новый тип надежности и адаптивности, особенно в нестабильных или междисциплинарных задачах.

На практике это может привести к архитектурам, где сложные инженерные задачи решаются «советом» моделей, автоматизированные ассистенты могут пересматривать свои же гипотезы и менять мнение, важные решения проходят не одну, а серии фильтраций и переосмыслений.

Пример с голубями, TreeQuest и Grok4 Heavy показывает: коллективный интеллект — не метафора, а рабочий технический механизм. Мы только начали его использовать в ИИ, но уже видим рост точности, устойчивости и контекстной гибкости.

Следующий шаг, судя по всему, — не создание еще одной «самой большой модели», а формирование среды, где разные модели могут учиться друг у друга. Как в природе у некоторых видов: выживает не тот, кто сильнее, а тот, кто способен работать в команде.

Комментарии (2)


  1. qiper
    31.07.2025 06:18

    Мне кажется, что мозг так и работает


  1. artest
    31.07.2025 06:18

    Мой субъективный взгляд на проблему, был описан в апреле: https://habr.com/ru/articles/905418/