Привет, Хабр! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Онлайн-Университета «Зерокодер», а также автор книги «Искусственный интеллект: путь к новому миру». Как можно понять, я интересуюсь нейросетями и разными сторонами их использования: читаю новости, научные работы, пишу статьи сам.
Сегодня я хочу рассказать о японском стартапе Sakana AI, который изобрел open-source фреймворк TreeQuest. Он позволяет использовать сразу несколько разных больших языковых моделей для того, чтобы получить более точный результат.
Но начну я с голубей.
Коллективный разум голубей-онкологов
Оказывается, голуби могут отличать злокачественные опухоли от доброкачественных. Причем делают это с высокой точностью и даже в команде — и в команде, что характерно, им это удается лучше.
Исследование провела команда из Университета штата Айова. В роли подопытных — обычные сизые голуби, привычные всем нам жители улиц и голубятен. Им показывали гистологические срезы и маммограммы, а правильный ответ (рак или нет) подкрепляли едой — классическое оперантное обучение, только без слов, разметки и объяснений.
Через некоторое время отдельные птицы начали демонстрировать стабильную точность в 80–85% на новых изображениях. Более того, они обобщали знания — могли переносить навык на незнакомые снимки, не виденные во время обучения.
Однако ключевая находка ученых заключается в том, что групповая точность оказалась существенно выше индивидуальной.
Метод назвали flock-sourcing: если хотя бы несколько голубей в команде из четырех считали снимок злокачественным, система принимала это за сигнал «рак». Совместная точность взлетела до 99%, что существенно выше, чем у любого отдельного участника эксперимента (в среднем 0.73–0.85). Единственная зона, где птицы уступали, — это особо сложные маммограммы с тонкими массами, на которых даже опытные радиологи часто ошибаются.
Факт, что группа «неспециалистов» показывает результат, сравнимый с профессионалами, пусть и в узком сценарии — сам по себе интересен. Но еще важнее то, что коллективная перцепция (своеобразное «усредненное мнение») может использоваться в реальных задачах.
Например:
для оценки качества медицинских изображений,
как вспомогательный фильтр при тестировании систем визуализации,
или даже как аналог голосования в ансамблях нейросетей.
Исследование с голубями было первым из серии. Но спустя годы появились и работы, где коллективная точность используется уже в мире машинного обучения — с похожими результатами. А это наводит на мысли: возможно, нам стоит внимательнее присматриваться не только к архитектурам и метрикам, но и к «поведению в стае».
Ансамблевое обучение
Ensemble learning, или ансамблевое обучение, — это подход в машинном обучении, при котором несколько моделей объединяются, чтобы получить более точный и устойчивый результат, чем каждая из них по отдельности. Принцип тот же, что и с голубями: групповое мнение надежнее индивидуального.
Как это работает на практике? Есть несколько методов.
1. Бэггинг (bagging), при котором модели обучаются независимо на разных подвыборках данных. Классический пример — Random Forest: это много деревьев решений, каждое обучено на случайной части данных. Итоговый ответ — голосование (классификация) или усреднение (регрессия).
2. Бустинг (boosting) — модели обучаются последовательно: каждая новая старается исправить ошибки предыдущей. Самый известный пример — XGBoost или CatBoost. Здесь слабые модели (обычно деревья) «усиливают» друг друга.
3. Стекинг (stacking) — модели обучаются параллельно, а сверху добавляется мета-модель, которая учится на их выходах. Например: логистическая регрессия объединяет результаты SVM, дерева и нейросети.
Ансамбли работают, потому что разные модели совершают разные ошибки, эти самые ошибки сглаживаются при объединении, а сильные стороны отдельных моделей дополняют друг друга.
Это похоже на голосование экспертов: один может ошибиться, но если большинство согласно — итог будет надежнее.
TreeQuest: как модели перестали конкурировать и начали работать вместе
Именно механизм ансамблевого обучения решил использовать стартап Sakana AI из Японии. Тогда как большинство разработчиков LLM заняты примерно одним: сделать одну большую модель, которая умеет все — быстрее, точнее, глубже, Sakana AI предлагает другой подход: не соревноваться, а кооперироваться.
Они разработали алгоритм Adaptive Branching Monte Carlo Tree Search (AB‑MCTS), который позволяет нескольким крупным языковым моделям решать задачи совместно — как команда, где каждый агент вносит вклад. Этот алгоритм лежит в основе TreeQuest — нового open-source фреймворка, уже доступного под Apache 2.0.
Sakana AI считает, что у каждой LLM свои сильные стороны: одна лучше логически структурирует, другая — генерирует текст, третья — делает качественные обобщения. Вместо того чтобы пытаться создать единую «идеальную» модель, в TreeQuest задействуются разные LLM одновременно, как агенты в общем поиске решений.
Идеология проста: «Мы воспринимаем уникальные особенности каждой модели не как ограничения, а как ресурсы для формирования коллективного интеллекта».
Ключ — в том, на каком этапе объединяются модели. Здесь речь не о fine-tuning или pretraining, а о выводе (inference). Алгоритм AB‑MCTS организует поиск так:
одни агенты углубляют текущие гипотезы (поиск вглубь),
другие предлагают альтернативы (поиск вширь),
все это — с учетом предыдущих ответов, как в дереве решений.
Получается итеративный перебор вариантов с обратной связью между моделями. Каждая из них может использовать ответы других как подсказку и «догадать» решение.
Что показывает практика
TreeQuest протестировали на ARC‑AGI‑2 — бенчмарке для оценки «обобщающего интеллекта». Вариант с тремя моделями (o4‑mini + Gemini 2.5 Pro + DeepSeek‑R1‑0528) решил свыше 30% задач, в то время как одиночный o4‑mini справился только с 23%.
Интересные выводы:
o4‑mini ошибается,
DeepSeek и Gemini используют эту ошибку как частичную подсказку,
результат — корректное решение через пару итераций.
То есть неправильный ответ одной модели может стать топливом для правильного вывода у другой.
TreeQuest рассчитан на задачи, где нужно поэтапное, многошаговое решение, особенно в условиях ограниченного количества вызовов к API моделей. Примеры: автоматическая генерация и рефакторинг кода, улучшение точности ML-моделей через повторную интерпретацию данных, снижение галлюцинаций в генеративных системах, оптимизация вычислительных сервисов и пайплайнов.
Все это можно подключать через открытый API, с поддержкой кастомных метрик качества решений.
Интересная параллель: все это напоминает эксперименты с голубями, где стая определяла диагноз точнее, чем отдельные птицы. Здесь — та же история, но вместо голубей: ChatGPT, Gemini и DeepSeek.
Grok4 Heavy: как устроена «учебная группа» из нейросетей
Пока индустрия соревнуется в создании мощных универсальных моделей, в компании Илона МАска xAI решили пойти другим путем. Недавно они представили Grok4 Heavy — архитектуру, в которой нейросети работают не в одиночку, а кооперативно, как студенты, готовящиеся к экзамену в группе.
Результаты — впечатляющие: модель превзошла не только базовую Grok4, но и флагманские решения от OpenAI и Google на ряде бенчмарков. Но дело тут не просто в мощности, а в архитектурной идее, которая ближе к коллективному разуму, чем к классическому inference.

Grok4 Heavy запускает несколько агентов параллельно. Каждый решает задачу самостоятельно, без знания о подходах остальных. А затем начинается самое интересное:
агенты сравнивают свои выводы;
обмениваются идеями;
и коллективно формируют итоговый ответ.
Важно: это не просто голосование по большинству. Иногда только один агент находит правильный путь и объясняет его остальным. Это делает финальное решение не просто усредненным, а прошедшим внутреннюю интерпретацию и проверку.
По сути, Grok4 Heavy реализует механизм коллективной интерпретации: каждая модель дает свою версию решения, но итоговая версия — это результат диалога между ними.
Такая архитектура требует существенно больше вычислений на этапе вывода по сравнению с обычным запуском одной модели. Но xAI делает ставку на то, что качество важнее стоимости запроса, особенно в задачах, где цена ошибки высока: медицина, наука, робототехника.
С учетом того, что затраты на ИИ все ближе к стоимости электроэнергии, ставка выглядит оправданной.
Коллективные ИИ: новая парадигма
Grok4 Heavy и TreeQuest от Sakana AI — разные реализации одной идеи: отказ от одиночной «супермодели» в пользу взаимодействующей команды агентов.
В первом случае — координация внутри архитектуры, во втором — между разными внешними моделями (например, o4-mini, Gemini и DeepSeek).
Но вывод один: многоголовый интеллект работает. Причем в ряде задач он обходит одиночные модели, даже если каждая из них сильна сама по себе.
Такой подход открывает перспективы для гибких ИИ-систем, в которых:
разные модели специализируются на своих задачах: код, визуальный анализ, логика, язык;
они взаимодействуют, подсказывают и «проверяют» друг друга;
возникает новый тип надежности и адаптивности, особенно в нестабильных или междисциплинарных задачах.
На практике это может привести к архитектурам, где сложные инженерные задачи решаются «советом» моделей, автоматизированные ассистенты могут пересматривать свои же гипотезы и менять мнение, важные решения проходят не одну, а серии фильтраций и переосмыслений.
Пример с голубями, TreeQuest и Grok4 Heavy показывает: коллективный интеллект — не метафора, а рабочий технический механизм. Мы только начали его использовать в ИИ, но уже видим рост точности, устойчивости и контекстной гибкости.
Следующий шаг, судя по всему, — не создание еще одной «самой большой модели», а формирование среды, где разные модели могут учиться друг у друга. Как в природе у некоторых видов: выживает не тот, кто сильнее, а тот, кто способен работать в команде.
Комментарии (2)
artest
31.07.2025 06:18Мой субъективный взгляд на проблему, был описан в апреле: https://habr.com/ru/articles/905418/
qiper
Мне кажется, что мозг так и работает