Сегодня большие языковые модели добрались до уровня продвинутого эксперта в разных задачах. Чтобы повысить качество и надежность при децентрализованном использовании есть лишь вариант существенно увеличить их размер, но это затратно и не экономически эффективно.

Но есть выход из ситуации: ИИ‑рои — система из различных по архитектуре, знаниям и способностям моделей, которые дают ответы на каждый запрос. Кстати, коллективные решения часто превосходят индивидуальные. С другой стороны, результат мультиагентного большинства быстро стагнирует, теряя выигрыш в робастности и производительности по сравнению с единичной моделью. Современные мультиагентные системы также полагаются на большие LLM, обычно действуют в ограниченных сценариях.

Сравнение показателей производительности разных моделей.
Сравнение показателей производительности разных моделей.

В чём проблема?

Распределенные децентрализованные роевые ИИ-сети обеспечивают приватность, прозрачность, меньшую задержку и разнообразие моделей. Но их сложно построить из-за сетевых задержек и недоверия к другим участникам сети. К тому же, как и публичные блокчейны, такие сети страдают от Сybil-атак, а также экономических атак, делая менее надёжным их использование на практике. Особенно в открытых ИИ-сетях, где каждый может свободно участвовать.

Криптографические протоколы, такие как zero-knowledge proof или генерируемое доказательство («proof of generation»), позволяют пользователям получить ответ, не полагаясь ни на один отдельный узел, но они дорогие. Требуется более экономичный протокол, который может работать на всех задачах, обеспечивая при этом качество ведущих моделей, необходимую прозрачность, приватность и отказоустойчивость, будучи защищенным от византийских атак.

Да здравствует блокчейн

Исследователи представляют Fortytwo – отказоустойчивую систему управления роем ИИ, использующая парные сравнения, турнирную таблицу и экономику вычислений. Авторы рассматривают роль каждого участника сети как двойственную: с одной стороны, он может действовать как ИИ, предоставляя ответы, а с другой – как судья, измеряя качество предоставляемых коллегами решений в каждой задаче с помощью парных сравнений.

В основе агрегирования суждений лежит классическая вероятностная модель Брэдли-Терри, широко используемая в анализе спортивных соревнований, которая восстанавливает глобальный рейтинг предложенных решений на основе парных сравнений. В рамках этой модели естественным образом вводятся факторы, отражающие относительную компетентность мнений различных агентов, а конструктивные и деструктивные действия пользователей соответствующим образом отражаются в индивидуальной репутации того или иного участника.

Конкретные механизмы обновления репутации основаны на непосредственной согласованности и надежности голосов данного пользователя для каждой задачи. Каждый кандидат в защитники вводит краткую (50–100 токена) цепочку размышлений в ответ на «криптографически» выбранную пару ответов, созданную другими пользователями, и отфильтрованную, чтобы избежать любого перекрытия интересов.

Обновление глобального рейтинга проводится с помощью репутационно-взвешенной оценки Брэдли-Терри, чтобы повысить согласованность голосования. Цепочки рассуждений гарантируют, что оценка судьи прозрачна и может быть проанализирована на предмет причин изолированных или систематических ошибок или злоупотреблений. Метаданные могут храниться на блокчейне, чтобы иметь список недобросовестных участников и обеспечить как неизменяемость репутации, так и удобство использования.

Модульная архитектура самоконтролируемого вывода, демонстрирующая четыре ключевых компонента и их взаимодействие.
Модульная архитектура самоконтролируемого вывода, демонстрирующая четыре ключевых компонента и их взаимодействие.

В настоящее время большие ИИ-модели обычно нуждаются в высокой вычислительной мощности. Таким образом, можно взять на вооружение аналог вычислительной репутации из децентрализованных и блокчейн-сетей, такую как сквозной «compute-stake», чтобы оценить вложения участника и полученные им вознаграждения. Чтобы получить право голоса в распределении решений, участники должны продемонстрировать свои вычислительные возможности через «proof-of-capability», опробованные на различных тестовых задачах в интересующих их областях, таких как математика, кодирование и т.д.

Идея взвешивания компетентности пользователя согласуется как с теорией социального выбора, так и с анализом реальных данных оценок пользователей. Это делает Сybil-атаки экономически невыгодными, поскольку каждый сybil должен доказать свои способности по мировым задачам, что не по силам подавляющему большинству.

Эксперименты

В ходе экспериментов оценивалась производительность Fortytwo на различных задачах. На GPQA Diamond Fortytwo продемонстрировал значительный прирост по сравнению с простым большинством, давая 85,90 % против 68,69 % (относительный прирост ~ 25,1 %). На LiveCodeBench Fortytwo достиг 84,4 %, на MATH-500 — 99,6 %, а на наборах задач American Invitational Mathematics Examination (AIME), 2024 и 2025 соответственно — 100 % и 96.66 %.

Выводы

В целом, качественный выигрыш от увеличения размера роя сохраняет положительный эффект до достижения около 30 участников. Важно отметить, что Fortytwo постоянно превосходит простое большинство при всех рассмотренных размерах роев.

Таким образом, Fortytwo демонстрирует, что коллективное рассуждение множества независимых моделей способно превзойти даже самые большие монолитные ИИ-модели. Рой нейросетей становится не просто альтернативой централизованным системам, а ��овым способом организации вычислительного интеллекта — открытым, устойчивым и экономически сбалансированным.

Возможно, именно в подобных архитектурах — будущее искусственного интеллекта: не в одном сверхразумном гиганте, а в сети взаимодействующих умов, где истина рождается из множества суждений.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)