Хабр, привет! Меня зовут Вика Дочкина, я работаю в Сбере и пишу диссертацию на тему автономных AI-систем.

Роли, отделы, департаменты, иерархии, должностные инструкции, процессы — всё это придумано для людей. Для нас: с одной специализацией (реже - несколькими), 8 часами продуктивности в день, невозможностью удержать в голове контекст всей организации и месяцами на смену профессии.

У LLM-агента ни одного из этих ограничений нет. Он мгновенно меняет специализацию. Он видит полный контекст. Он не потребляет ресурсы, когда не работает. Зачем тогда переносить на него человеческую оргструктуру?

Мы 6 месяцев проверяли эту гипотезу. 25 000 задач. 8 моделей. До 256 агентов. Больше миллиарда токенов.

Результат: назначать роли и выстраивать иерархии для ИИ-агентов — антипаттерн. Система, где агенты сами решают кем быть, превосходит систему с внешним координатором на 14% (p < 0.001). И чем сильнее модель — тем больше автономии она может себе позволить. Мы наблюдаем начало тренда, который может изменить сам подход к проектированию AI-организаций будущего.

Что вы узнаете из этой статьи:

  • Почему система без назначенных ролей работает лучше, чем с координатором

  • Как 8 агентов изобрели 5 006 уникальных специализаций — и ни одна не повторилась дважды в 54% случаев

  • Зачем агенты добровольно отказываются от задач — и почему это повышает качество

  • Какие свойства модели определяют, способна ли она к самоорганизации

  • Что это значит для тех, кто строит мультиагентные системы прямо сейчас

Препринт: arXiv:2603.28990


Масштаб эксперимента

Задач

25 000+

Моделей

8 — Claude, GPT-5.4, GPT-4o, GPT-4.1-mini, DeepSeek v3.2, GLM-5, Gemini-3-flash, GigaChat 2 Max

Агентов

от 4 до 256

Протоколов

8 (4 основных + 4 биоинспирированных)

Сложность задач

4 уровня — от «проверь API» до «CEO vs Legal vs CFO»

Токенов

>1 млрд

Качество каждого решения оценивала независимая модель-судья по 5 критериям (точность, полнота, связность, применимость, соответствие миссии). Итоговая метрика Q — от 0.25 до 1.0. Чем выше, тем лучше.


Как улучшать AI-агентов: вертикально и горизонтально

Сейчас в области AI-агентов активно развиваются два направления:

Вертикальное — как сделать каждого агента сильнее. Сюда относятся самосовершенствующиеся системы вроде Hyperagents, Ouroboros, EvoAgent, ADAS — агент рекурсивно улучшает сам себя.

Горизонтальное — как группа агентов координируется вместе. Не один агент становится умнее, а многие агенты начинают работать как единое целое.

Наше исследование затрагивает оба направления — мы тестировали в том числе эволюционные алгоритмы и биоинспирированные протоколы — но основной фокус на горизонтальной координации. Направления дополняют друг друга: чем сильнее каждый агент, тем больше он выигрывает от самоорганизующихся протоколов.


Четыре способа организовать команду агентов

Главная переменная — как агенты общаются. Модель, задачи, количество — одинаковые.

? Coordinator (координатор): Агент-0 анализирует задачу, назначает роли остальным, они выполняют параллельно.

? Sequential (конвейер): Агенты работают по очереди. Каждый видит, что конкретно сделали предыдущие, и сам решает — кем быть и стоит ли вообще участвовать.

? Broadcast (сигнальный): Все объявляют намерения, потом корректируют с учётом друг друга.

? Shared (независимый): Общая память, полная независимость, одновременные решения.

Сравнение: Самоорганизация vs Координатор
Сравнение: Самоорганизация vs Координатор

GIF: Слева — самоорганизация (Sequential, Q=0.938): агенты формируют распределённую сеть. Справа — координатор (Q=0.812): Agent 0 — центральный хаб, единая точка отказа


Результат: самоорганизация уже работает

Протокол

Качество Q

? Sequential

0.724

? Coordinator

0.640

? Broadcast

0.510

? Shared

0.503

N=8, GPT-4.1-mini. Разница между лучшим и худшим: 44%, Cohen’s d = 1.86

При масштабировании (N=16, Claude, сложные задачи):

  • Sequential: Q = 0.875

  • Coordinator: Q = 0.767 (+14%, p < 0.001)

Сравнение протоколов
Сравнение протоколов

Сравнение качества по четырём протоколам: пилот (N=8) и масштаб (N=16, Claude)

А вот как это выглядит изнутри — гифка Sequential-протокола на задаче L3:

Sequential в действии
Sequential в действии

GIF: Самоорганизация (Sequential) — агенты формируют роли, распределяют задачи, 15 из 16 участвуют, 1 воздержался

Для сравнения — тот же эксперимент с координатором:

Coordinator в действии
Coordinator в действии

GIF: Координатор (Coordinator) — Agent 0 раздаёт роли, все связи идут через него

Почему Sequential побеждает?

Дело в типе информации. Каждый агент видит факт — что конкретно уже сделано. Не чьи-то намерения (Broadcast — могут измениться). Не историю прошлых задач (Shared — может быть нерелевантна). Не план одного координатора (Coordinator — может ошибиться). А реальные завершённые результаты предшественников.


5 006 уникальных ролей у 8 агентов

Это число, которое удивило нас больше всего.

8 агентов. Несколько сотен задач. И они изобрели 5 006 уникальных названий ролей. При 64 агентах — 5 010 (разница 0.1%!). 54% ролей использованы ровно один раз.

Агенты не «специализируются». Они каждый раз заново определяют свою функцию исходя из контекста задачи.

Heatmap ролей — анимация
Heatmap ролей — анимация

GIF: Слева — Sequential (каждый цвет = уникальная роль, Q=0.938). Справа — Coordinator (Agent 0 всегда красный «координатор», Q=0.812). Роли в Sequential меняются каждую задачу

LLM-агент не ограничен телом, фиксированными навыками, когнитивными лимитами. Зачем ограничивать его назначенной ролью?


Умный агент знает, когда промолчать

В Sequential 38 из 60 неактивных агентов отказались от участия добровольно: «Всё ключевое уже покрыто, я не могу добавить ценности». В Coordinator все 60 были отстранены решением координатора.

И вот что важно: система, где агенты сами молчат, работает лучше (Q = 0.875), чем система, где за них решает координатор (Q = 0.767).

Самоотвод
Самоотвод

*Система сама определяют необходимое количество и состав агентов для решения задачи

Claude отказывается от 8.6% задач — осознанно. Это оптимальный уровень.

В обычной компании сотрудник в простое продолжает получать зарплату. Или, что хуже, «придумывает себе работу». Агент, решивший не участвовать, не тратит ни одного токена.


Масштабирование: 256 агентов, качество не падает

N

Качество Q

Стоимость

8

0.954

3 164 токена

64

0.949

3 537 токенов

256

0.967

При 8-кратном росте стоимость выросла на 11.8%. Качество — в пределах шума (p=0.61 для 64→256). При N=256 ~45% агентов уходят в самоотвод — система сама оптимизирует расходы.

Масштабирование
Масштабирование

Качество стабильно при росте от 8 до 64 агентов, стоимость растёт лишь на 11.8%


DeepSeek = 95% Claude за 1/24 цены

Модель

Q (сложные задачи)

Стоимость

Claude Sonnet 4.6

0.875

$$$

DeepSeek v3.2

0.829

~$$$/24

GLM-5

0.800

~$$$/20

На состязательных задачах (CEO vs Legal vs CFO) DeepSeek даже обгоняет Claude: +6.0%.

Соответствие миссии: 4.00 из 4.00 у обоих. Агенты работают на цель.

Сравнение всех 8 моделей
Сравнение всех 8 моделей

*сложность задачи vs сила модели


Чем сильнее модель — тем больше автономии

Мы наблюдаем чёткий тренд: степень автономии, которую система может себе позволить, растёт вместе со способностями модели.

Модель

При автономии

При фиксированных ролях

Тренд

Claude

Q = 0.594 (лучше +3.5%)

Q = 0.574

Автономия уже помогает

GLM-5

Q = 0.519

Q = 0.574 (лучше +10.6%)

Пока нужна структура

Claude уже выигрывает от свободы. GLM-5 пока нет — но с каждым поколением моделей порог самоорганизации снижается. Sequential — это не потолок автономии, а ступенька: минимальный каркас (очерёдность), внутри которого агенты уже полностью свободны в выборе ролей, участия и стратегии.

Какие свойства модели определяют способность к самоорганизации?

  • Reasoning — способность выстраивать цепочки рассуждений, а не давать поверхностный ответ

  • Self-reflection — способность оценить собственную компетентность и вовремя отказаться от задачи (Claude: 8.6% осознанных самоотводов, GLM-5: 0.8%)

  • Instruction following — точное следование протоколу координации на каждой итерации

  • Structured output — стабильная генерация в заданном формате без потери структуры после нескольких раундов

Модели, у которых эти свойства развиты (Claude, DeepSeek), успешно самоорганизуются. Модели без них — нуждаются во внешней структуре.

По мере того как модели становятся сильнее по всем четырём осям, им нужно всё меньше внешней структуры. Sequential — первый работающий протокол самоорганизации. Следующие поколения моделей смогут больше.


Сложность задач: система сама углубляет иерархию

Качество падает от L1 к L4 (−37.7%), но иерархия спонтанно углубляется: 1.22 → 1.56

L3 vs L4
L3 vs L4

GIF: Как выглядит Sequential на задачах разной сложности — L3 (многоэтапная) vs L4 (состязательная)

Чем сложнее задача, тем глубже структуру выстраивают агенты — без внешних инструкций. Система адаптируется к сложности сама.


Три ингредиента

25 000 задач. 8 моделей. 256 агентов. 8 протоколов. Рецепт:

① Миссия — зачем система существует. Mission Relevance = 4.00/4.00 у лучших моделей при самоорганизации.

② Протокол — как агенты обмениваются информацией. Sequential побеждает Coordinator на 14%.

③ Сильная модель — без неё протокол не раскрывается. Разрыв между моделями — до 174%.

Ни один из трёх пунктов — не «назначь агенту роль». Агент в самоорганизующейся системе — не сотрудник с должностью, а инструмент, который система создаёт, настраивает и использует (или не использует) под конкретную задачу.


Конституция AI-организации

Самоорганизация работает лучше всего с минимальными, но чёткими границами. Sequential — пример: одно простое ограничение (очерёдность) раскрывает полный потенциал автономии агентов (Q=0.875).

? Ядро — миссия, ценности. Только человек. ? Стандарты — метрики, аудит. Человек + система. ? Протоколы — тактические параметры. Полная автономия с A/B тестами.

Принцип: чем ближе к «зачем» — тем больше человека. Чем ближе к «как» — тем больше автономии.


Что делать прямо сейчас

  1. Не назначайте роли. 5 006 уникальных ролей у 8 агентов — агенты находят лучшие роли, чем вы можете придумать.

  2. Используйте Sequential. Агенты по очереди, каждый видит результаты предыдущих. ~50 строк кода. +14% качества.

  3. Масштабируйте моделью, не агентами. 64→256 не даёт прироста. Разница между моделями — до 174%.

  4. Комбинируйте модели. DeepSeek для L1–L2, Claude для L3–L4. 95% качества за 1/24 цены.

  5. Разрешите агентам отказываться. Агент, который знает, когда промолчать — ценнее, чем тот, кто всегда отвечает.


Что дальше

Прямо сейчас мы тестируем результаты этого эксперимента на реальной бизнес-задаче — переносим Sequential-протокол и принципы самоорганизации из лаборатории в рабочий контур. Через 3 месяца расскажем: какие из этих выводов подтвердились «в бою», что пришлось адаптировать, и что нового мы обнаружили, когда агенты встретились с настоящими данными и реальными ограничениями.

Подписывайтесь, чтобы не пропустить продолжение.


Ссылки


Это часть кандидатской диссертации в МФТИ. Вопросы, критика, запросы на код — в комментарии.

Теги: машинное обучение, искусственный интеллект, LLM, мультиагентные системы, самоорганизация, AI agents, DeepSeek, Claude, GPT, координация

Комментарии (21)


  1. altmf
    31.03.2026 01:37

    Расскажите, пожалуйста, подробнее о некоторых моментах:

    1. На каких конкретно задачах вы проводили эксперимент?

    2. Как именно агенты сами назначали себе роли или выбирали специализации? И как в вашем понимании соотносятся роль и специализация? Вот представим, что перед многоагентной системой читателей Хабра поставлена задача прокомментировать вашу статью. Нам конечно можно назначить роли рецензентов/комментаторов/советчиков/критиков/эксперт и т.д., но в моем представлении каждый придет со своим набором знаний и даст комментарий из которого и будет выведена специализация: но как назвать эту конкретную специализацию, есть ли у нее имя? Не окажемся ли мы просто комментаторами с разными специализациями (злой/добрый/компетентный/въедливый/специализирующийся на чем-то комментатор) В вашем случае как именуются и различаются между собой все 5006 специализаций? Не является ли роль просто более общим по отношению к специализации понятием?

    3. Как агенты определяют, что им надо отказаться от какой-либо задачи?

    4. Нет ли проблем с ростом контекста для каждого агента? В моем понимании в задачи координатора как раз входит недопущение неконтролируемого роста контекста.


    1. dochkinavika Автор
      31.03.2026 01:37

      Спасибо за вопросы — в точку!) По порядку:

      1) Решали четыре уровня сложности задач. L1 — одна область, 3–5 шагов (например, разработка API). L2 — два домена, интеграция знаний (например, провести финансовый анализ + анализ рисков). L3 — 3+ домена, 10–20 шагов с зависимостями (например, разработать end-to-end ИТ-продукт с backend+frontend+обвзяка, на выходе выдать готовый продукт). L4 — состязательные: конфликтующие интересы стейкхолдеров, неполная информация, нет единственно верного ответа (CEO vs Legal vs CFO за бюджет), задачи на исследование / R&D. Задачи сгенерированы сильной LLM (Claude/GPT-5+) синтетически для контролируемого сравнения — это ограничение исследования, и мы его признаём. Сейчас тестируем на нескольких реальных бизнес-задачах.

      2) Роли и специализации. Ваша аналогия с комментаторами Хабра — точная) Именно это и происходит. Агент получает в промпте задачу + результаты предшественников (в Sequential) и сам решает, как себя назвать и что делать. Никакого списка ролей ему не даётся. Пример реальных самоназванных ролей на одной L3-задаче: «Regulatory Compliance Architect», «Cross-System Integration Strategist», «Adversarial Risk Analyst». На другой задаче те же агенты назвали себя совершенно иначе. Является ли роль более общим понятием, чем специализация? В нашем эксперименте — нет, потому что агенты не выбирают из каталога. Они каждый раз изобретают функцию под конкретную задачу. 5 006 уникальных названий — это не таксономия, а 5 006 уникальных строк, сгенерированных агентами. 54% из них встречаются ровно один раз. Я бы даже сказала, что «ролей не существует, это функция момента. Агент просто решает задачу.» Это ближе к тому, как если бы каждый ваш комментатор не просто был «злым» или «добрым», а описал бы свою позицию как «человек, который 10 лет строил API-шлюзы и видит тут конкретную проблему с rate limiting» — и для следующей статьи описал бы себя совершенно иначе. Так что в нашем случае «роль» и «специализация» — это одно и то же: функция, которую агент создаёт под задачу и которая перестаёт существовать после её завершения.

      3) Как агент решает отказаться? Это следствие промпта и, предположительно, способности модели к саморефлексии (self-reflection). Агент видит, что уже сделали предыдущие, и если не может добавить ценности — пишет отказ. Мы не программируем заранее ни порог, ни правило. Claude делает это в 8.6% случаев и попадает в оптимум. Слабые модели либо не отказываются вообще, либо отказываются слишком часто — и то, и другое снижает качество.

      4) Рост контекста. Да, абсолютно так. В Sequential контекст растёт линейно: каждый следующий агент видит выходы всех предыдущих. При N=16 это управляемо, при N=256 — потенциальная проблема. На практике два механизма сдерживают рост: (1) самоотвод ~45% агентов при больших N сокращает объём контента, (2) выходы предшественников передаются в сжатом виде. Но вы правы — при O(N) это узкое место, и batched sequential (группы по K агентов параллельно) — следующий шаг. P.S. Спасибо за идею — сделаю в статье отдельный раздел про вызовы таких протоколов.


      1. dkfbm
        31.03.2026 01:37

        Architect», «Cross-System Integration Strategist», «Adversarial Risk Analyst».

        Мне кажется, это вообще не предмет исследования, и уж тем более, не повод заключить, что агенты выбирают себе роли лучше, чем могли бы им назначить мы. Вы видели же, как клод описывает свои действия в процессе работы? У меня впечатление, что он порой просто несуществующие слова выдумывает. Например, как-то он у меня довольно долго висел с сообщением, извините, Ebbing.... Подозреваю, с этими именами ролей то же самое: он выдумывает на ходу красивое словосочетание, а уж насколько оно отражает суть деятельности – не столь важно для результата.

        Я бы даже сказала, что «ролей не существует, это функция момента.

        Именно. Поэтому вряд ли стоит делать какие-либо выводы из количества одномоментно выдуманных названий.


        1. dochkinavika Автор
          31.03.2026 01:37

          Так да, абсолютно, это и пытаюсь сказать) солидарна со всем


  1. Ravius
    31.03.2026 01:37

    Лучше всего работает опенсоурс, а не мифические статьи в вакууме.

    Недавно наткнулся на gstack - который сломал теорию как нужно писать промпты, там скиллы с чеклистами на пару томов. Работает идеально.

    Статья прям от агента - проделано много работы, а толку.


    1. dochkinavika Автор
      31.03.2026 01:37

      Спасибо за комментарий! Кажется, мы про разное.

      Статья не про промпты и не про то, как запускать одного агента. Она про координацию — как группа из 4–256 агентов решает задачу вместе, и какой протокол взаимодействия даёт лучший результат. 25 000 задач, 8 моделей, статистика — это как раз попытка выйти из вакуума и проверить гипотезы на данных.

      Если у вас есть опыт координации нескольких агентов через gstack — было бы интересно сравнить подходы.


      1. kuza2000
        31.03.2026 01:37

        Так без системного промпта агент вообще ничего не сделает. Нет запроса - нет ответа. Прочитал статью, но так и не понял устройство эксперимента. Вообще не понял, для меня ценность этой статьи - нулевая.

        Как ставится задача? Где находится ее постановка? В общем хранилище?

        Через что взаимодействуют агенты? Как они видят процесс, действия других агентов?

        Куда пишется результат?

        Как устроен системный промпт агента, по которому он начинает действовать?

        Какие задачи ставились (примеры)?


        1. dochkinavika Автор
          31.03.2026 01:37

          Для нулевой ценности — неплохой список вопросов :)) Отвечу по порядку.

          1. Как ставится задача?
            Задача приходит в промпте каждому агенту. В Sequential — вместе с результатами всех предыдущих агентов. В Coordinator — вместе с назначенной ролью от агента-координатора. В Shared — вместе с историей из общей памяти.

          2. Через что взаимодействуют агенты?
            Между агентами стоит тонкий транспортный слой — Python-скрипт, который передаёт выходы между агентами по правилам протокола. Он не принимает никаких решений — не назначает роли, не фильтрует агентов, не выбирает порядок действий. Это просто "почтальон". Все содержательные решения (кем быть, участвовать ли, что делать) принимают сами агенты.

          3. Как агент видит действия других?
            Зависит от протокола — в этом и суть эксперимента. Sequential: видит завершённые результаты предшественников. Broadcast: видит намерения всех. Shared: видит историю прошлых задач. Coordinator: видит только назначение от координатора. Сравнение этих вариантов — часть проведённой работы.

          4. Куда пишется результат?
            Каждый агент возвращает структурированный JSON (выбранная роль, решение, обоснование). Результаты агрегируются, затем независимая модель-судья оценивает итоговое решение по 5 критериям. Некоторые промежуточные решения могут быть сохранены в БД.

          5. Системный промпт.
            Содержит миссию, видение и долгосрочные цели организации, описание протокола (правила взаимодействия), формат ответа. Не содержит назначенной роли — агент выбирает специализацию сам, исходя из контекста. Возможно, в рамках продолжения исследования опубликую промпты вместе с кодом.

          6. Примеры задач.
            L1: «Разработать безопасный API-эндпоинт: аутентификация, rate limiting, валидация входных данных». L2 — два домена, интеграция знаний (например, провести анализ - фин.анализ+анализ рисков). L3 — 3+ домена, 10–20 шагов с зависимостями (например - 1) разработать end-to-end ИТ-продукт - с backend, fontend), 2) Спланировать миграцию организации на zero-trust: архитектура сети → IAM → compliance для 3 регуляторов → бюджет и сроки»). L4 — состязательные: конфликтующие интересы стейкхолдеров, неполная информация, нет единственно верного ответа. Например: «CEO требует запуск за 6 недель, Legal настаивает на 6-месячной проверке compliance, CFO требует сократить бюджет на 30%. Найдите решение». Также задачи на исследование и R&D. Про ограничения и планы написала в ответе на комментарий выше.


          1. kuza2000
            31.03.2026 01:37

            Вот это уже намного интереснее, и статья становится понятнее, спасибо)


        1. dkfbm
          31.03.2026 01:37

          Так без системного промпта агент вообще ничего не сделает

          На самом деле не факт, разные подходы возможны. Если задача повторяющаяся или многоэтапная, требующая учёта многих факторов, то выгоднее однажды сделать скилл и потом весь промпт будет сводиться к /сделай-мне-хорошо. По-моему это как раз и есть самый правильный и перспективный подход: знание задачи исходит от человека в виде структурированного описания, а ИИ обеспечивает реализацию.


      1. Ravius
        31.03.2026 01:37

        Опыт агентской разработки(ака vibecoding).

        Сначала планирование пошаговое с сабтасками -> выполнение по сабтаскам с уже понятным задачами с dod -> qa стадия и review + second voice.

        В общем, когда у агента есть своя специфика - на эту специфику можно повесить метрику и ее оптимизировать.

        Я например переписал explore агента от claude и число откенов сократилось с 61к до 20к. (Как у вас агенты решали задачу без вызова специализированного разведчика - для меня загадка) 61к токен чтобы найти что и где нужно менять.

        Но возвращаясь к оптимизации, можно autoresearch повесить на промпты агентам и через 25000 заданий вы получите систему которая умеет решать, задачи по workflow. Потому что каждый промпт был оптимизирован.

        Пример с gstack - это по сути специализированное ревью по системного промпту...

        Есть paperclip (?) Проект, там агенты подражают компании: создается агент СЕО который нанимает специализированных агентов, а метрика - потраченные токены.

        У меня вызывает ещё вопросы эти 25000 задач. Число хорошее, но туда действительно десятки тысяч долларов было слиток на этот эксперимент? Или что там за модели были?


  1. AnatolyEmelin
    31.03.2026 01:37

    Много рассуждений как хорош Конвейер, но как вы это делали? Или это секрет?


  1. tesla1856
    31.03.2026 01:37

    1. Я правильно понимаю, что в Sequential в один момент времени работает один агент, и получается не важно сколько их 1 или 256? То есть, это итеративное выполнение задачи с обратной связью, даже более, с историей обратных связей?

    2. Я правильно понимаю, что во всех остальных способах организации задачи решаются не итеративно и обратной связи никакой нет, там есть только планирование и дальнейшее выполнение за одну итерацию (есть сомнения про Shared)?


  1. andrey_seryakov
    31.03.2026 01:37

    Офигенно, жду препринт.


  1. kliment_ceo
    31.03.2026 01:37

    А замеряли time-to-completion по протоколам? Sequential на 16 агентов - это 16 последовательных вызовов. +14% по качеству при кратном росте латентности в продакшене с SLA часто означает деградацию, а не улучшение. Интересно было бы увидеть кривую quality/latency, это сразу покажет, где какой протокол применим.


  1. ana_chell
    31.03.2026 01:37

    меня больше всего и смущает что была лишь одна модель судья с критериями. Надо было самим моделям дать оценивать свою работу и при этом не говорить кто что написал. Причем изначально без критериев дать оценить. Оценка очень сильно отличается у разных моделей.


  1. Bucherland
    31.03.2026 01:37

    А чем у вас отличаются агенты друг от друга? Судя по описанию, промпт у всех одинаковый, плюс история прошлых ответов или инструментов. Похоже на Ralph loop. Как решали, что задача выполнена? Вы принудительно запускали N итераций с одинаковым промтом, обновляя историю?

    Правильно понимаю, что позволяли стохастике внимания фокусироваться на разном?


  1. srs6901
    31.03.2026 01:37

    LLM-агент не ограничен… видит весь контекст… мгновенно меняет специализацию - неверно в корне.
    Он видит суп из токенов в кэше. И то насколько качественно он преобразует его в что-то внятное - задача (почти) обычного теорвера.

    Для меня это выглядит как “мы игнорируем ограничения системы и строим выводы поверх фантазии”

    Не видит “весь контекст” - ограничен окном
    Не “меняет специализацию” - просто меняет паттерн генерации
    Не “понимает” задачу - оптимизирует вероятность токенов

    “5 006 уникальных ролей” “самоорганизация” “агенты сами решают кем быть”

    Это звучит красиво, но на деле это:

    LLM просто генерирует разные строки текста

    Не “роли”, а:

    разные промпты разные формулировки разные шаблоны поведения

    Это не эмердженс, это энтропия + семплинг.

    Второй этап балета:
    модель генерирует решение
    другая модель оценивает
    потом делается вывод “система лучше на 14%”

    Это:

    LLM оценивает LLM -> выводы про интеллект

    С инженерной точки зрения это круговая ссылка. И квадратичное разрастание ошибки предсказания)

    И секвеншл лучше не потому что магия. А потому что chain-of-thought + iterative refinement

    “агенты сами отказываются” - это абсолютно спокойно может быть галлюцинировавшая self-awareness

    “мы наблюдаем начало тренда, который изменит проектирование AI-организаций”

    Когда по факту:

    нет строгой формализации
    нет контроля переменных
    нет граундинга в архитектуре модели
    нет воспроизводимости нет понимания механики трансформеров

    Но уже:

    громкие выводы уровня “меняем индустрию”

    Модели это автокомплит, то есть они тренируются на корпусе текста, нарезанного на куски.
    Например миллион токенов, нарезанный на куски по 1000

    И ей надо по семплу из 1000 токенов сгенерировать X токенов продолжения, идеально попадая в изначальный корпус

    Они не знают задачи “делегируй” \ "выбери" \ etc

    Их не тренировали на этом =)

    И это не про качество делегирования

    А про качество самой концепции

    Они не знают про слабости и сильные стороны той или иной модели, того или иного подхода.

    Вопрос - “Почему X а не Y” и оно сыпется

    Потому что не почему.

    У нее нет ответа кроме как “статистически на основе шума из матриц” (шума, потому что там не было такой выборки)

    То есть. Задача модели (любая) сводится к:

    Сгенерируй статистически правдоподобное продолжение.... и всё =)

    Почему оно статистически правдоподобное и почему она так решила - решает обучающая выборка и loss’ы

    Модели = функции минимизации потерь и максимизации стат. вероятности. НЕ мозг. НЕ аналитик. НЕ размышление. Статистика, прикрученная к корпусу из слов. Быстрый эксель. Как угодно. Но далеко не сложная система.

    Модели не обязаны обладать теми ментальными сущностями, которые им приписывает текст; наблюдаемое поведение можно объяснить как результат оптимизации генерации под данные, протокол и посттренинг, без введения сильных онтологических допущений про "самоорганизующегося субъекта".

    (окей, академически точно - next-token predictor + post-training + policy shaping + instruction tuning + RL + tool interfaces)

    Когда не знаешь хотя бы основы матстата - весь ML кажется магией.
    Так что да, такими темпами, будущее точно поменяется. Не в лучшую сторону.

    Потому что с набором из
    0. отсутствия абляций нормальных
    1. антропоморфизации автокомплита
    2. раздувания терминов
    3. псевдоорганизационной метафизики поверх next-token prediction
    4. LLM-судья судит LLM-ответы
    5. огромные выводы из слабой операционализации
    (продолжать далее по списку)

    Ничего хорошего не будет.

    Вопросы можно в личку, если что.


    1. Lashadkach
      31.03.2026 01:37

      В ИИ удивительно то, как совокупность слоёв трансформеров, механизма внимания, обширных дасетов дают по итогу модель способную очень даже сносно предсказывать токены, которые потом преобразуются в алгоритмы. Это не просто отличить котика от собачки или рекуррентным слоем предсказать следующие символы. Подход трансформера с слоями отвечающими за эмоциональный окрас позволяют даже придать нейросети с озвучкой женщины типично женские признаки. Да это все теже веса в перцептроне, но сам факт того, что из обычного предсказания слов, по сути прокачанного Т9, получается программа способная имитировать ИИ это уже само по себе удивительно. Ведь всё начиналось с попытки описать работу мозга человека и с уверенностью можно сказать что попытка очень даже не плохая. Не ИИ, но шаг в понимании как его достичь определенно значимый.

      И пусть маркетологи пытаются выдать желаемое за действительное, я все же склонен верить что будущее будет хорошим, не у gpt как модели конкретно, а в целом будущее где есть полноценный ИИ


  1. Googlonator
    31.03.2026 01:37

    Интересная статья, спасибо Скажите вы пробовали с таким пайплацйном построить приложением уровня FB, TG, Inst или любого другого поп. приложения которое выдержит хотя бы 1000 активного онлайна и не будет иметь дыр в безопасности? Хотелось бы глянуть какой нибудь репозиторий, а то обычно статей много, но никто ничего не показывает, а сам я 2 раза пробовал Клауд и понял, что он слишком плох и поэтому все это выглядит как скам - пишет 80% нормального кода, но без оставшихся хотя бы 18% все это бесполезно


  1. Viacheslav-hub
    31.03.2026 01:37

    Привет, спасибо за статью! Можно ли как то получить ссылку на код, чтобы посмотреть на реализацию?