Вышел Gemini 3.5. Я решил проверить, так ли он силен, и устроил ему «Голодные игры» против GPT-5 и Claude / forpes.ru

Главная
Вышел Gemini 3.5. Я решил проверить, так ли он силен, и устроил ему «Голодные игры» против GPT-5 и Claude

Вышел Gemini 3.5. Я решил проверить, так ли он силен, и устроил ему «Голодные игры» против GPT-5 и Claude -4

19.11.2025 06:20

Slidering 12 1000 Источник

В левом углу ринга — дерзкий новичок Gemini 3.5, о котором сейчас трубят из каждого утюга. В правом — тяжеловесы-ветераны: GPT-5 и Claude 4.5. Задача: не просто поболтать, а сгенерировать прорывную концепцию использования генеративного ИИ для блога «Чувство управления». Результат схватки (и особенно судейства) вас удивит.

Закинул старик невод в синее море... Ну, вы знаете эту классику. Я собрал четырех участников: Gemini 3.5 Pro, GPT-5, Gemini 2.5 Pro (для массовки и сравнения прогресса) и Claude 4.5.

Акт 1. Первый невод (ожидаемо) — с тиной морской

Сначала я пошел простым путем. Попросил их проанализировать мои прошлые статьи и предложить перспективные небанальные темы для новых серий. Результат? Как под копирку: «Автоматизируйте рутину», «Внедряйте промпт-инжиниринг». Скучно, банально, «вода». Для уровня материалов, которые мы разбираем на chu.st (архитектура организаций будущего, стратегии трансформации), это был детский сад.

Стало понятно: чтобы проверить реальную мощь Gemini 3.5 и остальных, нужно ставить задачу иначе. Не «придумай что-нибудь», а «думай как гений».

Акт 2. Создаем крепкий невод-алгоритм для ловли золотых рыбок

Я решил заставить их попотеть. Во втором раунде я выдал сложный промпт с алгоритмом (публикую сокращенный сутевой вариант):

1) Сам выбери 5 лучших методик креативности, подходящих под задачу («перспективные небанальные темы»).

2) Оцени их и оставь 3 самые подходящие для этой задачи методики.

3) Примени их и выдай список разных и неочевидных тем статей.

4) Придумай формулу оценки перспективности и проранжируй темы.

И тут случилась магия единодушия. Я не ограничивал их в выборе инструментов. Но все четыре модели, не сговариваясь, выбрали ТРИЗ (Теорию решения изобретательских задач) как один из главных инструментов. Видимо, даже ИИ понимает: чтобы придумать что-то новое, нужно искать системные противоречия по Альтшуллеру, а не просто галлюцинировать. Также в фавориты попали First Principles Thinking (мышление от первых принципов) и Design Thinking (дизайн-мышление).

В итоге каждый участник выдал различные интересные концепции: от «Одноразового софта» до «Психоанализа корпораций». Но кто из них оказался реально крут?

Акт 3. Кто захотел стать владычицей морской?

Я собрал от каждой из четырех моделей топ-3 идеи (всего - 12 идей), поместил в один промпт и скормил обратно всем четырем моделям с задачей: «Оцените всех конкурентов и себя по 10-балльной шкале и выберите ТОП-3 идеи». Свои идеи модели могли узнать из контекста диалога — остальные были обезличены.

И тут вскрылись интересные психологические портреты моделей:

Claude 4.5: Оказалась самой нарцистичной. Она поставила две свои идеи на 1 и 2 места с высочайшими баллами. «Сам себя не похвалишь — никто не похвалит».

Gemini 3.5: Проявила удивительную объективность (или скромность). В её личном рейтинге победила чужая идея (от того самого Claude). Свои идеи она оценила высоко, но корону владычицы на себя надевать не стала.

GPT-5: Легкая предвзятость. Выбрала победителем свою идею, но с минимальным отрывом от конкурентов.

Финал: Три самые золотые рыбки-идеи

Усреднив оценки всех четырех «судей» и убрав предвзятость, мы получили абсолютных чемпионов. Если вы ищете тему для стартапа — забирайте.

? 1 место: Градиенты агентности (Gradients of Agency)

Автор: Claude 4.5 | Средний балл: 8.95

Суть: Главная проблема бизнеса: страх отдать управление ИИ. Мы мыслим бинарно: либо человек делает, либо робот делает («Вкл/Выкл»). Победившая концепция предлагает забыть об этом. Агентность — это не переключатель, а плавная шкала.

Почему это круто (и практично): Это новая онтология ответственности. Представьте, что у вас есть уровни автономности, как у беспилотников (от L1 до L5).

L1 (Assistance): ИИ просто советует.
L3 (Conditional Automation): ИИ принимает решение, но человек должен подтвердить.
L5 (Full Autonomy): ИИ действует полностью сам.

Внедрение такой жесткой шкалы в бизнес-процессы (маркетинг, финансы, HR) снимает главный психологический блок: потерю контроля. Вы делегируете ровно столько ответственности, сколько готовы принять. Это делает внедрение агентов управляемым, измеряемым и юридически безопасным.

? 2 место: Реверсивная автономия (Reversible Autonomy)

Автор: GPT-5 | Средний балл: 8.38

Суть: Это инженерный ответ на главный страх CIO и CTO. Мы строим системы, где любое действие ИИ-агента гарантированно обратимо. То есть, если агент совершил ошибку (например, некорректно обновил 10 000 записей в базе данных), у вас всегда есть моментальный "Undo" (откат).

Почему это круто (и практично): Бизнес боится дать агенту доступ к критическим данным («а вдруг удалит или испортит?»). Эта концепция предлагает архитектурный паттерн, который решает эту проблему на уровне кода. Мы внедряем ИИ-агентов не тогда, когда они станут безошибочными (это невозможно), а когда цена их ошибки станет нулевой. Добавьте сюда строгий аудит, и вы получаете масштабируемое и безопасное внедрение.

? 3 место: ИИ как Экзокортекс (или «Корпоративный мицелий»)

Автор: Gemini 2.5 / 3.5 | Средний балл: 8.29

Суть: Перестаньте использовать LLM как чат-бот или генератор текстов. Представьте, что вы «скармливаете» модели все внутренние данные компании: Slack-чаты, почту, протоколы встреч и вики-страницы. LLM перестает быть инструментом и становится коллективным бессознательным вашей организации.

Почему это круто (и практично): Это МРТ для бизнеса. Нейросеть видит то, что скрыто от глаз CEO:

Реальные центры влияния: Кто на самом деле принимает решения, а не кто указан в оргструктуре.
«Тромбы» коммуникаций: Где критически важная информация застревает.
Разрыв ценностей: Насколько декларируемые ценности на стене совпадают с реальным тоном переписок и настроением сотрудников.

ИИ выступает не как копирайтер, а как корпоративный психоаналитик, помогая управлять потоками смыслов и культурой.

Вывод: Так силен ли Gemini 3.5?

Эксперимент показал интересную расстановку сил:

По качеству мышления: Новичок Gemini 3.5 показала себя достойно, выдав крепкие визионерские идеи, но в жесткой схватке уступила пальму первенства Claude 4.5, чьи идеи оказались глубже проработаны философски.

По адекватности: Gemini 3.5 оказалась самым честным судьей, не побоявшись признать победу соперника.

ИИ-модели переросли стадию «птиц-говорунов, отличающихся умом и сообразительностью». Если дать им правильную методологию (пусть выберут сами!), они способны выдавать концепции уровня стратегического консалтинга.

А какая из трех тем-победителей вам понравилась? Пишите в комментариях ?

P.S. Самые вкусные разборы этих тем и практические гайды по внедрению я публикую в своем телеграм-канале. Подписывайтесь, чтобы не остатся у разбитого корыта в эпоху генеративного ИИ.

Комментарии (12)

lil_master
19.11.2025 06:30
#29133308
Gemini 3.5

Я ж тебе говорил последнюю не пей
1. Nexoic
  19.11.2025 06:30
  #29133554
  Это новость из будущего гемини 3.5 такой умный что может в прошлом новости писать )