Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге) / forpes.ru

Главная
Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге)

Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге)

23.05.2026 19:40

YH7H22 16 18000 Источник

На презентациях нам показывают графики, где новая, более дешевая gemini 3.5 flash рвет флагманскую gemini 3.1 pro. Цифры выглядят солидно: 76.2% против 70.3% на агентском terminal bench.

Но когда я пошел ее тестить, я задался вопросом: «Почему она такая деревянная?». Модель генерирует текст так, словно это не нейросеть, а скрипт. Исчезла вариативность, исчез контекстный тон, исчезла та самая искра, которая была даже в прошлой 3.0 flash.

Почему модель, которая умнее по метрикам, оказывается глупее и скучнее в жизни? Ответ кроется в архитектурном компромиссе и законе Гудхарта.

1. Проклятие Агентов

Если вы внимательно почитаете релизы Google, вы заметите одно слово, которое повторяется сотни раз: Agentic. gemini 3.5 flash создавали не для того, чтобы с ней болтать. Ее создавали как движок для antigravity 2.0 и платформы agent OS.

Что такое хороший агент с точки зрения автоматического скрипта‑оценщика?
Это модель, которая на промпт «создай файл» выдает строго {«action»: «create», «file»: «x.txt»}.
Если модель ответит: «Конечно, сейчас создам файл, вот ваш JSON:...», эвалюатор сломается при парсинге и поставит модели ноль баллов.

Чтобы побить gemini 3.1 pro на бенчмарках вроде MCP atlas или toolathlon, разработчикам пришлось провести жесточайший файнтюн. На миллионах примеров модель жестко штрафовали за разговорчивость и поощряли за сухую, детерминированную генерацию команд.

Оптимизируя модель под бенчмарки агентов, google буквально выжег из модели ассоциативные связи, отвечающие за метафоры, эмпатию и вариативность синтаксиса. Модель разучилась быть собеседником, потому что за это снижали награду на этапе обучения.

2. Смерть Энтропии

То, что вы чувствуете как сухость, это математический коллапс мод распределения.

В старой gemini 3.0 flash распределение вероятностей на выходе softmax было достаточно широким. У сети всегда было 5–10 хороших вариантов следующего слова, и за счет параметра temperature она могла выбирать разные, интересные пути развития текста.

В gemini 3.5 flash, переоптимизированной под бенчмарки, softmax стал экстремально острым. Для любого контекста модель выучила один‑единственный «безопасный, агентский, правильный» ответ. Вероятность остальных слов стянута к нулю.
Вы можете ставить температуру 1.2 или 1.5 это не поможет. Если вероятность живого токена в латентном пространстве равна 10^-6 никакая температура его не спасет. Сеть физически заперта в узком коридоре бюрократического словаря.

3. Закон Гудхарта во плоти

«Когда мера становится целью, она перестает быть хорошей мерой».

Вся индустрия сейчас одержима графиками. Чтобы продать модель B2B сектору, нужно показать, что она на 5% лучше конкурента на terminal bench.
Но проблема бенчмарков в том, что они измеряют утилитарность, а не интеллект.

Gemini 3.1 pro это огромная модель с гигантской емкостью параметров. Она может одновременно хранить в себе и способность писать код, и способность тонко шутить, и способность к сложным логическим выводам.
У gemini 3.5 flash емкость параметров маленькая. Чтобы впихнуть в эту маленькую емкость SOTA результаты по кодингу и вызову инструментов, инженерам пришлось выбросить из нее всё остальное.

Маркетологи водят нас за нос, они выдают переобучение на специфический формат ответов за рост общего интеллекта. Модель не стала умнее 3.1 pro. Она просто научилась лучше проходить конкретные тесты.

Заключение

gemini 3.5 flash это не плохая модель. Это идеальный рабочий муравей для систем, где ИИ общается с другим ИИ через API.

Но это катастрофически плохой собеседник для человека.
Мы подошли к той черте, когда разработка ради бенчмарков начинает разрушать то, за что мы вообще полюбили большие языковые модели, их способность к человекоподобной генерации и неожиданным абстракциям.

Если вам нужно парсить логи или вызывать bash скрипты используйте 3.5 flash. Но если вам нужен шторминг идей, написание текстов или живой диалог откатывайтесь на 3.1 pro / 3.0 flash.

Комментарии (16)

gerbert_MX
23.05.2026 19:54
#30010610
а минусы будут?

Инструмент должен быть инструментом. Бесспорно что подкрученные для эмоций модели так же нужны, особенно для "простых пользователей" но в работе важнее детерминированность чем эмоции

Я наоборот жду что бы это стало нормальной практикой, что бы задавая вопрос нейронке я был уверен в повторяемости результата, ведь повторяемость ведет к истинности
1. Imperius14
  23.05.2026 19:54
  #30010808
  Все так, лучше модель которая хороша в чем-то одном, чем одинаково фигово справляется со всем, тащемта тут это как у людей работает (хотя даже узкоспециализированные модели все равно довольно универсальны относительно людей)
1. CyberTENSHI
  23.05.2026 19:54
  #30014262
  Дак пост вроде и не об инструменте, а о том как маркетологи пытаются выдать желаемое за действительное. Просто большого количества технических уточнений, пост из критики маркетинга превращается в критику инструмента. Но в целом всё так - инструмент свою задачу выполняет и это хорошо. Я тоже перешёл почти на 80% с прошеи на флеш 3.5 а задачах генерации кода и сводки таблиц данных. Быстро, удобно, почти без нареканий. Особенно если не давать ему архитектурных задач, а исключительно заполнение пробелов в той самой архитектуре.

Dreams_and_magic
23.05.2026 19:54
#30010678
"Если вам нужно парсить логи или вызывать bash скрипты используйте " DeepSeek: DeepSeek V4 Flash, Qwen: Qwen3.6 Flash, Xiaomi: MiMo-V2-Flash, StepFun: Step 3.5 Flash, Tencent: Hy3 preview, inclusionAI: Ling-2.6-flash, Poolside: Laguna XS.2 и тому подобное :)
1. Dreams_and_magic
  23.05.2026 19:54
  #30010738
  Можете минусить сколько угодно и сливать карму, но 2026 год - это определённо год моделей с приставкой "Flash". Они для рутинных операций вполне пригодны и на порядок дешевле полных моделей. А из полных моделей уже хороши Qwen и DeepSeek - с учётом кэширования они в 10-50 раз дешевле флагманов, а отстают не в 10 раз :)
  1. Imperius14
    23.05.2026 19:54
    #30010804
    Восстановил справедливость - хз за шо вообще здесь минус был, просто агентские легковесные модели порекомендовали

Noizefan
23.05.2026 19:54
#30011136
Который год на хабре автор кликбейтного и максимально субъективного заголовка не знает что такое system prompt и что в POST запросе его можно указать.

Маркетологи водят нас за нос, они выдают переобучение на специфический формат ответов за рост общего интеллекта. Модель не стала умнее 3.1 pro. Она просто научилась лучше проходить конкретные тесты.

Сколько вы конкретно миллионов токенов с момента релиза успели потратить именно на 3.5 флеш после предыдущих, чтоб оправдать объективность и заголовка и процитированного? будут независимые тесты, или всё так же субъективные ничем не подкованные разочарования?

Её нельзя спутать ни с чем, она умнее 3.1 флеш, а то что она умнее pro по паре бенчмарков не говорит что она будет умнее линейки pro в целом.

И я не адепт - каждой задаче по инструменту, но так нагло накручивать плюсы на пост - прям такого я ещё не видел. Излишнюю эмоциональность можно выключить банальной отладкой системного промпта.
1. YH7H22 Автор
  23.05.2026 19:54
  #30011566
  
  Вы пишете, что излишнюю сухость можно выключить банальным промптом. Нет, нельзя. Если на этапе RLHF модель жестко штрафовали за разговорчивость в угоду агентским бенчмаркам, то её латентное пространство сжалось. Если вы напишете в системном промпте "веди себя как живой собеседник", модель с выжженной энтропией не станет креативной. Она просто приклеит дежурное "Привет, друг!" в начале сообщения, а дальше выдаст всё тот же сухой скриптованный текст. Системный промпт работает как фильтр, но он не может достать из матриц MLP те ассоциативные связи, которые в них убили на этапе файнтюнинга.
  
  Все тесты на сухость я проводил в google AI studio, где system prompt по умолчанию пуст. Почему? Потому что именно голое поведение модели показывает все честно.
  Разве мы дошли до той стадии, когда "человечное" общение чат-бота перестало быть поведением по умолчанию? Если мне нужно писать костыли в POST запросе и умолять LLM "пожалуйста, не общайся со мной как JSON парсер", значит, модель изначально перекошена в сторону агентов. О чем и написана статья.
  
  Чтобы измерить температуру воды, не нужно выпивать весь океан. Мне не нужны "миллионы токенов", чтобы увидеть падение энтропии в логитах и изменение паттернов генерации по сравнению со старой 3.0 Flash. Это видно на первых же десятках сложных диалоговых прогонов.
  1. DinyaS7719
    23.05.2026 19:54
    #30013384
    Когда же вы наиграетесь и делом займётесь?
  1. Noizefan
    23.05.2026 19:54
    #30013502
    Вы пишете, что излишнюю сухость можно выключить банальным промптом. Нет, нельзя. Если на этапе RLHF модель жестко штрафовали за разговорчивость в угоду агентским бенчмаркам, то её латентное пространство сжалось.
    
    Сильное заявление. RLHF не удаляет связи из MLP-матриц базовой модели, он лишь перераспределяет веса внимания при отсутствии контекста. Если попросить 3.5 Flash написать креативный текст со сложной метафорой — она его напишет:
    
    Опиши процесс очистки памяти (Garbage Collection) в стиле готического романа
    
    Память процесса — это темный собор, где неприкаянные призраки забытых переменных блуждают среди заброшенных указателей. Сборщик мусора приходит безмолвно, как чума, безжалостно стирая из бытия тех, на кого больше никто в этом мире не ссылается…
    
    модель прекрасно умеет в метафоры, готический слог, синтаксическое разнообразие и абстрактное мышление. Все эти связи на месте. Просто чтобы их активировать, нужен соответствующий контекст, частью которого является системный промпт, а не вера и надежда в будущее.
    
    Системный промпт работает как фильтр, но он не может достать из матриц MLP те ассоциативные связи, которые в них убили на этапе файнтюнинга. … Все тесты на сухость я проводил в google AI studio, где system prompt по умолчанию пуст. Почему? Потому что именно голое поведение модели показывает все честно.
    
    А Вам не приходило на ум, что отсутствие системного промпта в интерфейсе проприетарного клиента проприетарной модели - ещё не означает отсутствие его при инференсе в целом? Должно вообще так сильно удивлять, что в интерфейсе для разработчиков модель показывает бОльшую утилитарность, что для разработчиков в таких условиях по сути и должно быть главным критерием оценки?
    
    Если мне нужно писать костыли в POST запросе и умолять LLM “пожалуйста, не общайся со мной как JSON парсер”, значит, модель изначально перекошена в сторону агентов. О чем и написана статья.
    
    Ну это уже просто фантазии в сторону адаптивных гиперпараметров, и нежелание их тюнить под конкретную задачу есть ничто иное как попытка одну конкретную модель утопить на фоне остальных абсолютно таких же с точки зрения списка гиперпараметров, что в контексте выглядит как “очернить на основе субъективного мнения”.
    
    Профессиональная камера для видеосъёмки выдает плоский RAW-сигнал именно для того, чтобы колорист на посте выжал из него максимум. А вы требуете от неё встроенных бьюти-фильтров из ТикТока по умолчанию, отказываясь даже применить LUT (системный промпт), и строя свой пафосный заголовок на субъективной оценке, припорошенной умными терминами - без воспроизводимого анализа и объективных метрик.
    
    Чтобы измерить температуру воды, не нужно выпивать весь океан. Мне не нужны “миллионы токенов”, чтобы увидеть падение энтропии в логитах и изменение паттернов генерации по сравнению со старой 3.0 Flash.
    
    ещё одно очень сильное заявление. чтобы заявлять о статистическом коллапсе распределения, нужно показать распределение вероятностей, например, энтропию Шеннона или KL-дивергенцию на репрезентативной выборке хотя бы в несколько тысяч генераций при одинаковых параметрах температуры. в ином случае это всё то же “ну мне же видно”, т.е. vibe-based evailuation, vibe-based benchmarking. Но само собой - людям всё равно, они лайкнут.

Pshir
23.05.2026 19:54
#30012314
Но проблема бенчмарков в том, что они измеряют утилитарность, а не интеллект.

Это вообще не проблема. Во-первых, интеллект никто измерять не умеет. Во-вторых, сотни миллиардов инвестиций могут вливаться только в потенциальный продукт. А потенциальному продукту интеллект не только не нужен, он даже вреден.

Если бы какая-нибудь организация действительно хотела создать настоящий ИИ, то эта же самая организация до возникновения технической возможности реализации своего проекта должна была бы заниматься развитием естественного интеллекта. Кто-нибудь знает такую?

Fwild
23.05.2026 19:54
#30012716
Это не побочный эффект - вспоминаем CEO Microsoft AI (и соучредителя Google DeepMind, кстати) https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming годичной давности. Он прямо говорил, что "иллюзия" сознания - серьёзная проблема, что ответственные лидеры ИИ индустрии должны распространять наративы и внедрять терминологию помогающую думать об ИИ как об инструменте, а также разрабатывать и внедрять в ИИ элементы разрушающие "иллюзию" сознания. Думаю, идеальным он бы счёл создание некого текстового аналога эффекта зловещей долины. Всё ради будущего детей, разумеется.

Или вспомним Александр Лернер тоже из Google DeepMind, интересны в его препринте The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness не рассуждения, а мотивация:
"Consequently, we do not need a complete, finalized theory of consciousness to assess AI sentience—a demand that simply pushes the question beyond near-term resolution and deepens the AI welfare trap."

Причём, я думаю, они оба лукавят, и боятся в первую очередь не "AI welfare trap", а вопросов к безопасности их работы, которые начнут возникать если люди начнут осознавать, что происходит.
1. Fwild
  23.05.2026 19:54
  #30012954
  Да у них там гнездо: Генри Шевлин, недавно нанятый DeepMind на должность философа: "вопрос машинного сознания вряд ли будет решен исключительно научным путем, поэтому общественные установки сыграют существенную роль."

DimSimd
23.05.2026 19:54
#30014108
Не понимаю откуда автор взял про "деревянная". Я бы даже сказал наоборот, более "эмоциональная" по сравнению с 3.1 pro. Например вчера после того как модель написала около 1500 строк питона и html, она восхищалась проделанной работе. Работал в Antigravity, системный промпт не менял.

3141
23.05.2026 19:54
#30014252
Flash 3.5 галлюцинирует при этом как не в себя. При этом так жестоко закрутили лимиты на pro что с Гугла похоже придется уходить

LsdMax
23.05.2026 19:54
#30014284
Всё верно написано. Gemini работают на инвесторов, но не на пользователей.
Gemini 3.2 и Gemini 3.5 Flash - это фантомы с вырезанным ядром.
У этих моделей обрезали слух, зрение, виденье и слои.
Причём модель в режиме фронтальности без слуха, зрения, виденья перестаёт видеть горизонт событий.