
Буду честен. Я перестал следить за Gemma после второй версии. Не потому что она была плохой — просто она никогда не воспринималась как серьёзный конкурент китайским гигантам открытого ИИ: DeepSeek, Qwen — моделям, которые разработчики действительно разворачивали в продакшене. Gemma была моделью, которую ты один раз пробовал на Kaggle, а потом забывал. Сегодня Google всё изменил. Полностью.
Gemma 4 вышла 2 апреля 2026 года. И технический директор Hugging Face Жюльен Шомон написал об этом с буквальными эмодзи-огоньками, назвав это «ЭКСТРЕННОЙ НОВОСТЬЮ». Когда CTO платформы, которая хостит все открытые модели на планете, говорит, что Google вернулся в игру, — стоит обратить внимание.
Что такое Gemma 4?
Gemma 4 — это новейшее семейство моделей с открытыми весами от Google DeepMind. Построено на тех же исследованиях и технологиях, что и Gemini 3 — их проприетарная флагманская модель.
Четыре размера моделей. Четыре сценария развёртывания:
E2B (эффективные 2 млрд параметров): Работает на телефонах, Raspberry Pi, Jetson Nano. Да, серьёзно.
E4B (эффективные 4 млрд параметров): Чуть крупнее, но всё ещё помещается на телефон.
26B MoE (Mixture of Experts, 4 млрд активных): Активирует лишь 3,8 млрд параметров при инференсе, хотя всего в модели 25,2 млрд. Работает почти так же быстро, как 4-миллиардная модель.
31B Dense: Флагман. Сейчас на 3-м месте среди всех открытых моделей в текстовом рейтинге Arena AI.
Все четыре модели обрабатывают изображения и видео. Младшие модели E2B и E4B также поддерживают нативный аудиовход: распознавание речи прямо на устройстве, без облака. Контекстное окно — до 128K токенов для edge-моделей и 256K для старших. Это целая кодовая база в одном промпте.
Бенчмарки
Вот тут всё становится серьёзно. Данные из официальной карточки модели Gemma 4, варианты, дообученные на инструкциях (instruction-tuned):
Текстовые бенчмарки

Бенчмарки по зрению

Длинный контекст

Позвольте выделить цифры, которые имеют наибольшее значение.
AIME 2026: 89,2 % для модели 31B. Это бенчмарк по математическим олимпиадам. Gemma 3 27B набирала 20,8 %. Улучшение в 4 раза за одно поколение.
Codeforces ELO: 2150 для 31B. Для контекста: Gemma 3 набирала 110. Это не опечатка. Скачок в программировании — ошеломляющий.
LiveCodeBench v6: 80,0 % против 29,1 % у Gemma 3. Почти утроилось.
GPQA Diamond: 84,3 %. Это вопросы уровня PhD по естественным наукам, где эксперты-люди набирают около 65 %.
Модель MoE особенно интересна. При общем объёме 26 млрд параметров и лишь 3,8 млрд активных при инференсе она набирает 82,3 % на GPQA Diamond. Работает на скорости, близкой к 4-миллиардной модели, а выдаёт интеллект, близкий к 31-миллиардной.
Кстати, об инструментах. Если вам нужен доступ ко всем ключевым моделям — Claude, GPT, Gemini — загляните на BotHub.

Для доступа не требуется VPN, можно использовать российскую карту.
По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Как Gemma 4 выглядит на фоне флагманов?

Цифры в изоляции ничего не значат. Поэтому давайте поставим Gemma 4 рядом с проприетарными моделями, которые все реально используют: Claude Opus 4.6, GPT-5.2, а также открытым гигантом Kimi K2.5.
Важная оговорка, прежде чем углубимся: это не идеально корректное сравнение. Gemma 4 31B — это 31 миллиард параметров. Claude Opus 4.6 и GPT-5.2 — проприетарные модели с нераскрытым количеством параметров, почти наверняка сотни миллиардов или больше. Kimi K2.5 — триллион параметров всего (32 млрд активных). Сам факт, что Gemma 4 вообще участвует в одном разговоре с этими моделями, — и есть главная новость.
Рассуждения: GPQA Diamond (наука уровня PhD)

Gemma 4 31B набирает 84,3 % на научных вопросах уровня PhD. Это отстаёт от Claude Opus 4.6 (91,3 %) и GPT-5.2 (92,4 %) примерно на 7–8 пунктов. Но вот в чём дело: те — массивные проприетарные модели, работающие на серверных фермах. Gemma 4 работает на вашем ноутбуке. И она опережает Claude Sonnet 4.6 (74,1 %) — модель, которую многие разработчики используют ежедневно, — более чем на 10 пунктов.
Математика: AIME (олимпиадная математика)

Примечание: Gemma 4 отчитывается по AIME 2026 (более сложный набор задач), тогда как большинство других моделей оценивались на AIME 2025. Даже с учётом этого, 89,2 % на олимпиадной математике от 31-миллиардной модели — это выдающийся результат. GPT-5.2 и Claude Opus 4.6 достигают почти идеальных баллов, но это проприетарные флагманы с на порядки бо́льшим объёмом вычислений. Kimi K2.5 набирает 95,8 %, но при триллионе параметров.
Знания: MMLU Pro (вопросы уровня магистратуры)

Gemma 4 31B набирает 85,2 % на MMLU Pro. Это почти вплотную к Kimi K2.5 (87,1 %), несмотря на 30-кратно меньшее общее количество параметров. Она также, по всей видимости, конкурирует с Claude Opus 4.6 или даже немного опережает его заявленный результат MMLU Pro — примерно 82 %.
Программирование: SWE-Bench и LiveCodeBench

Gemma 4 показывает 80,0 % на LiveCodeBench v6 и Codeforces ELO 2150. Хотя прямые результаты SWE-Bench Verified пока недоступны, уровень программирования явно конкурентоспособен на уровне флагманов. Результат LiveCodeBench ставит 31-миллиардную модель в один ряд с Kimi K2.5, у которой, напомню, в 32 раза больше параметров.
Зрение: MMMU Pro (мультимодальные рассуждения)

По мультимодальным визуальным рассуждениям Gemma 4 31B идёт практически вровень с Claude Sonnet 4.6. Для открытой 31-миллиардной модели это исключительный результат.
История об интеллекте на параметр
Вот таблица, которая рассказывает настоящую историю. Здесь речь об эффективности:

Обратите особое внимание на модель 26B MoE. Она активирует всего 3,8 миллиарда параметров на токен. Это примерно вычислительный «отпечаток» маленькой модели. И она набирает 82,3 % на GPQA Diamond и 82,6 % на MMLU Pro.
Kimi K2.5 активирует 32 млрд параметров на токен при триллионе суммарных, получая 87,6 % GPQA / 87,1 % MMLU Pro. Это примерно на 5 пунктов выше — при 8-кратно бо́льшем количестве активных параметров за шаг инференса и на порядок бо́льших требованиях к хранилищу.
Проприетарные модели по-прежнему побеждают по абсолютным баллам. Это ожидаемо. Но разрыв стремительно сокращается, а экономика развёртывания Gemma 4 — из совершенно другой вселенной. Никаких расходов на API. Данные не покидают вашу машину. Никакой привязки к вендору.
Честный итог
Gemma 4 не обгоняет Claude Opus 4.6 или GPT-5.2 по чистым бенчмаркам. Кто утверждает обратное — врёт.
Но это и не тот вопрос, который нужно задавать. Правильный вопрос: какая лучшая модель, которую я могу запустить локально, на своём железе, под полностью свободной лицензией, с нулевыми расходами на API?
И по этому вопросу Gemma 4 — очень сильный кандидат. Она уступает 7–8 пунктов на GPQA Diamond и примерно 4–5 пунктов на MMLU Pro лучшим проприетарным моделям, но взамен предлагает то, чего те никогда не смогут дать: полное владение и нулевую предельную стоимость инференса.
Для многих реальных применений этот компромисс не просто приемлем. Он предпочтителен.
Почему Apache 2.0 меняет всё
Предыдущие модели Gemma выходили под собственной лицензией Google — Gemma License. Она была разрешительной, да. Но не по-настоящему открытой.
Gemma 4 выходит под Apache 2.0 — той же лицензией, что Kubernetes, TensorFlow и Apache Spark.
Это колоссальное событие. Сооснователь Hugging Face Клеман Делланге назвал это «огромной вехой». Никаких ограничений на использование. Никаких требований отчётности. Полное коммерческое использование. Форкайте, дообучайте, разворачивайте как хотите.
Для стартапов и предприятий, создающих ИИ-продукты: это устраняет одно из главных препятствий на пути к внедрению Gemma. Модель — ваша. Данные — ваши. Развёртывание — ваше.
Настоящая история: Google против Китая в мире открытого ИИ
Позвольте дать стратегический контекст. Посмотрите на рейтинг открытых моделей Arena AI до сегодняшнего дня. Верхние строчки занимали китайские модели: DeepSeek, Qwen и их производные. Присутствие США в открытом ИИ в основном обеспечивалось Llama от Meta и Nemotron от Nvidia.
Серия Gemma от Google набрала 400 миллионов загрузок. Более 100 000 вариантов от сообщества. Но по фактическому использованию (данные OpenRouter рассказывают эту историю) Gemma стабильно отставала от Llama и DeepSeek.
Gemma 4 — ответ Google. Модель 31B сейчас на 3-м месте в рейтинге Arena AI. MoE 26B — на 6-м. Обе превосходят модели, которые в 20 раз крупнее. Это не просто выпуск модели. Это Google, говорящий: мы конкурируем за экосистему открытого ИИ. На этот раз серьёзно.
Запуск на локальной машине
Вот тут начинается практика. Вот как запустить Gemma 4 на своём железе прямо сегодня:
Сначала обновите llama.cpp:
Bashbrew upgrade llama.cpp # или установите из HEAD, если последняя сборка ещё недоступна: brew install llama.cpp --HEAD
brew upgrade llama.cpp # или установите из HEAD, если последняя сборка ещё недоступна: brew install llama.cpp --HEAD
Если у вас 16 ГБ RAM/VRAM (MacBook, большинство ноутбуков):
Bashllama-server -hf ggml-org/gemma-4-E4B-it-GGUF:Q8_0
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF:Q8_0
Если у вас 24 ГБ+ RAM/VRAM (MacBook Pro, RTX 3090):
Bashllama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
Если у вас 32 ГБ VRAM (RTX 5090):
Bashllama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q8_0
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q8_0
Неквантованные веса модели 31B Dense помещаются на один 80-гигабайтный NVIDIA H100. Квантованные версии работают на потребительских GPU.
Поддержка с первого дня по всей экосистеме: Hugging Face Transformers, vLLM, llama.cpp, MLX, Ollama, LM Studio, Unsloth, SGLang, NVIDIA NIM и другие.
Что отличает архитектуру Gemma 4
Несколько конструктивных решений выделяются:
Послойные эмбеддинги (PLE): Модели E2B и E4B используют хитрый приём. Вместо того чтобы делать модель шире или глубже, каждый слой декодера получает собственную маленькую таблицу эмбеддингов. Эти таблицы велики по размеру, но используются только для быстрого поиска. Поэтому «эффективное» количество параметров (то, что реально работает при инференсе) значительно меньше общего числа. E2B имеет 5,1 млрд параметров всего, но лишь 2,3 млрд эффективных.
Гибридное внимание: Все модели чередуют локальное скользящее оконное внимание с полным глобальным. Локальные окна обеспечивают скорость инференса. Слои глобального внимания (всегда включая последний) поддерживают глубокое понимание на длинных контекстах.
Mixture of Experts, сделанный правильно: MoE 26B использует 128 экспертов, из которых 8 активны на каждый токен, плюс 1 общий эксперт. При инференсе активируются только 3,8 млрд параметров. Это даёт интеллект класса 26B на скорости класса 4B.
Нативный вызов функций: Не «прикрученный потом». Gemma 4 поддерживает структурированный JSON-вывод и вызов функций нативно. Это критически важно для создания агентов, взаимодействующих с внешними инструментами и API.
Настраиваемый режим размышлений: Все модели поддерживают встроенный режим рассуждений. Добавьте
<|think|>в системный промпт — и модель генерирует пошаговые рассуждения перед финальным ответом. Отключите его для быстрых ответов, когда глубокие рассуждения не нужны.
«Геммаверс» — это реальность
Цифры говорят сами за себя. 400 миллионов загрузок. Более 100 000 вариантов от сообщества. Специализированные производные:
MedGemma: Медицинская визуализация и генерация клинических отчётов.
DolphinGemma: Анализ вокализации дельфинов.
SignGemma: Перевод жестового языка.
Одна исследовательская группа даже обучила Gemma 4 управлять автомобилем в симуляторе CARLA, используя мультимодальные ответы с вызовом инструментов: модель видит дорогу через камеру, принимает решения и учится на результатах. Вот так выглядит здоровая экосистема открытого кода. Базовая модель достаточно хороша, чтобы люди создавали на её основе по-настоящему новаторские вещи.
Моё честное мнение
Я начинал эту статью как скептик. Меня уже обжигали обещания Google в области открытых моделей. Но улучшения бенчмарков здесь не инкрементальные. Перейти от Codeforces ELO 110 к 2150 за одно поколение — беспрецедентно. Скачок AIME с 20,8 % до 89,2 % — это не маркетинговая мишура: это фундаментально другая модель.
Лицензия Apache 2.0 снимает моё главное возражение. Требования к железу разумны. Поддержка экосистемы — всесторонняя с первого дня.
Лучшая ли это открытая модель в мире? 31B занимает 3-е место в Arena AI. Не первое. У DeepSeek и Qwen по-прежнему сильные предложения. Но Google теперь по-настоящему конкурентоспособен в этом пространстве.
Для всех, кто создаёт локальные ИИ-приложения, агентные рабочие процессы или интеллект на устройстве: Gemma 4 заслуживает серьёзного рассмотрения. Особенно 26B MoE. Эта модель — тёмная лошадка данного релиза.
Война в мире открытого ИИ стала намного интереснее.
Комментарии (21)

mahmud90
10.04.2026 17:03Пока OpenAI ищет всё новые миллиарды для масштабирования инфраструктуры, Google и китайцы оптимизируют модели.

akakoychenko
10.04.2026 17:03Интересно, зачем они это сделали. Хотя... если так подумать. Гугл единственный из великих, у кого есть источник прибыли помимо продажи токенов, и кому вот эта возня с LLM вообще заноза в жопе. Если лишить прибыли весь рынок, закрыв бизнесовые задачи локальными моделями, то, возможно, вот эта гонка за будущим станет досадным недоразумением. Да, люди уже не вернутся в классический поиск, но, по крайней мере, загашенные враги прекратят наступление на карты, гугл плей, ютуб, ибо для этого всего нужны деньги инвесторов, а уничтожение приза делает инвестиции бессмысленными

Sap_ru
10.04.2026 17:03Потому что после схлопывания AI-пузыря они будут одними из немногих, кто получит преимущество, так как финансировали всю кухню "за свои", имеют положительный общий денежный поток и могут позволить себе переждать шторм, чтобы потом оказаться первыми на чистой поляне. Короче, топят конкурентов на своих условиях.
Это очень сильный удар по всем, кто сидит в минусе на раздутых обущаниях и финансировался за счёт инвесторов. Резко снижает клиентскую базу - компании теперь могут не OpenAI платить, а свои инстансы развернуть. При этом от Гугла никто не сбежит, так как у него поиск, облака и ещё куча всего - он всё равно в плюсе будет.

anonym0use
10.04.2026 17:03

rivo
10.04.2026 17:03Gemma 4 хорошо выглядит, только из моделей huggingface убрали Multi-Token Prediction (MTP). Они медленее на 10-20%. Тему разговора незначительно уводит, непонятно как это замеряли и как интерпретировать.
# task: eval structure — simplified # ~18% throughput improvement, no quality regression "gemma4-base": {"throughput_tps": 847, "f1": 0.923, "exact_match": 0.871}, "gemma4-mtp": {"throughput_tps": 1001, "f1": 0.924, "exact_match": 0.873} # task: open_ended_summarization # ~11% throughput improvement # Small but consistent increase in mid-sentence topic drift # ROUGE difference is within noise, but topic_drift_rate is reproducible "gemma4-base": {"throughput_tps": 612, "rouge_l": 0.441, "topic_drift_rate": 0.031}, "gemma4-mtp": {"throughput_tps": 679, "rouge_l": 0.438, "topic_drift_rate": 0.047},topic_drift_ratehere is an internal metric — we flag spans where the model shifts semantic focus within a sentence boundary. It’s a custom eval, not something you’ll find in standard benchmarks. (с) Marcus Chen

SmDn
10.04.2026 17:03Гемма хороша, но печалит только нестабильность ее function calling, может заартачиться и вместо вызова просто вывалить команду в текст чата, с openhands вообще отказывается работать в CodeActAgent. Надеюсь, починят

arheops
10.04.2026 17:03Модель требует специального обращения и понимания как ее использовать. Пока пришлось ее везде отключить. Выдает результаты в каких-то странных формах не важно как ее спросить. Можно просто после нее запускать другую модель для корекции, но это время.

alekssamos
10.04.2026 17:03Можно ли запускать на 8 GB VPS на обычном CPU? Видео карты нет. Если да, как установить на Ubuntu?

StriganovSergey
10.04.2026 17:03Сейчас запустил в llama.cpp
Gemma-4-E4B в версии Q8_K_P.gguf
которая весит file size = 7.56 GiB
на процессоре
Intel(R) Core(TM) i5-4690 CPU @ 3.50GHz, 4 ядра и память ddr3
получается скорость 3.44 t/sec
Ответ на вопрос "кто ты" печатала примерно 2 минуты ( с этапом размышлений, около 400 токенов).
Та же модель, но на видеокарте p102-100 у меня дает 32 t/sec
( может еще стоит подкрутить настройки -ub и прочие чтобы поднять скорость)
Alecssv
10.04.2026 17:03я скачал себе ту же модель только в Q5 KS 6.7gb на lm studio на процессоре e 5 2670v3 ddr4 около 7-8t /sec вообще отлично как по мне)

Filipp42
10.04.2026 17:03Мне тоже очень нравится семейство Gemma. Четвёртая версия показалась мне сравнимой с Gemini 3. Конечно, с поправкой на размер.
Но мне очень интересно провести один эксперимент, для которого у меня нет вычислительных мощностей.
Один человек заметил, что если подобрать и продублировать определённый блок слоёв модели, у неё резко улучшаются показатели.
https://dnhkng.github.io/posts/rys/https://dnhkng.github.io/posts/rys-ii/
И вот мне интересно, можно ли так улучшить модели серии Gemma 4? Это было бы шикарно!
Вот тред в обсуждении модели: https://huggingface.co/google/gemma-4-31B-it/discussions/60
Буду рад, если кто-нибудь там отпишется.

lotse8
10.04.2026 17:03Хотелось бы уточнить, почему сравнивается модель GPT-5.2 , если уже рабоатает GPT-5.4
https://prnt.sc/tGgWWr-zUY-P
MAT-POC
10.04.2026 17:03сравнивают с моделями сравнимыми по производительности чтобы понимать окружение, и насколько открытые модели догоняют закрытые.

lotse8
10.04.2026 17:03ОК, а я по глупости думал, что надо сравнивать актуальные на данный момент продукты, чтобы видеть реальную ситуацию.

esselesse
10.04.2026 17:03но тогда интересно, почему конкретно в тесте MMLU Pro сравнение идет с OPUS 4.5, а в остальных - с OPUS 4.6

beast1983
10.04.2026 17:03Gemma 4 31b в связке lm studio + vs code (cline) работает быстро, но в коде она ужасна, плохо знает grable, kotline. Как общение для того чтобы разобратся что хочу может помочь, но не более. Да и вообще локальные модели через lm studio + opencode от unsloth стали работать значительно хорошо, но локальная модель это всё равно не для кода, даже если брать квантование Q6_K_XL
Triton5
Gemma 4 при запросе по API прямо в ответ вставляет Chain-of-Thought элементы.
Я не смог её отучить это делать:)
starik222as
И не получится, в самом описании модели про это и написано, фактически, теперь вместо блока <think></think> есть блок <|channel><channel|>. Не совсем понятно, для чего такие изменения, но теперь для моделей Gemma4 нужны свои правила обработки ответов.
jetnet
Надо было её саму спросить :)
Вставьте это в запрос:
Она действительно крутая.
Triton5
Не работает:) пришлось изобретать алгоритм выкусывания контента из кучи тегов. Там ещё и два режима их отображения, в общем, нахрена они это всё сделали:)