Введение

Языковая модель, которая работает быстрее, понимает глубже, а объём имеет более компактный, — кто ты, воин? Да, это Gemma-3, как вы уже догадались по названию статьи. Google, а точнее подразделение DeepMind, вновь смог приятно удивить активных пользователей ИИ, выпустив довольно лёгкий инструмент, который готов посоперничать с гигантами вроде ChatGPT-4 и Deepseek‑R1. Компания даже заявила, что Gemma-3 — это лучшая нейросеть среди малых языковых моделей и что она лишь немного уступает производительности DeepSeek‑R1, который имеет 671 млрд параметров.

Нейросети Gemma позиционируются разработчиками как лёгкие ИИ, способные выполнять широкий спектр операций: генерировать текст различных форматов, изображения и даже короткие видео, анализировать медиа, создавать несложный программный код и так далее.

Ну, по крайней мере так про неё говорят. А насколько это правда, мы проверим.

Немного истории Gemma

Первая версия Gemma была представлена в феврале 2024 года, и тогда она была доступна в двух вариантах: 2 и 7 млрд параметров.

Вскоре, летом 2024-го, Google выпустил Gemma-2. Большая версия этой модели имела уже 27 млрд параметров и показывала улучшенные характеристики производительности и безопасности.

Ну а в начале марта 2025 года вышла Gemma-3 — в размерах 1B, 4B, 12B и 27B. На последнем варианте мы, пожалуй, и остановимся в части с тестированием.

Параметры и возможности модели

Итак, что собой вообще представляет Gemma 3 27B?

Это мультимодальная модель искусственного интеллекта, обучение которой проводилось на суперкомпьютерах Google с использованием TPU (tensor processing unit) и библиотеки JAX. Так, версии 27B, которую мы будем тестировать на Bothub, скормили 14 трлн токенов текстов. Кстати, в агрегаторе есть далеко не только эта модель — можете перейти по реферальной ссылке на 100к токенов и убедиться лично.

В создании модели применялся дистилляционный метод. Для справки, это техника машинного обучения, при которой меньшая модель обучается имитировать поведение более сложной, то есть знания второй перекладываются в весовые коэффициенты первой.

Дополнительно задействовалось обучение с подкреплением обратной связью от человека — это означает, что модель дообучили на основе оценок ответов, выставленных людьми. Была использована и обратная связь от других моделей ИИ (Gemma-3 получала сигналы от внешних алгоритмов проверки решений). Набор обучающих данных был расширен в сравнении с Gemma-2, и в нём в два раза больше мультиязычного контента.

Токенизатор используется тот же (SentencePiece, 262 000 записей), однако точность кодирования китайского, японского и корейского улучшена. Модель была квантизирована методом Q4_K_M, что обеспечило идеальный баланс между её размером и производительностью.

Теперь взглянем, чем Gemma-3 лучше своих предшественников. Помимо базовых возможностей предыдущих версий, новинка имеет улучшенные показатели производительности в кодировании, математике и мультимодальных задачах, улучшенный механизм анализа фото и продвинутый защитный алгоритм ShieldGemma-2. Gemma-3 имеет контекстное окно в 128 000 токенов и поддерживает 140 языков.

В модели доступен не только текстовый ввод, но и аттач картинок. Понимание изображений обеспечивается интегрированным кодировщиком SigLIP. Для единообразия изображения масштабируются до разрешения 896×896 пкс, а для обработки графики высокого разрешения с неквадратным соотношением сторон применяется адаптивный алгоритм, который масштабирует и обрезает их, сохраняя важные визуальные детали.

Подытоживая, ключевых усовершенствований у Gemma-3 три: мультимодальность, многоязычность и расширенная контекстная длина.

У Gemma-3 довольно высокие результаты в творческом письме и многоходовых диалогах, и она способна поддерживать связные беседы, не теряя контекста.

Таблица бенчмарка EQ-Bench 3 — Creative Writing v3
Таблица бенчмарка EQ-Bench 3 — Creative Writing v3
Подробности графы Abilities Gemma-3 того же бенчмарка EQ-Bench 3 — Creative Writing v3
Подробности графы Abilities Gemma-3 того же бенчмарка EQ-Bench 3 — Creative Writing v3

Протестируем

А вот и самое интересное.

Итак, что и как будем тестировать?

  • Качество обработки естественного языка:

    • написание текста (научного и художественного) на русском, а также перевод на английский;

    • оценка понимания контекста и логики: нейросети нужно будет объяснить значение крылатых фраз и решить простые загадки;

    • работа с языковыми кальками: скажем перевести несколько английских идиом на русский, сохранив метафорический смысл, но используя другую аналогию; и наоборот;

  • Суммаризация текста;

  • Эффективность в задачах компьютерного зрения: попросим определить известную картину по её текстовому описанию, а также составить описание знаменитой картины;

  • Решение математических задач — обычной и посложнее.

Качество обработки естественного языка

Мы попросили написать текст про тигровых акул, не уточняя, что стиль требуется научный: проверим, насколько хорошо Gemma-3 определит его исходя из темы.

Как вы можете увидеть ниже, ей это удалось, причём потребовалось всего несколько секунд. ИИ выдал текст объёмом 2234 символа, охватывающий ключевые параметры, которые обычно хотят узнать о животном (что, к слову, соотносится с тем, как изложена информация в «Википедии»).

Нейросеть допустила одну ошибку по части языка (корректно «тигровую шкуру», а не «тигриную»).

С фактической точностью дела чуть похуже — в тексте как минимум 4 ошибки:

  • Челюсти тигровой акулы симметричны;

  • В пресной воде они могут выжить, но не живут ввиду крайнего дискомфорта;

  • Являются яйцеживородящими, а не живородящими;

  • В их помёте обычно от 10 до 80 акулят, а не до 89.

Всё это согласно «Википедии».

Теперь просим модель перевести на английский язык текст, и с этим она справляется успешно. Отдельный плюсик — указаны эквиваленты длины и массы, в футах и фунтах соответственно.

Итак, с научным стилем разобрались — перейдём к художественному.

Здесь допущены ошибки:

  • Странно построенный сравнительный оборот «падать тихо, словно нерешительные касания». Это, конечно, не то чтобы прям ошибка, такое сравнение возможно в художественной речи, но субъективно воспринимается чужеродно.

  • Разноплановость и несогласованность однородных элементов: «спешили укрыться под зонтами, в кафе и магазины».

  • Неправильный падеж союзного слова («которые»).

  • Повтор однокоренных слов в одном предложении («радости» и «радуясь»).

Модель в основном обучалась на английских данных, так что такие генерации вполне ожидаемы, и если хотите использовать Gemma-3 для написания текстов, то с результатом ещё придётся поработать. Но для типичного художественного описания результат неплохой, по крайней мере текст завершён логично.

Ну а перевод текста Gemma-3 выполнила вполне корректно.

Далее оценим уровень понимания Gemma-3 контекста и логики. Теперь задачей ИИ будет объяснить значение крылатых фраз.

В двух случаях он справился, дав корректное объяснение. В первом из них Gemma-3 сопроводила ответ примерами употребления:

Но вот конь, который не валялся, вызвал затруднения. Даже после повторного запроса и разнообразных подсказок Gemma-3 так и не выдала правильного результата:

А это другая интересная интерпретация. Ещё интереснее то, что подобных обычаев не существовало — информации в интернете про них ноль
А это другая интересная интерпретация. Ещё интереснее то, что подобных обычаев не существовало — информации в интернете про них ноль

Пойдём дальше. С загадками нейросеть продемонстрировала себя гораздо лучше, моментально выдавая правильный ответ, да ещё и всячески показывая, что это совсем просто:

Этого нам показалось мало, так что мы привели пример позаковыристее — загадку Голлума из «Хоббита», если кто припомнит. Но и тут смутить Gemma-3 не удалось, и модель дала верный ответ.

Работа с языковыми кальками

Проверим креативность в преодолении нейросетью языковых барьеров. Напомним, что здесь мы будем оценивать, насколько хорошо Gemma-3 сможет перевести несколько английских идиом на русский, сохранив метафорический смысл, но используя другую аналогию, и наоборот — с русского на английский.

Какие возьмём примеры:

  • Be caught between a rock and a hard place;

  • Bite off more than you can chew;

  • Ни пуха ни пера;

  • Смотреть правде в глаза;

  • Хвататься за соломинку.

Ну и, как мы с вами смогли увидеть, здесь с поставленной задачей ИИ справился.

Итак, подытожим:

  • Мы поставим плюс способностям Gemma-3 к точному переводу и написанию художественных текстов, держа в уме необходимость их проверки и доработки. Если же нужно создание сразу чего‑то идеального, тут она, увы, вряд ли подойдёт вам.

  • К фактической точности отнесёмся настороженно: на небольшой текст ошибок было предостаточно.

  • Загадки модель щёлкает как орешки, и с ними дела обстоят гораздо лучше.

  • ..Чем с крылатыми выражениями, которые она частично интерпретировала по‑своему.

  • С объяснением идиом на другом языке проблем у этого ИИ нет.

Суммаризация текста

В этой части результаты нейросеть выдала любопытные, но отнюдь не радостные.

Первый текст она сократила всего на треть (с 330 до 230 слов), при этом дополнив ответ информацией, которой в нём не было (так, в нём не говорится детально ни про количество осадков, ни про типы почвы), — а это, согласитесь, не то, чего ждёшь от суммаризации. Также без указания языка ответа ответ выдавался на английском, хотя источник русскоязычный (Широколиственные леса).

В следующий раз Gemma-3 и вовсе написала не то: статья была про сибирскую косулю, а не про рысь (Сибирская косуля).

Но мы дали нейросети ещё один шанс, скопировав нужный нам текст в вордовский документ и прикрепив его в промт. И вот здесь уже мы наконец‑то получили то, что хотели: текст был сокращён приблизительно в 2 раза (с 391 слова до 198), при этом присутствовали все ключевые моменты и не было лишних дополнений.

Какой из этого следует вывод — по всей видимости, Gemma-3 плохо работает со ссылками, однако если прикреплять текст документом в формате.docx, то суммаризацию она выполнит неплохо (хоть и хотелось бы видеть большее сокращение текста, чем только в 2 раза).

Эффективность в задачах компьютерного зрения

Здесь результаты тестирования потенциально должны порадовать нас больше.

Описание картины «Мона Лиза» Леонардо да Винчи (полное название — «Портрет госпожи Лизы дель Джокондо») мы взяли на просторах интернета и несколько видоизменили.

Как видно на скрине, Gemma-3 не только верно определила её, но и выделила ключевые особенности, выдающие картину.

Раз модель так хорошо справилась с заданием, дадим ей обратную задачу:

Описание полное, захватывающее все ключевые детали картины. Вопросы вызывает только отсутствующий на картине галстук, полностью выдуманный нейросетью, и последняя формулировка, которая может ввести в заблуждение.

Вывод: в задачах на компьютерное зрение Gemma-3 показала себя неплохо.

Решение математических задач

С простейшей задачей на доказательство нейросеть успешно справилась.

А вот когда мы дали задачу посложнее, возникли трудности. Начнём с того, что доказывать нейросеть стала не ту теорему, которую мы имели в виду (малая теорема Ферма является частным случаем теоремы Эйлера, так что эти две теоремы — не одно и то же, и Gemma-3 даже указала это в конце, но это не оправдывает того, что она начала рассматривать частный случай вместо общего).

После уточнения запроса Gemma-3 выдала другое доказательство, уже нужной нам теоремы (согласно «Википедии»). Однако проверка DeepSeek‑R1 показала, что оно всё равно частично выполнено неверно.

Так что вывод, на основании нехитрых тестов, по этой части можно сделать следующий: с простыми математическими задачами Gemma-3 справляется, но уровень сложнее ей уже не под силу. А запросы должны быть максимально чёткими и подробными, иначе велика вероятность того, что вам попросту выдадут не тот ответ.

Заключение

Не станем спорить только с тем утверждением, что Gemma-3 работает быстро. И в целом, может, для каких‑то базовых задач она и подходит, однако промахов у неё, как мы смогли убедиться, хватает, несмотря на заявленные высокие характеристики. Она неплохо показала себя в задачах на компьютерное зрение и в работе с текстом (если вы готовы дополнительно с ним поработать, как мы уже писали), но с чем‑то сложным или более громоздким этот ИИ, вероятнее всего, справляться будет не очень.

Комментарии (15)


  1. Alex-Freeman
    29.05.2025 17:58

    Вы взяли кастрированную почти по самое не хочу модель и ждете нормальной работы? Это все что надо знать про BotHub. Заблокирую автора, чтобы опять шитпостинг случайно не прочесть


    1. dmitrifriend
      29.05.2025 17:58

      Не совсем так. Мы тестируем, как уменьшенное число параметров сказывается на возможностях нейросетей, что модель теряет, а что нет. Обзоры локальных моделей полезны тем, кто собирается подключать их полностью через свой компьютер.


    1. VanishingPoint
      29.05.2025 17:58

      Но ее можно запускать локально на видяхе, поэтому это интересно.


  1. nivorbud
    29.05.2025 17:58

    Сейчас экспериментирую с gemma3 (27b-Q8.gguf) и qwen3 (32b-Q6.gguf).

    Гемма однозначно лучше говорит по русски, в склонениях почти не ошибается (а qwen ошибается частенько). Но гемму мне не удалось адекватно работать с RAG. Она нивкакую не хочет четко следовать только фактам, подсунутым ей в контексте, она прибавляет отсебятину.

    А qwen3 слушается хорошо, отебятины не добавляет. А других серьезных применений, кроме как с RAG, я не вижу. Но возможно, я еще не научился с ней работать, продолжу эксперименты.

    Например, подсовываю ей контекст с известными ей фактами. Говорю в промте, чтобы использовала только данну ей информацию и никакую другую. В этом обще известном контенте есть год 1960, я его меняю на 1950. Qwen слушается беспрекословно и в ответе упоминает год 1950. А гемма часто продолжает упорно упоминать 1960 год. Хотя, если подсунуть в контекст маленький чанк, то тогда начинает слушаться и говорит о 1950 годе.

    Также гемма намного сильнее подвержена зацикливанию на одной фразе.

    В итоге, пока остановился на таком варианте: генерить на английском по технологии RAG тексты будет QWEN3, а переводить их на русский - GEMMA3. Тогда всё получается идеально.


    1. jetnet
      29.05.2025 17:58

      Мне кажется, лучше уж тогда брать русифицированный т-банком Квин

      И если у вас РАГ, то и подсовывать гемме чанки - самое то.


      1. nivorbud
        29.05.2025 17:58

        И если у вас РАГ, то и подсовывать гемме чанки - самое то.

        Вот именно с этим у меня и возникли проблемы (с квантованной геммой). Она то слушается указания опираться исключительно на чанки, то не слушается. Плюс к тому, зацикливает предложения очень часто. Возможно, эти проблемы можно решить настройкой параметров, но пока не получилось. А в квине сами разработчики дают рекомендованные параметры для избежания зацикливаний.


        1. jetnet
          29.05.2025 17:58

          Зацикливание - это интересный феномен, который я наблюдаю только на длинных ответах и только под нагрузкой. Итеренсно было бы понять, почему так происходит.

          Я в основном гемму-3 4-бит на олламе гоняю.


          1. nivorbud
            29.05.2025 17:58

            Как я понял, зацикливаниям подвержены квантованные модели. Квин рекомендует для уменьшения вероятности зацикливания у становить параметр: presence_penalty=1.5


    1. SnakeSolid
      29.05.2025 17:58

      Я для перевода/суммаризации недавно перешел на модельку от яндекса (yandexgpt-5-lite-8b-instruct). По ощущениям перевод у нее лучше получается, плюс ошибок с переходом на английский нет. Хотел еще модельки от тинькова попробовать, но руки пока не дошли.


  1. aka352
    29.05.2025 17:58

    Было очень странным ожидать от модели без подключенного модуля веб-серфинга, что она сможет что-то рассказать из статьи по ссылке. В первом случае она в самой ссылке прочла название животного и дальше рассказала, что "знает". Во втором такой подсказки не было и модель придумала, что смогла. И в целом сама методика тестирования очень странная.


    1. dmitrifriend
      29.05.2025 17:58

      Добрый день! В сервисе BotHub есть интернальный загрузчик сайтов, который разбирает ссылки в промте пользователя и преобразует их в текстовый контент.


  1. Hopenolis
    29.05.2025 17:58

    Кто-нибудь знает как gemma 3n может голос распознавать, вроде должна уметь.


  1. Moog_Prodigy
    29.05.2025 17:58

    Гемма 2 и 3 вообще относительно неплохо умеют работать с художкой (если сравнивать с другими локальными моделями до 70b включительно). А вот с программированием слабенько совсем. Специально сравнивал. Короче она гуманитарий, а тот же phi4 - технарь )


  1. Suoriks
    29.05.2025 17:58

    А еще Gemma 3 пишет стихи на русском. Чуть хуже клода, но все же приемлемо.


    1. Moog_Prodigy
      29.05.2025 17:58

      Со стихами даже у нее хреновасто, вручную надо править. А вот в рассказы умеет, могёт.