Корпорация Google совсем недавно представила мультимодальную модель ИИ, которую называет конкурентом GPT-4 от OpenAI. Она умеет обрабатывать текстовую, аудиоинформацию, изображения и видео. На первый взгляд, проект действительно мощный, но, как оказалось, у него немало и недостатков. Подробности — под катом.

Что нам показала компания Google на этот раз?

В своей презентации Сундар Пичаи, генеральный директор Google Inc. и материнской компании Alphabet, заявил, что Gemini может без проблем выполнять такие задачи:

  • Понимать изображения. Т. е. распознавать различные объекты, разбирать графики, решать сложные задачи мультимодального мышления. Модель «понимает» рукописный текст, распознает и генерирует компьютерный код, таблицы и т. п.

  • Работать с аудио. Например, автоматически распознавать речь, а также переводить речь с одного языка на другой

  • Генерировать изображения. Поддерживается генерация сложных последовательностей картинок и текста

  • Работать с видео. Судя по презентации, модель способна «понимать» действия, происходящие на видео, плюс она умеет создавать точные субтитры к роликам, правда, лишь на английском языке (пока что)

Кроме того, Gemini еще и отвечает на разные вопросы, включая науку, культуру, социологию и т. п., рассуждает на заданные пользователем темы, понимает причины и следствия различных ситуаций. ИИ умеет решать сложные математические задачи, а также пишет код.

На текущий момент есть три версии Gemini:

Ultra. Флагманская модель с максимальными возможностями. Именно она показывает самую высокую производительность в сложных задачах, включая анализ и работу с несколькими модальностями. На её основе планируется запустить продвинутую версию чат-бота Bard Advanced. Ultra будет доступна лишь в 2024 году.

Gemini Pro — версия среднего уровня для более широкого круга задач. Она стала основой Google Bard. Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Чат-бот с Pro-версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Доступ к Pro-версии могут получить корпоративные клиенты Google и разработчики через API на платформах Google Generative AI Studio и Google Cloud Vertex AI, начиная с 13 декабря.

Gemini Nano — это наиболее базовая версия, которая предназначена для локального применения на мобильных устройствах. Она будет доступна для пользователей на смартфонах Google Pixel 8.

Чем Gemini лучше GTP-4?

Пока что здесь можно руководствоваться лишь информацией, предоставленной Google. Представители компании заявили, что Gemini Ultra превзошла GPT-4 по 30 из 32 тестов.  Корпорация уже опубликовала сравнительную таблицу по работе с текстом.

Согласно этим данным, Gemini во многом лучше GPT4, в частности:

  • Она выдаёт более точные ответы на относительно простые научные вопросы по  бенчмарку MMLU (Measuring Massive Multitask Language Understanding). Тест охватывает 57 различных задач, включая математику,  историю США, информатику, право и т. п.

  • Нейросеть от Google лучше, чем GPT-4 решает сложные для ИИ задачи. Эксперты корпорации выяснили это, протестировав Gemini при помощи BIG-Bench Hard (BBH) — это набор задач, который включает 200 вопросов — от рекомендации фильмов до решения сложных логических и математических задач

  • Лучше понимает текст. Этот результат получен при помощи бенчмарка DROP, который и создан для оценки точности различных ИИ-моделей в решении сложных задач по пониманию текста

  • Лучше решает алгебраические и геометрические задачи

  • Лучше пишет код на Python (пока что проверка проводилась только с этим ЯП). Скорее всего, речь идёт о том, что готовый код лучше соответствует запросам пользователя. Проверка проводилась посредством бенчмарка HumanEval, который применяется для оценки качества NLP моделей и их способности производить результаты, соответствующие человеческому восприятию

А вот сравнение по работе с изображениями.

Основные озвученные разработчиками модели преимущества: большая гибкость Gemini, по сравнению с конкурентами, возможность работы с ИИ без подключения к Интернету, а также бесплатный доступ к продвинутым функциям (что, вероятно, актуально на время тестирования Gemini).

Больше вопросов, чем ответов

Речь о том, что представленные Google ролики демонстрации работы Gemini — скорее, презентация возможной производительности модели, а не её реальные функции. После анонса корпорация в блоге разъяснила, что в той же презентации работы с видео разработчики сначала объясняли модели правила и приводили примеры раундов игры.

Реальная Gemini может многое, но сначала её нужно обучать на фотографиях и давать подробные промпты. Пока что она не в состоянии делать то, что показано на этих видео, что ставит под сомнение некоторые из озвученных преимуществ Gemini.

А ведь примерно то же самое умеет и GPT-4, если ей детально «объяснять» задание.

То есть GPT-4 тоже может распознать схематически изображённый объект или животное. Например, рисунок из видео Google GPT-4 «поняла», указав, что это утка или похожая на неё птица на воде.

Вот ролик, выложенный Грегом Садецким, где он показывает возможности GPT-4.

И это только один пример. Сейчас всё больше пользователей, протестировавших чат-бот Bard, сообщают о проблемах с ним. Так, его ответы часто ошибочные, он путает или неверно указывает факты — к примеру, имена победителей «Оскара» 2022 года. Более того, если снова задать тот же вопрос, можно получить новый ответ, и он тоже будет неправильным.

Если попросить Gemini дать краткий обзор новостей, то модель отказывается комментировать потенциально спорные темы или даже предлагает самому пользователю тщательно погуглить. При этом ChatGPT без проблем решает эту задачу и даёт изложение событий со ссылками на них.

Аналогично — проблемы с запросом по указанию лучших фильмов. Так, «На западном фронте без перемен» стал лучшим международным фильмом, по мнению модели, «Говорят женщины» стал лучшим адаптированным сценарием, а «Пиноккио» — лучшим анимационным фильмом. Всё это некорректные ответы.

Более того, указанное представителями Google преимущество Gemini в плане написания или анализа кода тоже вызывает вопросы.

Как оказалось, Gemini Pro не особо хорошо справляется с поставленными пользователями задачами по разработке.

В результате многие сторонние эксперты заявили, что Google поспешила с релизом модели, по мнению специалистов, корпорации стоило лучше подготовиться, а потом уже анонсировать свой проект. В ответ представители Google пообещали, что в ближайшее время оптимизируют и исправят работу модели. Так это или нет — пока неясно, остаётся лишь ждать.

Комментарии (1)


  1. ALexKud
    14.12.2023 02:47

    Использую bard в вопросах написания кода. Вполне рабочие варианты выдаёт для delphi.в сложных случаях, по крайней мере.