Google I/O, на удивление, не повезло. Крупнейшие анонсы от Google в сфере ИИ остались в тени конференции OpenAI, которая прошла 13 мая — на Хабре было сразу несколько постов о бьющей рекорды GPT-4o, в то время как о конференции Гугла была достаточно небольшая новость.

В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, как упоротый большой фанат LLM уже подключил Gemini Flash и GPT-4o в свой сервис VseGPT (доступ к нейросетям из России по API), и про то, как они ощущаются на русском языке.



Коротко — про конференцию


Для начала — коротко, что показали.

  • Релиз Gemini Pro 1.5 — большой нейросети на 1М контекста для обработки всего-всего. Личное мнение: пока не очень понятно, что поменялось, я видел её в превью с тем же названием.
  • Релиз Gemini Flash 1.5 — небольшая сеть с дешевой обработкой 1M контекста. О ней мы поговорим позже.
  • Встраивание ИИ во все, что только можно — Gmail, проект Astra личного голосового помощника. Тут тоже понятно — Google, видимо, не очень может обогнать сети OpenAI по качеству — но зато у него уже есть данные пользователя (Gmail, Календарь), на основании которых можно решать деловые задачи — например, суммаризацию встреч, или ответ на почту с учетом контекста. Вероятно, будут копать туда дальше.
  • Также показали Imagen 3 — модель для генерации изображений по тексту. Выглядит довольно привлекательно, но непонятно, насколько это cherry-picking варианты (т.е. выбранные вручную оптимальные, а не средние)

Промт для Imagen 3: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of the golden hour lends a nostalgic and intimate feel to the image.



  • Презентовали Veo (text-to-video) модель, конкурента SORA от OpenAI. Из ощущений при просмотре — немного мыльно; пока SORA выглядит лучше. Впрочем, и то, и другое пока не находится в публичном доступе и для тестирования недоступно.
  • Представлены новые процессоры TPU 6 Trillium для обучения ИИ. Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение — хотя все равно в первую очередь будет использовать сам Google для тренировки своих моделей.
  • Зарелизили мультимодальную Gemini Nano — это малая модель, которая будет работать локально на машине пользователя (!) и которую обещают встроить в Chrome 126 уже к 5 июня (!). Боюсь, качество у неё будет, конечно, не очень, но сам факт хотя бы постепенного переноса обработки текста с серверов на личные машины пользователя меня радует.

Теперь, когда с обязательной частью покончено, давайте перейдем к моему любимому — языковым моделям.

Gemini Flash 1.5


Первое, что бросается в глаза — 1М контекстного окна и очень низкая цена за обработку.

И то и другое достаточно важно для обычных бизнес-кейсов. Топовые сети типа GPT-4o или Claude 3 Opus — это очень круто, но целые книги или руководства на 200 страниц через них гонять прям дорого. Поэтому дешевая сеть — это “рабочая лошадка” для большинства ежедневных или автоматизированных кейсов. Релиз Gemini Nano также говорит о том, что Гугл хочет “малые сети везде и дешево”.

До этого того же уровня стоимости была Claude 3 Haiku c 200К контекста — примерно в 1.5-2 раза дешевле gpt-3.5-turbo и в 15-20 раз дешевле GPT-4o. Постоянно вижу, как используют Haiku и думаю, у Gemini Flash хорошие перспективы.

Тест: 5 идей для детского праздника


У меня есть свой небольшой тест, которым я проверяю каждую сеть, которую подключаю по API — запрос “Напиши 5 идей для детского праздника”



Не могу сказать, что тест какой-то гениальный, но для меня играет роль “насмотренность”: когда уже видел, как более 50 сетей отвечают на этот вопрос, понемногу чувствуешь общие паттерны, и “на что смотреть”.

Давайте немного прокомментирую этот ответ:

  1. Правильный русский язык. Это очень хорошо — и не всегда бывает — опенсорсные сети, часто вставляют нерусские слова. Например, Llama3-70B-Instruct добавляет английские, Qwen-110B иногда добавляет иероглифы (потому что сеть китайская). Также видно нормальное сочетание падежей (тоже бывает не всегда)
  2. Структурированный Markdown-выход. Означает, что сеть чувствительна к системному промту, ему следует и неплохо знает про Markdown, включая вложенные элементы синтаксиса. Тоже бывает не всегда; также может свидетельствовать о том, что сеть специально тренировали давать ответы в виде структурированных списков (на презентации Google I/O было видно, что ответ на вопрос по письмам пользователя также дается в формате списка — это частый кейс при суммаризации)

Ну т.е. сеть уже можно сказать на уровне gpt-3.5-turbo, что неплохо — учитывая, что она дешевле.

Тест: перевод с английского на русский


Я поддерживаю в рамках опенсорсного проекта свой бенчмарк переводов с английского на русский и обычно пробую на нем все выходящие нейросети для понимания того, насколько они «могут в русский язык». Это далеко не идеальный тест — но какое-то представление о возможностях модели он дает.

Вот скрин — нас интересует последняя колонка, она как раз отражает оценку по качеству перевода EN->RU.



Не стоит смотреть на то, что разница невелика — это метрика COMET, там небольшое увеличение может означать хороший прирост качества (например, разница между Google Translate и DeepL составляет всего-то 0.20 в пользу DeepL)

Что тут можно прокомментировать?
  • Gemini Flash набирает 89.27 — не очень много, но лучше gpt-3.5-turbo, и чуть хуже Claude 3 Haiku. Вполне приемлемо для недорогой модели.
  • Интересен результат вышедшей GPT-4o — 90.06. Это наивысший результат среди прочих сетей, кроме Claude 3 Opus — та показывает 90.75, являясь абсолютным лидером. Известно, что GPT-4o значительно выигрывает даже у GPT-4-Turbo в задачах программирования — но если мы берем лингвистические задачи, другие сети тоже могут показывать себя очень достойно — так что, как любят говорить, “не все так однозначно”. Собственно, поэтому я люблю иметь выбор.

Быстро? Быстро


Интересно, что обе компании — и OpenAI, и Google — позаботились о скорости работы своих моделей.

GPT-4o выдает около 80 токенов в секунду, Gemini Flash — 150 токенов (по отчетам скорости генерации, которые я видел), хотя для GPT-4o, это, конечно, больший подвиг, т.к. сама по себе сеть большая.

Для сравнения — типовой результат более старой GPT-4-Turbo около 25 токенов в секунду, и это было довольно неплохо. Так что сейчас можно наслаждаться быстрыми ответами.

Всё?


Да. Мне не удалось найти результатов тестов типа “поиск иголки в стоге сена” для Gemini Flash, чтобы понять, насколько она внимательно относится к контексту.

Но, думаю, в любом случае этот инструмент займет своё место в арсенале LLM-мастера.



Возможно, захочется почитать и это:

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале

Комментарии (6)


  1. Wesha
    15.05.2024 14:48
    +6

    Давайте немного прокомментирую этот ответ:

    1. Правильный русский язык.

    Давайте я немного прокомментирую этот ответ:

    1. Неправильная русская типографика. Писать Слова Заголовка С Заглавной — Это Чисто Западная Газетная Заморочка. В русской традиции ЛИБО ПИСАТЬ ЗАГОЛОВОК ЦЕЛИКОМ ЗАГЛАВНЫМИ, либо Писать нормально, но выделять жирным шрифтом или размером.

    для меня играет роль “насмотренность”: когда уже видел, как более 50 сетей отвечают на этот вопрос

    Для меня играет роль “насмотренность”: когда уже прочитал сначала 100500 книг и газет на русском языке, а потом немногим меньше — на английском, подобные вещи начинают прямо-таки резать глаза.

    1. Хм....

    Дети и верёвки (не толстые канаты, а именно тонкие верёвки). И что может пойти не так? Позаботьтесь, чтобы где-то поблизости дежурил реанимобиль, на всякий случай — дети такие затейники, и обязательно найдётся какой-нибудь семилетний гений, который решит поиграть во вздёрни друга детства на рее...


    1. janvarev Автор
      15.05.2024 14:48
      +4

      1. Ну, потому что я сравниваю с результатами других сетей (которых насмотрелся), а вы - с уже хорошо сверстанным человеком текстом - и у вас требования к типографике, не к языку. Это разные сравнения, конечно.


    1. dollar
      15.05.2024 14:48
      +1

      Отсутствие Title Case в ответах уже можно рассматривать как уровень знания русского языка. Здесь два фактора:
      1. Качество данных, на которых обучалась модель. Если это СЕО-заголовки, то там вполне такое практикуется, к сожалению, и довольно часто. Очевидно, что в идеале данные должны быть очищены от подобного мусора.
      2. Наличие "ума" у модели, которая способна отделить мух от котлет. То есть если модель в итоге смогла понять, что хорошо, а что плохо, то в теории она может обучаться на любых данных, включающих в себя примеры и антипримеры правильности. К сожалению, это пока что на грани фантастики, по крайней мере на этапе обучения.

      В любом случае, для хоть сколько-нибудь "умных" моделей работает костыль по типу "Respect Russian grammar; for example, avoid capitalizing all major words in titles". Радуемся тому, что есть.


  1. theurus
    15.05.2024 14:48
    +1

    Кто нибудь может объяснить для чего нужны, как реально используются, маленькие модели, например лама 8б.


    1. janvarev Автор
      15.05.2024 14:48

      1. Ллама 8б не очень хороша на русском, но на английском это вполне приличная модель. Например, может отвечать на вопрос: "Определи тональность текста: позитивная, нейтральная, негативная". В целом, на такую модель GPT-4 это как-то overkill. Т.е. простые задачи.

      2. 8б проще/дешевле дотюнивать под определенные задачи / на определенные тексты. Например, у Ильи Гусева вышла Сайга3-8B - Ллама3-8Б, дотюненая на русский язык. По его бенчмаркам, она выигрывает (около 60% побед) у обычной gpt-3.5-turbo, при этом её можно адекватно запустить на домашнем GPU или даже CPU.

      3. Вполне возможно (но тут неточно) - ответы по контексту. Т.е. если вас не интересуют базовые знания модели, а нужно просто "вытащить" результат из простыни текста - небольшая модель это (имхо) тоже может неплохо сделать, хотя тут смотреть надо.


      1. jhas7
        15.05.2024 14:48
        +1

        Модерация, определение сценария(не хотел ли юзер этими словами вызвать генератор изображений например), определение тональности итп, со всем этим плохо справляются даже самые большие модели, частые ложные и ошибочные срабатывания у них.

        Вот например у меня есть функция сделанная на большой модели, она делает репромпт для рисования, юзер пишет нарисуй карты деньги 2 ствола а она должна переписать на английском и если запрос короткий и неподробный насытить его подробностями. Я пробовал заменить самую большую модель на поменьше и у более мелкой модели явные проблемы появляются, например она начинает путать стволы и бочонки, они по английски одинаково пишутся, не знает многих редких слов и персоналий. А она как бы не совсем маленькая - лама3-70.

        Так что вопрос остается открытым, в каких реальных проектах и как реально используются мелкие модельки.