В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, как
❯ Коротко — про конференцию
Для начала — коротко, что показали.
- Релиз Gemini Pro 1.5 — большой нейросети на 1М контекста для обработки всего-всего. Личное мнение: пока не очень понятно, что поменялось, я видел её в превью с тем же названием.
- Релиз Gemini Flash 1.5 — небольшая сеть с дешевой обработкой 1M контекста. О ней мы поговорим позже.
- Встраивание ИИ во все, что только можно — Gmail, проект Astra личного голосового помощника. Тут тоже понятно — Google, видимо, не очень может обогнать сети OpenAI по качеству — но зато у него уже есть данные пользователя (Gmail, Календарь), на основании которых можно решать деловые задачи — например, суммаризацию встреч, или ответ на почту с учетом контекста. Вероятно, будут копать туда дальше.
- Также показали Imagen 3 — модель для генерации изображений по тексту. Выглядит довольно привлекательно, но непонятно, насколько это cherry-picking варианты (т.е. выбранные вручную оптимальные, а не средние)
Промт для Imagen 3: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of the golden hour lends a nostalgic and intimate feel to the image.
- Презентовали Veo (text-to-video) модель, конкурента SORA от OpenAI. Из ощущений при просмотре — немного мыльно; пока SORA выглядит лучше. Впрочем, и то, и другое пока не находится в публичном доступе и для тестирования недоступно.
- Представлены новые процессоры TPU 6 Trillium для обучения ИИ. Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение — хотя все равно в первую очередь будет использовать сам Google для тренировки своих моделей.
- Зарелизили мультимодальную Gemini Nano — это малая модель, которая будет работать локально на машине пользователя (!) и которую обещают встроить в Chrome 126 уже к 5 июня (!). Боюсь, качество у неё будет, конечно, не очень, но сам факт хотя бы постепенного переноса обработки текста с серверов на личные машины пользователя меня радует.
Теперь, когда с обязательной частью покончено, давайте перейдем к моему любимому — языковым моделям.
❯ Gemini Flash 1.5
Первое, что бросается в глаза — 1М контекстного окна и очень низкая цена за обработку.
И то и другое достаточно важно для обычных бизнес-кейсов. Топовые сети типа GPT-4o или Claude 3 Opus — это очень круто, но целые книги или руководства на 200 страниц через них гонять прям дорого. Поэтому дешевая сеть — это “рабочая лошадка” для большинства ежедневных или автоматизированных кейсов. Релиз Gemini Nano также говорит о том, что Гугл хочет “малые сети везде и дешево”.
До этого того же уровня стоимости была Claude 3 Haiku c 200К контекста — примерно в 1.5-2 раза дешевле gpt-3.5-turbo и в 15-20 раз дешевле GPT-4o. Постоянно вижу, как используют Haiku и думаю, у Gemini Flash хорошие перспективы.
❯ Тест: 5 идей для детского праздника
У меня есть свой небольшой тест, которым я проверяю каждую сеть, которую подключаю по API — запрос “Напиши 5 идей для детского праздника”
Не могу сказать, что тест какой-то гениальный, но для меня играет роль “насмотренность”: когда уже видел, как более 50 сетей отвечают на этот вопрос, понемногу чувствуешь общие паттерны, и “на что смотреть”.
Давайте немного прокомментирую этот ответ:
- Правильный русский язык. Это очень хорошо — и не всегда бывает — опенсорсные сети, часто вставляют нерусские слова. Например, Llama3-70B-Instruct добавляет английские, Qwen-110B иногда добавляет иероглифы (потому что сеть китайская). Также видно нормальное сочетание падежей (тоже бывает не всегда)
- Структурированный Markdown-выход. Означает, что сеть чувствительна к системному промту, ему следует и неплохо знает про Markdown, включая вложенные элементы синтаксиса. Тоже бывает не всегда; также может свидетельствовать о том, что сеть специально тренировали давать ответы в виде структурированных списков (на презентации Google I/O было видно, что ответ на вопрос по письмам пользователя также дается в формате списка — это частый кейс при суммаризации)
Ну т.е. сеть уже можно сказать на уровне gpt-3.5-turbo, что неплохо — учитывая, что она дешевле.
❯ Тест: перевод с английского на русский
Я поддерживаю в рамках опенсорсного проекта свой бенчмарк переводов с английского на русский и обычно пробую на нем все выходящие нейросети для понимания того, насколько они «могут в русский язык». Это далеко не идеальный тест — но какое-то представление о возможностях модели он дает.
Вот скрин — нас интересует последняя колонка, она как раз отражает оценку по качеству перевода EN->RU.
Не стоит смотреть на то, что разница невелика — это метрика COMET, там небольшое увеличение может означать хороший прирост качества (например, разница между Google Translate и DeepL составляет всего-то 0.20 в пользу DeepL)
Что тут можно прокомментировать?
- Gemini Flash набирает 89.27 — не очень много, но лучше gpt-3.5-turbo, и чуть хуже Claude 3 Haiku. Вполне приемлемо для недорогой модели.
- Интересен результат вышедшей GPT-4o — 90.06. Это наивысший результат среди прочих сетей, кроме Claude 3 Opus — та показывает 90.75, являясь абсолютным лидером. Известно, что GPT-4o значительно выигрывает даже у GPT-4-Turbo в задачах программирования — но если мы берем лингвистические задачи, другие сети тоже могут показывать себя очень достойно — так что, как любят говорить, “не все так однозначно”. Собственно, поэтому я люблю иметь выбор.
❯ Быстро? Быстро
Интересно, что обе компании — и OpenAI, и Google — позаботились о скорости работы своих моделей.
GPT-4o выдает около 80 токенов в секунду, Gemini Flash — 150 токенов (по отчетам скорости генерации, которые я видел), хотя для GPT-4o, это, конечно, больший подвиг, т.к. сама по себе сеть большая.
Для сравнения — типовой результат более старой GPT-4-Turbo около 25 токенов в секунду, и это было довольно неплохо. Так что сейчас можно наслаждаться быстрыми ответами.
❯ Всё?
Да. Мне не удалось найти результатов тестов типа “поиск иголки в стоге сена” для Gemini Flash, чтобы понять, насколько она внимательно относится к контексту.
Но, думаю, в любом случае этот инструмент займет своё место в арсенале LLM-мастера.
Возможно, захочется почитать и это:
- ➤ GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу?
- ➤ Эмад Мостак: визионер или обманщик? Разоблачение создателя Stability AI и Stable Diffusion
- ➤ Нейросеть мне в помощь или как я сделал телеграм бота, который умеет переводить песни
- ➤ Руководство по Next.js.
- ➤ История создания «Корсаров 2» ака «Пираты Карибского моря»
Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩
Комментарии (6)
theurus
15.05.2024 14:48+1Кто нибудь может объяснить для чего нужны, как реально используются, маленькие модели, например лама 8б.
janvarev Автор
15.05.2024 14:48Ллама 8б не очень хороша на русском, но на английском это вполне приличная модель. Например, может отвечать на вопрос: "Определи тональность текста: позитивная, нейтральная, негативная". В целом, на такую модель GPT-4 это как-то overkill. Т.е. простые задачи.
8б проще/дешевле дотюнивать под определенные задачи / на определенные тексты. Например, у Ильи Гусева вышла Сайга3-8B - Ллама3-8Б, дотюненая на русский язык. По его бенчмаркам, она выигрывает (около 60% побед) у обычной gpt-3.5-turbo, при этом её можно адекватно запустить на домашнем GPU или даже CPU.
Вполне возможно (но тут неточно) - ответы по контексту. Т.е. если вас не интересуют базовые знания модели, а нужно просто "вытащить" результат из простыни текста - небольшая модель это (имхо) тоже может неплохо сделать, хотя тут смотреть надо.
jhas7
15.05.2024 14:48+1Модерация, определение сценария(не хотел ли юзер этими словами вызвать генератор изображений например), определение тональности итп, со всем этим плохо справляются даже самые большие модели, частые ложные и ошибочные срабатывания у них.
Вот например у меня есть функция сделанная на большой модели, она делает репромпт для рисования, юзер пишет нарисуй карты деньги 2 ствола а она должна переписать на английском и если запрос короткий и неподробный насытить его подробностями. Я пробовал заменить самую большую модель на поменьше и у более мелкой модели явные проблемы появляются, например она начинает путать стволы и бочонки, они по английски одинаково пишутся, не знает многих редких слов и персоналий. А она как бы не совсем маленькая - лама3-70.
Так что вопрос остается открытым, в каких реальных проектах и как реально используются мелкие модельки.
Wesha
Давайте я немного прокомментирую этот ответ:
Неправильная русская типографика. Писать Слова Заголовка С Заглавной — Это Чисто Западная Газетная Заморочка. В русской традиции ЛИБО ПИСАТЬ ЗАГОЛОВОК ЦЕЛИКОМ ЗАГЛАВНЫМИ, либо Писать нормально, но выделять жирным шрифтом или размером.
Для меня играет роль “насмотренность”: когда уже прочитал сначала 100500 книг и газет на русском языке, а потом немногим меньше — на английском, подобные вещи начинают прямо-таки резать глаза.
Хм....
Дети и верёвки (не толстые канаты, а именно тонкие верёвки). И что может пойти не так? Позаботьтесь, чтобы где-то поблизости дежурил реанимобиль, на всякий случай — дети такие затейники, и обязательно найдётся какой-нибудь семилетний гений, который решит поиграть во вздёрни друга детства на рее...
janvarev Автор
Ну, потому что я сравниваю с результатами других сетей (которых насмотрелся), а вы - с уже хорошо сверстанным человеком текстом - и у вас требования к типографике, не к языку. Это разные сравнения, конечно.
dollar
Отсутствие Title Case в ответах уже можно рассматривать как уровень знания русского языка. Здесь два фактора:
1. Качество данных, на которых обучалась модель. Если это СЕО-заголовки, то там вполне такое практикуется, к сожалению, и довольно часто. Очевидно, что в идеале данные должны быть очищены от подобного мусора.
2. Наличие "ума" у модели, которая способна отделить мух от котлет. То есть если модель в итоге смогла понять, что хорошо, а что плохо, то в теории она может обучаться на любых данных, включающих в себя примеры и антипримеры правильности. К сожалению, это пока что на грани фантастики, по крайней мере на этапе обучения.
В любом случае, для хоть сколько-нибудь "умных" моделей работает костыль по типу "Respect Russian grammar; for example, avoid capitalizing all major words in titles". Радуемся тому, что есть.