LLM Leaderboard за май 2024 / forpes.ru

Главная
LLM Leaderboard за май 2024

LLM Leaderboard за май 2024

23.05.2024 15:30

Motoroller_love 5 2800 Источник

Привет, Хабр!

AI-хайп достиг нового пика, и кажется, что весь мир сейчас занят внедрением AI-функций в свои продукты, собирая миллионы на разработку новых оболочек для ChatGPT и добавляя в свои арсеналы бесчисленные AI-инструменты. В этом вихре инноваций интересно узнать, какие LLM действительно помогают бизнесу решать задачи эффективнее. Сегодня мы готовы раскрыть LLM Leaderboard за май 2024 и показать, какие модели оказались в авангарде, а каким еще предстоит доказать свою эффективность. Давайте разберем, кто по-настоящему заслуживает вашего внимания и инвестиций, а кто просто ловит волну хайпа!

Из чего состоит бенчмарк?

docs - работа с большими документами и базами знаний
crm - для работы с каталогами продуктов и маркетплейсами
integrate - интеграция со сторонними апишками, сервисами и плагинами
marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation
reason - насколько хорошо с логикой в рамках предоставленного контекста
code - работа с кодом
final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский.

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers.

Что нового?

Qwen1.5 Chat — китайский ответ Llama 3 от Alibaba Cloud. Это семейство LLM от 0.5B до 110B параметров демонстрирует неплохие результаты на продуктовых LLM-бенчмарках.
- 7B: сопоставима с Anthropic Claude 2.1 и Cohere Command R.
- 14B: чуть слабее, но все еще конкурентоспособна.
- 32B: на уровне старых версий GPT-3.5, Gemini Pro 1.0 и Cohere Command R+. Уверенный середнячок с некоторыми провалами в reasoning.
- 72B: не прошла тест из-за ошибки CUDA (не только у меня, см. (https://github.com/QwenLM/Qwen1.5/issues/331)).
- 110B: пока не тестировал, жду, пока устранят баги.
Google Gemini — результаты разочаровывают. Новая Gemini Pro 1.5 стала лучше следовать инструкциям и демонстрирует более качественный reasoning, но при этом она изобилует ошибками, тормозит и даже умудрилась пометить один из запросов как HARM_CATEGORY_DANGEROUS_CONTENT.

За те же деньги можно взять GPT-4o и получить значительно более высокое качество.

Gemini Flash 1.5 работает на уровне январской версии GPT-3.5 и стоит столько же.

А вот обещанная "прорывная" Gemini Ultra, которую так ждали в начале года, кажется, исчезла в черной дыре. На последней Google I/O о ней не сказали ни слова.
GPT-4o — настоящее открытие: модель быстра, поддерживает контекст до 128K и стоит дешевле GPT-4 Turbo. Её уникальная особенность — способность понимать и выражать эмоции.

Под капотом у неё расширенный словарь, значительно сокращающий количество токенов, используемых моделью. Улучшилось также понимание языков.

Хотя значительного скачка в производительности не наблюдается, поскольку модели уже приблизились к потолку бенчмарка, GPT-4o всё же делает впечатляющий рывок в категории Reason (способность к сложным рассуждениям), подняв этот показатель с 62 (GPT-4 Turbo v3/1106-preview) до 75 ?.

Что ещё круче — вся эта мощь будет доступна бесплатно в ChatGPT!

Если хотите оперативнее получать свежие бенчмарки и не пропускать кейсы применения ai в продакшен, подписывайтесь на мой Telegram-канал it_garden (там уже ждёт описание кейса «Реализация умного поиска по документам компании»).

Комментарии (5)

SergeyKovalev
23.05.2024 16:21
#26855561
+7
Бенчмарк - закрытый

Не удивлён, что публикация тонет в минусах.
1. ValeriyPushkarev
  23.05.2024 16:21
  #26856577
  Гугл-то наш не первый!
  
  Китайцы между OpenSource и некачественным OpenSource.
  
  А про Китов (Yandex, Сбер, Тинькофф (таких же как и Гугл, и OpenAi - без этих, технологий)) - вообще ни слова )
  1. IgorAlentyev
    23.05.2024 16:21
    #26862511
    Ты угораешь? Этому мусору даже до оригинальной 3.5 еще несколько лет тренировок.