LLM Leaderboard за апрель 2024 / forpes.ru

Главная
LLM Leaderboard за апрель 2024

LLM Leaderboard за апрель 2024

28.04.2024 14:15

Motoroller_love 5 3200 Источник

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.

Из чего состоит бенчмарк?

docs - работа с большими документами и базами знаний
crm - для работы с каталогами продуктов и маркетплейсами
integrate - интеграция со сторонними апишками, сервисами и плагинами
marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation
reason - насколько хорошо с логикой в рамках предоставленного контекста
code - работа с кодом
final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B).

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Что нового?

Начнем с хорошего. Llama 3 - 8B совершила гигантский скачок по сравнению с прошлой версией. Она обогнала Claude 3 Sonnet, Cohere Command R и даже Mistral 8x22B. У меня большие ожидания к тюнам Llama 3 8B Instruct.
Llama 3 70B показала себе не очень хорошо, на уровне старенького cloude 2, проблема скорее всего с конфигом, ждем исправлений.
Mistral AI начали фиксить свою проблему с болтливостью второго поколения своих моделей! Более того, она настолько хорошо стала следовать инструкциям, что побила рекорд ChatGPT-4 Turbo (v2024-04-09) в категории integrate. Стоит при этом раз в 10 меньше, чем Mistral Large.
Новая модель Cohere Command R+ показывает себя очень хорошо, но жаль что они выпустили с лицензией cc-by-nc-4.0(не для коммерческого использования)
Продукт openAI так и никому не удалось перебить, но конкуренты все догоняют. Опенсорсные модели получили скачок в развитие.

Новые бенчмарки оперативнее выходят в телеграмм канале. Если вы не хотите их пропустить, приглашаем вас подписаться на Телеграм-канал автора: it_garden. Там уже опубликована таблица с 2000 ИИ-инструментами. Полезно для того, чтобы понять, что вообще бывает.

Комментарии (5)

NeoCode
28.04.2024 15:38
#26772441
Судя по столбцу Cost, они все платные:( А для бесплатных такая табличка есть? Ведь платные - это скорее для тех кто занимается AI-генерацией профессионально и с претензией на извлечение прибыли. А для большинства юзеров, применяющих AI эпизодически (пусть даже и почти каждый день) - разобраться в каком-то вопросе, сгенерировать картинку для статьи - вполне достаточно бесплатных.
1. borodyadka
  28.04.2024 15:38
  #26772537
  Не все платные. llama3, например, вполне можно локально запустить у себя через ollama (там ещё куча других моделей есть)
1. Araki_Satoshi
  28.04.2024 15:38
  #26773947
  Часть из этих моделей можно подключать к фронтенду на свой выбор через OpenRouter. Платно, но в целом для большинства получится дешевле, чем подписка на ChatGPT. К тому же без цензуры.

DrrRos
28.04.2024 15:38
#26775055
Phi-3 тоже стоило бы упомянуть из свежего, 128к контекста обещается, но моделей 128к ещё нет квантованных

theurus
28.04.2024 15:38
#26780251
Какая-нибудь польза от 7b моделек есть, как их используют? Потыкал на опенроутере бесплатные модели, мистраль гемма опенчат, работают но очень плохо, даже близко не похожи на древнюю gpt3.5turbo 4к.