Привет, Хабр!
Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.
Из чего состоит бенчмарк?
docs - работа с большими документами и базами знаний
crm - для работы с каталогами продуктов и маркетплейсами
integrate - интеграция со сторонними апишками, сервисами и плагинами
marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation
reason - насколько хорошо с логикой в рамках предоставленного контекста
code - работа с кодом
final - общий рейтинг модели
Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B).
Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.
Что нового?
Начнем с хорошего. Llama 3 - 8B совершила гигантский скачок по сравнению с прошлой версией. Она обогнала Claude 3 Sonnet, Cohere Command R и даже Mistral 8x22B. У меня большие ожидания к тюнам Llama 3 8B Instruct.
Llama 3 70B показала себе не очень хорошо, на уровне старенького cloude 2, проблема скорее всего с конфигом, ждем исправлений.
Mistral AI начали фиксить свою проблему с болтливостью второго поколения своих моделей! Более того, она настолько хорошо стала следовать инструкциям, что побила рекорд ChatGPT-4 Turbo (v2024-04-09) в категории integrate. Стоит при этом раз в 10 меньше, чем Mistral Large.
Новая модель Cohere Command R+ показывает себя очень хорошо, но жаль что они выпустили с лицензией cc-by-nc-4.0(не для коммерческого использования)
Продукт openAI так и никому не удалось перебить, но конкуренты все догоняют. Опенсорсные модели получили скачок в развитие.
Новые бенчмарки оперативнее выходят в телеграмм канале. Если вы не хотите их пропустить, приглашаем вас подписаться на Телеграм-канал автора: it_garden. Там уже опубликована таблица с 2000 ИИ-инструментами. Полезно для того, чтобы понять, что вообще бывает.
Комментарии (5)
DrrRos
28.04.2024 15:38Phi-3 тоже стоило бы упомянуть из свежего, 128к контекста обещается, но моделей 128к ещё нет квантованных
theurus
28.04.2024 15:38Какая-нибудь польза от 7b моделек есть, как их используют? Потыкал на опенроутере бесплатные модели, мистраль гемма опенчат, работают но очень плохо, даже близко не похожи на древнюю gpt3.5turbo 4к.
NeoCode
Судя по столбцу Cost, они все платные:( А для бесплатных такая табличка есть? Ведь платные - это скорее для тех кто занимается AI-генерацией профессионально и с претензией на извлечение прибыли. А для большинства юзеров, применяющих AI эпизодически (пусть даже и почти каждый день) - разобраться в каком-то вопросе, сгенерировать картинку для статьи - вполне достаточно бесплатных.
borodyadka
Не все платные. llama3, например, вполне можно локально запустить у себя через ollama (там ещё куча других моделей есть)
Araki_Satoshi
Часть из этих моделей можно подключать к фронтенду на свой выбор через OpenRouter. Платно, но в целом для большинства получится дешевле, чем подписка на ChatGPT. К тому же без цензуры.