Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе. 

Из чего состоит бенчмарк?

  • docs - работа с большими документами и базами знаний

  • crm - для работы с каталогами продуктов и маркетплейсами

  • integrate - интеграция со сторонними апишками, сервисами и плагинами

  • marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation

  • reason - насколько хорошо с логикой в рамках предоставленного контекста

  • code - работа с кодом

  • final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B). 

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Автор бенчмарка Rinat Abdullin
Автор бенчмарка Rinat Abdullin

Что нового? 

  1. Начнем с хорошего. Llama 3 - 8B совершила гигантский скачок по сравнению с прошлой версией. Она обогнала Claude 3 Sonnet, Cohere Command R и даже Mistral 8x22B. У меня большие ожидания к тюнам Llama 3 8B Instruct.

  2. Llama 3 70B показала себе не очень хорошо, на уровне старенького cloude 2, проблема скорее всего с конфигом, ждем исправлений.

  3. Mistral AI начали фиксить свою проблему с болтливостью второго поколения своих моделей! Более того, она настолько хорошо стала следовать инструкциям, что побила рекорд ChatGPT-4 Turbo (v2024-04-09) в категории integrate. Стоит при этом раз в 10 меньше, чем Mistral Large.

  4. Новая модель Cohere Command R+ показывает себя очень хорошо, но жаль что они выпустили с лицензией cc-by-nc-4.0(не для коммерческого использования)

  5. Продукт openAI так и никому не удалось перебить, но конкуренты все догоняют. Опенсорсные модели получили скачок в развитие.

Новые бенчмарки оперативнее выходят в телеграмм канале. Если вы не хотите их пропустить, приглашаем вас подписаться на Телеграм-канал автора: it_garden. Там уже опубликована таблица с 2000 ИИ-инструментами. Полезно для того, чтобы понять, что вообще бывает.

Комментарии (5)


  1. NeoCode
    28.04.2024 15:38

    Судя по столбцу Cost, они все платные:( А для бесплатных такая табличка есть? Ведь платные - это скорее для тех кто занимается AI-генерацией профессионально и с претензией на извлечение прибыли. А для большинства юзеров, применяющих AI эпизодически (пусть даже и почти каждый день) - разобраться в каком-то вопросе, сгенерировать картинку для статьи - вполне достаточно бесплатных.


    1. borodyadka
      28.04.2024 15:38

      Не все платные. llama3, например, вполне можно локально запустить у себя через ollama (там ещё куча других моделей есть)


    1. Araki_Satoshi
      28.04.2024 15:38

      Часть из этих моделей можно подключать к фронтенду на свой выбор через OpenRouter. Платно, но в целом для большинства получится дешевле, чем подписка на ChatGPT. К тому же без цензуры.


  1. DrrRos
    28.04.2024 15:38

    Phi-3 тоже стоило бы упомянуть из свежего, 128к контекста обещается, но моделей 128к ещё нет квантованных


  1. theurus
    28.04.2024 15:38

    Какая-нибудь польза от 7b моделек есть, как их используют? Потыкал на опенроутере бесплатные модели, мистраль гемма опенчат, работают но очень плохо, даже близко не похожи на древнюю gpt3.5turbo 4к.