В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

  • Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF

  • GPT-4o от 20 ноября — ТОП-3!

  • Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!

  • Qwen QwQ 32B Preview — слишком умный

  • Gemini Experimental 1121 — достойный, но труднодоступный

  • Планы для бенчмарков LLM v2 — фокус на кейсах и возможностях

  • Бенчмарк Text-to-SQL

Бенчмарки LLM | Ноябрь 2024 г.

Бенчмарки оценивают модели с точки зрения их пригодности для разработки цифровых продуктов. Чем выше оценка, тем лучше.

☁️ - Облачные модели с собственной лицензией

✅ - Модели с открытым исходным кодом, которые можно запускать локально без ограничений

? - Локальные модели с лицензией Llama

  • Code — может ли модель генерировать код и помогать с программированием?

  • Cost — предполагаемая стоимость выполнения рабочей нагрузки. Для облачных моделей мы рассчитываем стоимость в соответствии с ценами. Для локальных моделей мы оцениваем стоимость на основе требований к графическому процессору для каждой модели, стоимости аренды графического процессора, скорости модели и эксплуатационных расходов.

  • CRM — насколько хорошо модель поддерживает работу с каталогами продуктов и торговыми площадками?

  • Docs — насколько хорошо модель может работать с большими документами и базами знаний?

  • Integration — может ли модель легко взаимодействовать с внешними API, сервисами и плагинами?

  • Marketing — насколько хорошо модель может поддерживать маркетинговые мероприятия, например, мозговой штурм, генерацию идей и текстов?

  • Reason — насколько хорошо модель может рассуждать и делать выводы в заданном контексте?

  • Speed — в столбце «Скорость» указана расчетная скорость модели в запросах в секунду (без пакетной обработки). Чем выше скорость, тем лучше.

Полная таблица по ссылке: https://www.timetoact-group.com/en/details/llm-benchmarks-november-2024

Обновление Claude 3.5 v2 и извлечение документов в производстве

В октябрьском «LLM Benchmark» мы написали, что Anthropic добилась небольшого улучшения возможностей своего Claude 3.5 v2. Это улучшение относительно небольшое, но недостаточное, чтобы поместить его в ТОП-10.

Тем не менее, Anthropic Claude 3.5 Sonnet v2 в настоящее время является нашим первым выбором для проектов по извлечению данных (например, в рамках автоматизации бизнеса в производственных отраслях). Вы спросите, почему?

Представьте, что вам нужно тщательно извлечь из 1000 паспортов данные о спецификациях продукта для 20 000 электрических компонентов. Эти PDF-файлы могут включать сложные таблицы и даже диаграммы. Извлеченные данные затем можно использовать для сравнения продуктов компании с продуктами конкурентов, предлагая эквивалентные компоненты во встроенной рекламе или управляя решениями по цепочке поставок.

Anthropic Claude 3.5 Sonnet v2 имеет две замечательные функции, которые хорошо работают вместе:

Встроенная обработка PDF — теперь мы можем загружать файлы PDF непосредственно в API вместе с инструкциями по извлечению данных. Anthropic API разбивает PDF-файл на страницы и загружает каждую страницу дважды: в виде изображения и в виде текста. Это решение работает достаточно хорошо «из коробки», чтобы заменить ранее сложные настройки, в которых использовались выделенные VLM (визуальные модели языка), работающие на локальных графических процессорах.

PDF-файлы могут потреблять много токенов, особенно если они сопровождаются большим системным запросом. Чтобы ускорить обработку, повысить точность и снизить затраты, мы используем двухуровневое кэширование Prompt от Anthropic. Это позволяет нам оплатить полную стоимость токенизации PDF только один раз.

Вот как может выглядеть наш запрос для извлечения данных:

  1. Системная подсказка: Ваша задача — извлечь данные о продукте из PDF. Вот схема (большая схема) и контекст компании.

  2. Подсказка к документу: вот PDF-файл, из которого можно извлечь данные. В нем есть несколько продуктов (большой PDF).

  3. Задача: извлечь продукт X из PDF.

Таким образом мы можем извлечь несколько продуктов из одного PDF-файла (следуя шаблону контрольного списка). Системная подсказка (1) и подсказка к документу (2) будут кэшироваться между всеми запросами на извлечение в один и тот же PDF. Система (1) будет кэшироваться между всеми запросами на извлечение PDF этого типа в целом.

Каждый раз, когда часть подсказки кэшируется на сервере, это обходится дешевле и выполняется быстрее. Например, на 30-70% быстрее и на 50-90% дешевле, как описано в документации Anthropic. В случаях извлечения данных экономия затрат, как правило, ближе к верхней границе этого диапазона.

Вот как это выглядит в действии: «Создание кэша» указывается, когда часть подсказки сохраняется в кэше, а «Чтение кэша» указывается, когда кэшированная подсказка используется повторно, что экономит время и деньги.

Есть небольшой нюанс. Антропные модели не имеют возможности структурированного вывода OpenAI. Поэтому вы можете подумать, что мы можем потерять две удивительные функции:

  • Точное следование схеме

  • Возможность жестко закодировать пользовательский процесс цепочки мыслей, который будет управлять LLM через процесс извлечения данных.

Но это не так! Структурированный вывод — это всего лишь возможность вывода, которая управляет ограниченным декодированием (выбором токена) для точного следования схеме. Способный LLM сможет извлечь даже сложную структуру без него. И при этом он будет следовать процессу цепочки мыслей, закодированному в определении схемы.

Антропный Claude 3.5 Sonnet v2, безусловно, может это сделать. И в 5-7% случаев, когда нам возвращается слегка недействительная схема, мы можем передать результаты в GPT-4o для ее исправления.

Вот пример определения структурированного вывода из одного проекта (качество изображения было намеренно снижено).

GPT-4o от 20 ноября — ТОП 3

OpenAI не удосужилась опубликовать полноценный анонс этой модели (gpt-4o-2024-11-20 в API). Недавно они опубликовали обновление в Твиттере:

Модель заслуживает особого упоминания в наших бенчмарках. По сравнению с предыдущей GPT-4o v2/2024-08-06, модель показывает заметное улучшение, особенно в категории «Reason».

Вы также можете заметить обычную схему OpenAI с моделями:

  1. Сначала они выпускают новую мощную модель (в данном случае GPT-4o v1)

  2. Затем они выпускают следующую модель в том же семействе, которая намного дешевле в запуске

  3. И, наконец, они улучшают модель, все еще работая с меньшими затратами.

Несколько моделей Qwen от Alibaba

Qwen 2.5 Coder 32B Instruct — это новая модель в семействе Qwen. Поначалу она расстроит вас, а затем обрадует.

Сама модель может быть загружена с HuggingFace и запущена локально на вашем оборудовании.

Печально то, что эта модель кодирования плохо справилась с нашей категорией задач Code+Eng. Она смогла справиться с задачами кодирования, но не справилась с более сложными задачами проверки и анализа кода. Кроме того, ее рассуждения, как правило, довольно низкие — 46.

Чего же можно ожидать от модели под названием «Кодер», верно? И на самом деле в кодировании эта модель довольно хороша. Эта модель показала себя так же хорошо, как Sonnet 3.5 в бенчмарке кодирования для сложных задач преобразования текста в SQL (подробнее об этом позже).

Что же такого хорошего в этой модели? Эта модель, ориентированная на кодирование, представляет собой новое качественное улучшение для локальных моделей в категории «Она может работать на графическом процессоре A100/H100»!

Кстати, интересно отметить, что несколько других крупных улучшений качества, которые продвинули State of the Art для локальных моделей, также были реализованы Qwen.

Также интересно, что «o1-killer» от Qwen не набрал таких высоких баллов в нашем бенчмарке. Qwen: QwQ 32B Preview был разработан, чтобы продвинуться в возможностях рассуждения. Согласно некоторым бенчмаркам, он преуспел в этом. Однако он не подходит для задач продукта и автоматизации бизнеса. Почему? Он слишком много говорит и не следует инструкциям.

Учитывая приведенную ниже подсказку, это также подкрепляется парой примеров:

Вы извлекаете свойства продукта из предоставленного текста. Если не можете определить, ответьте в формате: «числовая единица» или «Н/Д». Уберите кавычки, разделители тысяч и комментарии.

Модель будет стремиться начать ответ следующим образом:

Хорошо, у меня есть этот текст об электрической отвертке...

Даже крошечный mistral-7b-instruct-f16 ответил бы что-то вроде 1300 об/мин.

Это может показаться несправедливым сравнением QwQ с топовой моделью o1-preview. У o1 есть возможность рассуждать в частном порядке, прежде чем предоставить свой ответ (для этого он использует токены рассуждений).

Чтобы сделать ситуацию более справедливой для новых поколений моделей рассуждения, мы немного изменим ситуацию в следующем крупном обновлении нашего бенчмарка — моделям будет разрешено рассуждать, прежде чем давать ответ. Модели, которые слишком много думают, будут изначально наказаны за счет своей стоимости и огромной задержки.

LLM Benchmark v2

Мы запускаем текущую версию бенчмарка без серьезных изменений почти полтора года. Изменения были исключены, чтобы результаты бенчмарка были сопоставимы между моделями и тестовыми запусками.

Однако с июля 2023 года многое изменилось в ландшафте:

  • Структурированные выходные данные — позволяют нам определять точный формат ответа и даже управлять пользовательской цепочкой мыслей для сложных задач.

  • Мультимодальные языковые модели могут обрабатывать изображения и аудио в дополнение к текстовым входным данным. Входные данные изображений активно используются при извлечении документов.

  • Оперативное кэширование меняет перспективу создания систем RAG, запуска сложных контрольных списков или извлечения данных из множества документов.

  • Новые модели рассуждений позволяют нам повышать производительность моделей, разбивая сложные задачи на небольшие шаги, а затем инвестируя (оплачиваемое) время в их размышление.

Кроме того, мы получили гораздо больше информации о создании систем на основе LLM и добавили больше кейсов в наше портфолио ИИ.

Настало время для большого обновления. Работа над бенчмарком TIMETOACT GROUP LLM v2 уже началась. Мы рассчитываем опубликовать первый проект отчета в начале следующего года.

Бенчмарк V2 сохранит основы из v1, но будет больше сосредоточен на конкретных случаях ИИ и новых возможностях модели. Также ожидается больше диаграмм.

Gemini Experimental 1121 — хорош, но «непонятен»

Gemini Experimental 1121 — это новая модель-прототип от Google. В настоящее время она доступна в тестовых средах, таких как AI Studio или OpenRouter. Эта модель не продвигает новейшие разработки для Gemini, но доказывает, что присутствие Google в ТОП-10 — вовсе не счастливое совпадение. Это третья модель Gemini, попавшая в ТОП-10.

Однако в настоящее время эту модель невозможно использовать. Она предоставляется бесплатно, но имеет жесткие ограничения по скорости. Потребовалось 3 дня и несколько ключей API только для того, чтобы запустить несколько сотен оценок из нашего бенчмарка.

Бенчмарк Text-to-SQL

Neo4j опубликовал видео с конференции NODES24 о бенчмаркинге различных LLM в задачах text-to-SQL и text-to-Cypher.

Примером задачи Text-to-SQL является использование LLM для перевода человеческого запроса в сложный запрос к базе данных SQL компании. Он используется для самостоятельной отчетности. Text-to-Cypher аналогичен, но выполняет запросы к таким базам данных, как Neo4j.

Исследование и презентация были выполнены в партнерстве с двумя компаниями из TIMETOACT GROUP: X-Integrate и TIMETOACT GROUP Austria.

Самый важный слайд презентации — ниже. Он показывает точность, с которой разные LLM генерировали запросы для сложной базы данных. Эта база данных содержала информацию о технических и организационных зависимостях в компании для целей управления рисками.

«Базовые» баллы — это баллы без каких-либо оптимизаций производительности, в то время как «полные» баллы используют ряд оптимизаций производительности для повышения точности генерации запросов.

Вы можете узнать больше об этих оптимизациях (и о бенчмарке), посмотрев презентацию онлайн на YouTube.

Некоторые из этих задач text-to-query будут даже включены в наш предстоящий бенчмарк LLM v2.

Комментарии (2)


  1. WizAnd
    16.12.2024 14:10

    Переводила текст, наверно, другая модель, которая не вошла в рейтинг и этим была очень обижена. Другой причины, почему перевод такой убогий не вижу


    1. rbdr
      16.12.2024 14:10

      Антропный, блин