В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.
Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
GPT-4o от 20 ноября — ТОП-3!
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
Qwen QwQ 32B Preview — слишком умный
Gemini Experimental 1121 — достойный, но труднодоступный
Планы для бенчмарков LLM v2 — фокус на кейсах и возможностях
Бенчмарк Text-to-SQL
Бенчмарки LLM | Ноябрь 2024 г.
Бенчмарки оценивают модели с точки зрения их пригодности для разработки цифровых продуктов. Чем выше оценка, тем лучше.
☁️ - Облачные модели с собственной лицензией
✅ - Модели с открытым исходным кодом, которые можно запускать локально без ограничений
? - Локальные модели с лицензией Llama
Code — может ли модель генерировать код и помогать с программированием?
Cost — предполагаемая стоимость выполнения рабочей нагрузки. Для облачных моделей мы рассчитываем стоимость в соответствии с ценами. Для локальных моделей мы оцениваем стоимость на основе требований к графическому процессору для каждой модели, стоимости аренды графического процессора, скорости модели и эксплуатационных расходов.
CRM — насколько хорошо модель поддерживает работу с каталогами продуктов и торговыми площадками?
Docs — насколько хорошо модель может работать с большими документами и базами знаний?
Integration — может ли модель легко взаимодействовать с внешними API, сервисами и плагинами?
Marketing — насколько хорошо модель может поддерживать маркетинговые мероприятия, например, мозговой штурм, генерацию идей и текстов?
Reason — насколько хорошо модель может рассуждать и делать выводы в заданном контексте?
Speed — в столбце «Скорость» указана расчетная скорость модели в запросах в секунду (без пакетной обработки). Чем выше скорость, тем лучше.
Полная таблица по ссылке: https://www.timetoact-group.com/en/details/llm-benchmarks-november-2024
Обновление Claude 3.5 v2 и извлечение документов в производстве
В октябрьском «LLM Benchmark» мы написали, что Anthropic добилась небольшого улучшения возможностей своего Claude 3.5 v2. Это улучшение относительно небольшое, но недостаточное, чтобы поместить его в ТОП-10.
Тем не менее, Anthropic Claude 3.5 Sonnet v2 в настоящее время является нашим первым выбором для проектов по извлечению данных (например, в рамках автоматизации бизнеса в производственных отраслях). Вы спросите, почему?
Представьте, что вам нужно тщательно извлечь из 1000 паспортов данные о спецификациях продукта для 20 000 электрических компонентов. Эти PDF-файлы могут включать сложные таблицы и даже диаграммы. Извлеченные данные затем можно использовать для сравнения продуктов компании с продуктами конкурентов, предлагая эквивалентные компоненты во встроенной рекламе или управляя решениями по цепочке поставок.
Anthropic Claude 3.5 Sonnet v2 имеет две замечательные функции, которые хорошо работают вместе:
Встроенная обработка PDF — теперь мы можем загружать файлы PDF непосредственно в API вместе с инструкциями по извлечению данных. Anthropic API разбивает PDF-файл на страницы и загружает каждую страницу дважды: в виде изображения и в виде текста. Это решение работает достаточно хорошо «из коробки», чтобы заменить ранее сложные настройки, в которых использовались выделенные VLM (визуальные модели языка), работающие на локальных графических процессорах.
PDF-файлы могут потреблять много токенов, особенно если они сопровождаются большим системным запросом. Чтобы ускорить обработку, повысить точность и снизить затраты, мы используем двухуровневое кэширование Prompt от Anthropic. Это позволяет нам оплатить полную стоимость токенизации PDF только один раз.
Вот как может выглядеть наш запрос для извлечения данных:
Системная подсказка: Ваша задача — извлечь данные о продукте из PDF. Вот схема (большая схема) и контекст компании.
Подсказка к документу: вот PDF-файл, из которого можно извлечь данные. В нем есть несколько продуктов (большой PDF).
Задача: извлечь продукт X из PDF.
Таким образом мы можем извлечь несколько продуктов из одного PDF-файла (следуя шаблону контрольного списка). Системная подсказка (1) и подсказка к документу (2) будут кэшироваться между всеми запросами на извлечение в один и тот же PDF. Система (1) будет кэшироваться между всеми запросами на извлечение PDF этого типа в целом.
Каждый раз, когда часть подсказки кэшируется на сервере, это обходится дешевле и выполняется быстрее. Например, на 30-70% быстрее и на 50-90% дешевле, как описано в документации Anthropic. В случаях извлечения данных экономия затрат, как правило, ближе к верхней границе этого диапазона.
Вот как это выглядит в действии: «Создание кэша» указывается, когда часть подсказки сохраняется в кэше, а «Чтение кэша» указывается, когда кэшированная подсказка используется повторно, что экономит время и деньги.
Есть небольшой нюанс. Антропные модели не имеют возможности структурированного вывода OpenAI. Поэтому вы можете подумать, что мы можем потерять две удивительные функции:
Точное следование схеме
Возможность жестко закодировать пользовательский процесс цепочки мыслей, который будет управлять LLM через процесс извлечения данных.
Но это не так! Структурированный вывод — это всего лишь возможность вывода, которая управляет ограниченным декодированием (выбором токена) для точного следования схеме. Способный LLM сможет извлечь даже сложную структуру без него. И при этом он будет следовать процессу цепочки мыслей, закодированному в определении схемы.
Антропный Claude 3.5 Sonnet v2, безусловно, может это сделать. И в 5-7% случаев, когда нам возвращается слегка недействительная схема, мы можем передать результаты в GPT-4o для ее исправления.
Вот пример определения структурированного вывода из одного проекта (качество изображения было намеренно снижено).
GPT-4o от 20 ноября — ТОП 3
OpenAI не удосужилась опубликовать полноценный анонс этой модели (gpt-4o-2024-11-20 в API). Недавно они опубликовали обновление в Твиттере:
Модель заслуживает особого упоминания в наших бенчмарках. По сравнению с предыдущей GPT-4o v2/2024-08-06, модель показывает заметное улучшение, особенно в категории «Reason».
Вы также можете заметить обычную схему OpenAI с моделями:
Сначала они выпускают новую мощную модель (в данном случае GPT-4o v1)
Затем они выпускают следующую модель в том же семействе, которая намного дешевле в запуске
И, наконец, они улучшают модель, все еще работая с меньшими затратами.
Несколько моделей Qwen от Alibaba
Qwen 2.5 Coder 32B Instruct — это новая модель в семействе Qwen. Поначалу она расстроит вас, а затем обрадует.
Сама модель может быть загружена с HuggingFace и запущена локально на вашем оборудовании.
Печально то, что эта модель кодирования плохо справилась с нашей категорией задач Code+Eng. Она смогла справиться с задачами кодирования, но не справилась с более сложными задачами проверки и анализа кода. Кроме того, ее рассуждения, как правило, довольно низкие — 46.
Чего же можно ожидать от модели под названием «Кодер», верно? И на самом деле в кодировании эта модель довольно хороша. Эта модель показала себя так же хорошо, как Sonnet 3.5 в бенчмарке кодирования для сложных задач преобразования текста в SQL (подробнее об этом позже).
Что же такого хорошего в этой модели? Эта модель, ориентированная на кодирование, представляет собой новое качественное улучшение для локальных моделей в категории «Она может работать на графическом процессоре A100/H100»!
Кстати, интересно отметить, что несколько других крупных улучшений качества, которые продвинули State of the Art для локальных моделей, также были реализованы Qwen.
Также интересно, что «o1-killer» от Qwen не набрал таких высоких баллов в нашем бенчмарке. Qwen: QwQ 32B Preview был разработан, чтобы продвинуться в возможностях рассуждения. Согласно некоторым бенчмаркам, он преуспел в этом. Однако он не подходит для задач продукта и автоматизации бизнеса. Почему? Он слишком много говорит и не следует инструкциям.
Учитывая приведенную ниже подсказку, это также подкрепляется парой примеров:
Вы извлекаете свойства продукта из предоставленного текста. Если не можете определить, ответьте в формате: «числовая единица» или «Н/Д». Уберите кавычки, разделители тысяч и комментарии.
Модель будет стремиться начать ответ следующим образом:
Хорошо, у меня есть этот текст об электрической отвертке...
Даже крошечный mistral-7b-instruct-f16 ответил бы что-то вроде 1300 об/мин.
Это может показаться несправедливым сравнением QwQ с топовой моделью o1-preview. У o1 есть возможность рассуждать в частном порядке, прежде чем предоставить свой ответ (для этого он использует токены рассуждений).
Чтобы сделать ситуацию более справедливой для новых поколений моделей рассуждения, мы немного изменим ситуацию в следующем крупном обновлении нашего бенчмарка — моделям будет разрешено рассуждать, прежде чем давать ответ. Модели, которые слишком много думают, будут изначально наказаны за счет своей стоимости и огромной задержки.
LLM Benchmark v2
Мы запускаем текущую версию бенчмарка без серьезных изменений почти полтора года. Изменения были исключены, чтобы результаты бенчмарка были сопоставимы между моделями и тестовыми запусками.
Однако с июля 2023 года многое изменилось в ландшафте:
Структурированные выходные данные — позволяют нам определять точный формат ответа и даже управлять пользовательской цепочкой мыслей для сложных задач.
Мультимодальные языковые модели могут обрабатывать изображения и аудио в дополнение к текстовым входным данным. Входные данные изображений активно используются при извлечении документов.
Оперативное кэширование меняет перспективу создания систем RAG, запуска сложных контрольных списков или извлечения данных из множества документов.
Новые модели рассуждений позволяют нам повышать производительность моделей, разбивая сложные задачи на небольшие шаги, а затем инвестируя (оплачиваемое) время в их размышление.
Кроме того, мы получили гораздо больше информации о создании систем на основе LLM и добавили больше кейсов в наше портфолио ИИ.
Настало время для большого обновления. Работа над бенчмарком TIMETOACT GROUP LLM v2 уже началась. Мы рассчитываем опубликовать первый проект отчета в начале следующего года.
Бенчмарк V2 сохранит основы из v1, но будет больше сосредоточен на конкретных случаях ИИ и новых возможностях модели. Также ожидается больше диаграмм.
Gemini Experimental 1121 — хорош, но «непонятен»
Gemini Experimental 1121 — это новая модель-прототип от Google. В настоящее время она доступна в тестовых средах, таких как AI Studio или OpenRouter. Эта модель не продвигает новейшие разработки для Gemini, но доказывает, что присутствие Google в ТОП-10 — вовсе не счастливое совпадение. Это третья модель Gemini, попавшая в ТОП-10.
Однако в настоящее время эту модель невозможно использовать. Она предоставляется бесплатно, но имеет жесткие ограничения по скорости. Потребовалось 3 дня и несколько ключей API только для того, чтобы запустить несколько сотен оценок из нашего бенчмарка.
Бенчмарк Text-to-SQL
Neo4j опубликовал видео с конференции NODES24 о бенчмаркинге различных LLM в задачах text-to-SQL и text-to-Cypher.
Примером задачи Text-to-SQL является использование LLM для перевода человеческого запроса в сложный запрос к базе данных SQL компании. Он используется для самостоятельной отчетности. Text-to-Cypher аналогичен, но выполняет запросы к таким базам данных, как Neo4j.
Исследование и презентация были выполнены в партнерстве с двумя компаниями из TIMETOACT GROUP: X-Integrate и TIMETOACT GROUP Austria.
Самый важный слайд презентации — ниже. Он показывает точность, с которой разные LLM генерировали запросы для сложной базы данных. Эта база данных содержала информацию о технических и организационных зависимостях в компании для целей управления рисками.
«Базовые» баллы — это баллы без каких-либо оптимизаций производительности, в то время как «полные» баллы используют ряд оптимизаций производительности для повышения точности генерации запросов.
Вы можете узнать больше об этих оптимизациях (и о бенчмарке), посмотрев презентацию онлайн на YouTube.
Некоторые из этих задач text-to-query будут даже включены в наш предстоящий бенчмарк LLM v2.
WizAnd
Переводила текст, наверно, другая модель, которая не вошла в рейтинг и этим была очень обижена. Другой причины, почему перевод такой убогий не вижу
rbdr
Антропный, блин