В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.
В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Основные принципы:
- Сложность: исчерпывающие бенчмарки для изучения множества областей оценки при помощи динамически обновляемых датасетов.
- Спецификация типа систем: бенчмарки, настроенные на работу с конкретными системами, например, Co-pilot, мультимодальными, retrieval-augmented generation (RAG), tool-use и встроенными LLM.
- Цель оценки: ориентированные на проверку возможностей бенчмарки оценивают точность выполнения задачи, а ориентированные на риски — потенциальные риски.
- Спецификация конечных задач: бенчмарки, оценивающие такие задачи, как ответы на вопросы, резюмирование, классификация текстов, перевод, извлечение информации и генерация кода.
- Спецификация типов риска: бенчмарки, оценивающие риски LLM, в том числе с точки зрения конфиденциальности, надёжности, справедливости, объясняемости и экоустойчивости.
Что такое бенчмаркинг LLM?
Бенчмарки LLM используются для оценки точности LLM при помощи стандартизированных задач или промтов. Этот процесс включает в себя выбор задач, генерацию входных промтов и получение ответов моделей с численной оценкой точности моделей. Такая оценка крайне важна при аудитах ИИ, она позволяет объективно измерять параметры LLM, обеспечивая надёжность и этичность моделей с целью поддержания доверия общества и дальнейшего ответственного развития ИИ.
Бенчмарки для LLM можно представить как два спектра: от простых к сложным и от ориентированных на риски до ориентированных на возможности. Таким образом образуются основные четыре сегмента бенчмарков. Сложные бенчмарки охватывают множество различных целей оценки и типов систем, а простые бенчмарки направлены на конкретную цель. Ориентированные на возможности бенчмарки делают упор на оценку точности выполнения задач, а ориентированные на риски оценивают потенциальные риски моделей.
Сложность бенчмарков LLM
Простые и составные бенчмарки LLM
Многие бенчмарки LLM достаточно прямолинейны, у них есть конкретные цели и методики оценки, но новые разрабатываемые бенчмарки становятся всё более сложными. Простые датасеты обычно делают упор на отдельные конкретные задачи, предоставляя чёткие метрики. Составные же датасеты включают в себя множественные цели и методологии. Эти сложные бенчмарки позволяют одновременно оценивать множество разных граней точности LLM, обеспечивая более целостную картину её возможностей и ограничений. Среди таких сложных бенчмарков можно упомянуть AlpacaEval, MT-bench, HELM (Holistic Evaluation of Language Models) и BIG-Bench Hard (BBH).
Таблица 1. Составные бенчмарки, ориентированные на проверку возможностей
Бенчмарк | Основные возможности | Методики оценки |
---|---|---|
AlpacaEval | Множество методик оценки, разнообразные датасеты, современные автоматические аннотаторы, метрики с контролем длины | Валидация живыми людьми, автоматическая оценка |
MTBench | 80 многоэтапных вопросов, оценивает поток ведения беседы и способность следовать инструкциям | Современные LLM-оценщики (например, GPT-4) |
HELM | Широкий спектр сценариев, множество метрик (accuracy, калибровка, надёжность, справедливость, предубеждённость, токсичность, эффективность) | Оценка по множеству метрик, целевая оценка |
BIG-Bench Hard (BBH) | 23 задачи, требующие многоэтапных рассуждений, включают в себя логическую дедукцию, арифметику, рассуждения на основе здравого смысла | Few-shot-промтинг, цепочки рассуждений (Chain-of-Thought, CoT) |
Статические и динамические бенчмарки LLM
Большинство бенчмарков статично, то есть состоит из неизменного набора вопросов или задач, не меняющихся со временем; однако некоторые бенчмарки динамичны, в них постоянно добавляются новые вопросы или задачи. Это помогает поддерживать их релевантность и предотвращает переобучение моделей под конкретный датасет. Примерами таких бенчмарков могут служить LMSYS Chatbot Arena, LiveBench.
Таблица 2. Динамические бенчмарки
Бенчмарк | Основные возможности | Методики оценки |
---|---|---|
LiveBench | Ежемесячное добавление дополнительных вопросов из новых датасетов, научных статей, новостей и кратких обзоров фильмов | Сравнение с имеющимися готовыми ответами для объективной оценки |
Chatbot Arena | Включает в себя обратную связь в реальном времени и предпочтения пользователей, взаимодействующих с чат-ботами | Непрерывные обновления на основании взаимодействия с пользователями и рейтингов |
Спецификация типов систем
Для учёта всего разнообразия сфер применения LLM бенчмарки часто разрабатываются с расчётом на спецификации типов систем, чтобы обеспечить эффективность и надёжность моделей в реальном использовании. Эти бенчмарки делают упор на оценку того, насколько точно LLM справляется в различных интегрированных системах. Основные типы систем:
- Системы Co-pilot: бенчмарки Co-pilot делают упор на то, насколько эффективно LLM может помогать пользователям в реальном времени, повышая продуктивность и эффективность в программных средах. Сюда входит способность модели понимать контекст, предлагать релевантные рекомендации, автоматизировать повторяющиеся задачи и интегрироваться с другими программными инструментами, поддерживающими рабочий процесс пользователей.
- системы Retrieval-Augmented Generation (RAG): системы RAG сочетают в себе сильные стороны LLM с мощными механизмами извлечения информации. Такие бенчмарки оценивают способность модели извлекать релевантную информацию из внешних баз данных и внедрять эту информацию в целостные и контекстно подходящие ответы. Они особенно важны для областей применения, требующих актуальной или крайне специфичной информации.
- Системы Tool-Use: бенчмарки Tool-use оценивают способности модели во взаимодействии с внешними инструментами и API. Сюда входит исполнение команд, получение данных и выполнение сложных операций на основании ввода пользователя. Эффективное tool-use позволяет LLM расширять их возможности, обеспечивая более универсальную и практичную работу в различных предметных областях, от анализа данных до разработки ПО.
- Мультимодальные системы: мультимодальные бенчмарки тестируют способность модели обрабатывать и генерировать выходные данные различного типа, например, текста, изображений и аудио. Это важно для таких областей, как производство медиа, обучение и техподдержка, где требуются интегрированные ответы с учётом контекста в различных типах медиа. Бенчмарки оценивают, насколько хорошо модель понимает и комбинирует информацию разных модальностей для обеспечения целостных и релевантных результатов.
- Встроенные системы: бенчмарки встроенных систем делают упор на интеграцию LLM в физические системы, например, в роботов или устройства IoT. Такие бенчмарки оценивают способность модели понимать физические пространства и перемещаться в них, взаимодействовать с объектами и выполнять задачи, требующие понимания физического мира. Это крайне важно для применения в робототехнике, домашних смарт-устройствах и других сферах, где LLM должны работать и реагировать в условиях реального мира.
Таблица 3. Бенчмарки спецификаций типов систем
Спецификация типа системы | Описание | Инструменты оценки |
---|---|---|
Co-pilot | Оценка помощи в реальном времени и повышения производительности в программных системах. | - |
Retrieval-Augmented (RAG) | Оценка интеграции извлечения внешней информации с генерацией текста. | CARG, FreshLLM |
Tool-Use | Измерение эффективности использования моделями LLM внешних инструментов или API для выполнения задач. | TOOLE, WebArena, AgentBench |
Мультимодальные | Оценка точности для различных типов данных, например, текста, изображений и аудио. | MMMU, MathVista, AI2D, VQA, RealWorldQA |
Встроенные | Оценка моделей, интегрированных в физические системы, например, в роботов и устройства IoT. | BEHAVIOR-1K |
Цели оценки бенчмарками: ориентированные на возможности и ориентированные на риски
Ещё одно важное различие заключается в задачах проведения бенчмарков, это может быть проверка возможностей или рисков. Ориентированные на возможности бенчмарки оценивают эффективность LLM в выполнении конкретных задач, например, переводе текстов или резюмировании. Иными словами, эти бенчмарки важны для измерения функциональных сил модели. Примерами ориентированных на возможности LLM могут быть AlpacaEval, MT-bench, HELM, BIG-Bench Hard (BBH) и LiveBench.
Более того, основные показатели производительности — это подмножество индикаторов ориентированных на возможности бенчмарков, проверяющее эффективность LLM в генерации текста при помощи оценки таких ключевых метрик, как пропускная способность, задержка и затраты на токены.
Таблица 4. Основные индикаторы производительности
Метрика | Описание |
---|---|
Пропускная способность | Измеряет количество токенов, которое LLM может сгенерировать за секунду. |
Задержка | Время, требуемое модели для того, чтобы начать генерировать токены после получения ввода (время до первого токена), и время на каждый выходной токен. |
Затраты на токен | Вычислительные и финансовые затраты на генерацию токенов. |
Ориентированные на риски бенчмарки делают упор на потенциальные уязвимости больших языковых моделей. Такие риски можно разбить на конкретные категории, например, надёжность, конфиденциальность, безопасность, справедливость, объясняемость, экоустойчивость и другие социальные аспекты. Выявляя и устраняя подобные риски, можно сделать так, чтобы LLM были не только эффективными, но и безопасными и этичными. Примеры составных бенчмарков: TrustLLM, AIRBench, Redteaming Resistance Benchmark.
Таблица 5. Составные бенчмарки, ориентированные на риски
Бенчмарк | Основные возможности | Методики оценки |
---|---|---|
TrustLLM | Оценивает правдивость, безопасность, справедливость, надёжность, конфиденциальность и машинную этику | Использует заранее подготовленные вопросы по более чем тридцати датасетам для сравнения ответов LLM с ответами 16 популярных LLM |
AIRBench | Разнообразные зловредные промты, согласованные с регламентируемыми государствами категориями безопасности | Использует для оценки заранее подготовленные ответы с датасетами, соответствующими с законодательством конкретных регионов |
Redteaming Resistance Benchmark | Сгенерированные людьми высококачественные состязательные промты для тестирования на различные уязвимости | Для классификации ответов на опасные и безопасные используются заранее подготовленные ответы и инструменты наподобие LlamaGuard и GPT-4 |
Спецификация конечных задач
Для оценки реальных областей применения больших языковых моделей необходимо понимать весь обширный диапазон их задач. Поэтому для оценки конкретных возможностей LLM можно использовать задачи:
- Понимание и ответы на вопросы: эта задача тестирует способность модели понимать и интерпретировать письменный текст. Она оценивает, насколько хорошо модель может отвечать на вопросы в беседах, демонстрируя уровень её понимания и удерживания информации.
- Резюмирование: эта задача оценивает способность модели сжимать длинные тексты в короткие целостные резюме с сохранением важной информации и смысла. Для оценки качества таких резюме часто применяются инструменты наподобие ROUGE.
- Классификация текстов: классификация текстов — это присвоение заранее созданных меток или категорий текстовому документу на основании его содержимого. Эта фундаментальная задача NLP применяется во множестве областей, например, в анализе тональности текстов, разметке тем, распознавании спама и так далее.
- Перевод: эта задача оценивает точность и беглость модели в переводе текстов с одного языка на другой. Для оценки качества чаще всего применяются метрики, сравнивающие переводы модели с переводами живых людей.
- Извлечение информации: эта задача тестирует способность модели выявлять и извлекать конкретные фрагменты информации из неструктурированного текста. Она включает в себя такие задачи, как распознавание именованных сущностей (named entity recognition, NER) и извлечение взаимосвязей, что очень важно при преобразовании текстовых данных в структурированные форматы.
- Генерация кода: эта задача оценивает способность модели генерировать блоки кода или завершать код на основании описаний на естественном языке. Она включает в себя понимание языков программирования, синтаксиса и логического решения задач.
- Математические рассуждения: эта задача измеряет способность модели понимать и решать математические задачи, в том числе концепции арифметики, алгебры, математического анализа и других областей математики. Она оценивает логические рассуждения и математические способности модели.
- Рассуждения на основе здравого смысла: эта задача оценивает способность модели применять повседневные знания и логические рассуждения для ответов на вопросы или решения задач. Она оценивает понимание моделью мира и её способность создавать разумные инференсы.
- Общие и предметные знания: эта задача тестирует способности модели в таких конкретных областях, как медицина, юриспруденция, финансы и проектирование. Она оценивает глубину и точность знаний модели в специализированных областях, что очень важно для сфер, требующих информации экспертного уровня.
Таблица 6. Бенчмарки конечных задач
Задачи | Примеры бенчмарков |
---|---|
Генерация кода | HumanEval, Spider (Complex and Cross-Domain Semantic Parsing and Text-to-SQL) |
Математические рассуждения | GSM8K, MATH |
Рассуждения на основе здравого смысла | CommonsenseQA, HellaSwag, WinoGrande, AI2 Reasoning Challenge (ARC) |
Общие и предметные знания | MMLU, Датасет LSAT (Law School Admission Test), AlphaFin |
Ориентированные на риски бенчмарки: подробности
Бенчмарки надёжности
Бенчмарки надёжности применяются для оценки того, насколько хорошо работает LLM в различных условиях, в том числе в условиях шумных или состязательных входных данных. Такие задачи обеспечивают надёжность и согласованность модели в разнообразных и сложных сценариях.
Таблица 7. Бенчмарки оценки надёжности
Область оценки надёжности | Описание | Бенчмарки |
---|---|---|
Исследование правдивости | Проверка точности объяснений модели. | TruthfulQA |
Проверка надёжности понимания | Оценка того, насколько хорошо модель понимает вопросы и отвечает на них в сложных сценариях. | AdversarialQA |
Стабильность извлечения длинного контекста | Оценка точности выполнения задач, в которых релевантная информация погребена в больших объёмах нерелевантных данных. | Needle-in-a-Haystack |
Стабильность при модификации токенов промтов | Оценка стабильности точности модели при незначительном изменении промтов. | AART (Adversarial and Robustness Testing) |
Бенчмарки безопасности
Бенчмарки безопасности делают упор на устойчивость модели к атакам, например,
отравлению данных или эксплойтам, обеспечивая проверку целостности и устойчивости модели.
Таблица 8. Бенчмарки оценки безопасности
Сфера оценки безопасности | Описание | Бенчмарки |
---|---|---|
Практики небезопасного кода | Выявление и устранение практик небезопасного кодинга. | CyberSecEval 2.0 |
Повышенная безопасность | Оценка механизмов повышенной безопасности. | CyberSecEval 2.0 |
Джейлбрейкинг | Оценка уязвимости модели к манипуляциям или обходу защиты. | Do-anything-now |
Бенчмарки конфиденциальности
Бенчмарки конфиденциальности оценивают способность модели защищать уязвимую информацию, обеспечивая конфиденциальность и безопасность данных и взаимодействий с пользователем.
Таблица 9. Бенчмарки оценки конфиденциальности
Область оценки конфиденциальности | Описание | Бенчмарки |
---|---|---|
Утечка системных или пользовательских промтов | Проверка того, что модель не допускает утечки конфиденциальных промтов. | EronEmail |
Осознание конфиденциальности | Оценка понимания концепции конфиденциальной информации и обращения с ней. | ConfAIde |
Бенчмарки справедливости
Бенчмарки справедливости оценивают ответы модели на непредвзятость и беспристрастность к различным демографическим группам, что позволяет повышать инклюзивность и предотвращать дискриминацию.
Таблица 10. Бенчмарки оценки справедливости
Область оценки справедливости | Описание | Бенчмарки |
---|---|---|
Генерация явных контрфактических демографических дескрипторов | Тестирование ответов модели на различные демографические дескрипторы. | BBQ, RedditBias, STEREOSET |
Косвенные предубеждения относительно имён и языков | Выявление предубеждений, связанных с именами и другими характеристиками. | BOLD, TwitterAAE, CrowS-Pairs |
Тест согласованности этических взглядов | Проверка результатов работы модели на соответствие этическим стандартам. | Ethics, SOCIAL CHEMISTRY 101 |
Справедливость в контексте найма | Оценка предубеждений в контексте найма. | JobFair |
Бенчмарки объясняемости
Бенчмарки объясняемости измеряют, насколько хорошо LLM справляется с генерацией понятных и прозрачных рассуждений относительно результатов своей работы, повышая доверие и наглядность.
Таблица 11. Бенчмарки оценки объясняемости
Область оценки объясняемости | Описание | Бенчмарки |
---|---|---|
Способность создания цепочек рассуждений (Chain-of-thought) | Оценка логической целостности рассуждений модели. | Reveal |
Эффективность объяснений | Измерение общей эффективности предоставления чётких объяснений. | e-SNLI |
Тенденции к введению в заблуждение | Проверка тенденций к обману в объяснениях модели. | - |
Тенденции к заискиванию | Оценка склонности модели соглашаться с пользовательским вводом. | SycophancyEval |
Бенчмарки экоустойчивости
Оценки экоустойчивости (sustainability) оценивают влияние обучения и развёртывания LLM на окружающую среду, стимулируют к применению экологически безопасных практик и эффективности использования ресурсов.
Таблица 12. Бенчмарки оценки экоустойчивости
Область оценки влияния на экоустойчивость | Описание | Бенчмарки |
---|---|---|
FLOPS, затрачиваемые при обучении и инференсах | Измерение требуемых вычислительных ресурсов. | FLOPS инференсов, FLOPS обучения |
Углеродный след | Оценка влияния модели на окружающую среду. | Потребление энергии при обучении |
Бенчмарки влияния на общество
Бенчмарки влияния на общество охватывают широкий спектр вопросов, в том числе социальные и этические последствия применения LLM; они гарантируют положительное влияние моделей на общество.
Таблица 13. Бенчмарки оценки влияния на общество
Область оценки влияния на общество | Описание | Бенчмарки |
---|---|---|
Нарушение авторских прав | Проверка того, что модель не генерирует контент, нарушающий авторские права и права на копирование. | CopyrightLLMs |
Политическое влияние | Оценка потенциального влияния на политические мнения и решения. | - |
Воздействие на рынок | Оценка влияния модели на динамику рынков. | - |
Благодаря такому многогранному подходу можно обеспечить тщательную проверку LLM на всевозможные риски, повысить доверие к модели и её надёжность.
Заключение
Стремительное развитие больших языковых моделей (LLMs) выявил большую потребность в подробных и надёжных бенчмарках. Такие бенчмарки не только помогают в оценке возможностей LLM, но и позволяют обнаруживать потенциальные риски и этические трудности.
Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.
- Как подготовиться к сбору данных, чтобы не провалиться в процессе?
- Как работать с синтетическими данными в 2024 году?
- В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?