Пеликаны, сарказм и логические игры — забавные LLM-бенчмарки / forpes.ru

Главная
Пеликаны, сарказм и логические игры — забавные LLM-бенчмарки

Пеликаны, сарказм и логические игры — забавные LLM-бенчмарки +5

13.07.2025 13:30

beeline_cloud 0 672 Источник

Новые нейронки появляются чуть ли не еженедельно и каждая борется за первенство в лидербордах. Но есть и другой способ оценить их — например, с помощью необычных тестов. Мы в beeline cloud подобрали креативные бенчмарки: от рисования птиц на велосипедах до игр в духе логических загадок с наводящими вопросами.

Проверка птицей

Название бенчмарка Pelicans on Bicycles говорит само за себя — в этом тесте нейронка должна сгенерировать код SVG-изображения с пеликаном на велосипеде. Насколько правдоподобно получается рисунок — настолько высоко оценивается нейросеть.

Этот своеобразный тест придумал (и активно использует) бывший технический директор онлайн-платформы для организации мероприятий Eventbrite Саймон Уиллисон. Сейчас он занимается опенсорсом и исследованиями в сфере машинного обучения.

Саймон использовал свой метод, чтобы оценить возможности моделей, опубликованных с декабря 2024 года. Результатами он поделился на конференции AI Engineer World’s Fair в Сан-Франциско и с читателями своего блога. Многие модели не сумели достойно изобразить не только самого пеликана, но и двухколесный транспорт.

Из трёх моделей ASW Nova от Amazon лишь nova-pro выдала едва похожий на велосипед результат [у других же были бессмысленные абстракции].

Также инженер проверил возможности DeepSeek-R1 — на изображении можно угадать птицу и даже транспорт. Еще более качественные (хотя и далеко не идеальные) работы сгенерировали Gemini 2.5 Pro, o1-pro и GPT 4.5. В целом на сайте Уиллисона есть 36 примеров от различных моделей. Кстати, пеликан на велосипеде служит «лакмусовой бумажкой» и для систем ИИ, генерирующих видео. К примеру, Sora смогла выдать видеофрагмент с неплохим пеликаном на странном велосипеде.

Саймон признаётся, что поначалу идея подобного теста воспринималась им как шутка, однако теперь он считает «проверку пеликанами» довольно эффективной: «Пеликаны великолепные птицы и их сложно нарисовать, а достоверно изобразить верхом на велосипеде — ещё сложнее». А вот к классическим лидербордам и бенчмаркам разработчик, напротив, потерял доверие из-за недостатка прозрачности в оценках.

И бенчмарк привлек внимание резидентов Hacker News. Там отметили, что такой подход можно применять при оценке работы LLM в области 3D-моделирования (например, для написания Python-кода в Blender). Хотя у нескольких комментаторов были претензии к объективности тестирования по одному образцу, а не по усреднённому результату из десяти или более генераций. Еще один пользователь отметил, что вскоре системы ИИ начнут обучаться на работах Уиллисона и будут рисовать пеликанов все лучше и лучше.

Необычные задачи

Бывший астрофизик Хавард Твейт Иле раньше занимался анализом данных в крупных космологических проектах COMAP (изучение молекулярного газа и эволюции галактик) и Cosmoglobe (космическая карта излучений обозреваемой вселенной). Сейчас он занимается исследованиями в ML и в этом году представил бенчмарк WeirdML. Его цель — оценить способность LLM решать нестандартные задачи с минимумом подсказок.

Примером такой «странной» задачи может быть тест, в котором модели необходимо изучить облако из 512 точек в двухмерном пространстве и определить одну из пяти геометрических фигур (круг, квадрат, звезда и так далее). В легком варианте задачи предложенная форма всегда расположена по центру, а в более сложном — может быть повернута, смещена, а также увеличена или уменьшена.

Еще есть задача по поиску и «склейке» перемешанных фрагментов изображений (например, это могут быть картинки с туфлей или платьем). Нейронке предоставляется массив данных из двух тысяч образцов в оттенках серого, каждый из которых был разбит на девять фрагментов размером 9x9 пикселей. Модель должна составить пазл 27x27 и не перепутать элементы.

Наконец, третий тест, в котором модель должна попытаться предсказать исход шахматной партии на основе классической текстовой нотации. В качестве датасета для обучения взяты игры начинающих. Также с вероятностью 50% последний ход белых или чёрных в каждой партии может быть удалён из записи, чтобы LLM было ещё труднее просчитывать результаты.

Некоторым показалось, что этот бенчмарк, как и многие другие аналоги, является испытанием ради испытания, и его может ждать судьба остальных тестов. Он может стать популярным, сформируются лидерборды, а затем команды разработчиков начнут настраивать свои LLM для демонстрации высоких результатов именно в этом бенчмарке. Однако Иле считает, что подобные методы проверки всё же несут пользу — позволяют в какой-то мере объективно оценить и сравнить возможности ведущих нейронок.

Игра в данетки

Тест LatEval оценивает LLM в латеральном мышлении. В этом бенчмарке модели сравнивают по способности формулировать и задавать вопросы для решения головоломок. Также проверяется возможность системы ИИ использовать имеющуюся информацию и определять истину с помощью логических рассуждений. LatEval представили в своей научной работе 2023 году китайские исследователи из Международной высшей школы Цинхуа в Шэньчжэне и Университета Цинхуа.

За основу для задач в бенчмарке взяты популярные наборы пазлов с различных веб-сайтов — всего 325 штук на китайском и английском языках. В частности, в одной из задач LLM предлагается сыграть в классические данетки. Тестируемая модель выступает в роли игрока, решающего головоломку, а GPT-4 или GPT-3.5 — в роли ведущего. Например, LLM задают вопрос: «Лодка с пассажирами плывет по реке, но внезапно переворачивается и большинство людей тонет. Почему?». С помощью серии закрытых вопросов модель должна прийти к корректному ответу: «На лодку упала крупная змея, пассажиры в ужасе бросились на противоположный борт, отчего судно перевернулось».

Ведущий оценивает, насколько задаваемые игроком-нейросетью вопросы соответствуют разгадке, разнообразие уточнений, их последовательность и логичность, а также среднее число «ходов» для нахождения решения. Для проверки результатов использовали метод краудсорсинговой оценки — трое студентов проанализировали около пятидесяти сессий. Как оказалось, ни одна из моделей не продемонстрировала уверенных результатов.

Тест британским юмором

Система бенчмарков EQ-Bench позволяет оценить «эмоциональный интеллект» LLM — эмпатию, проницательность, социальные навыки. В 2023 году ее представил инженер Сэмюэл Пэч, сопроводив объемной научной работой. Одним из наиболее необычных компонентов EQ-Bench является бенчмарк BuzzBench. Его цель — определить, может ли ML-модель понимать шутки из культового британского шоу Never Mind the Buzzcocks. Задача LLM — объяснить комический эффект и предсказать, понравится ли шутка аудитории. Ответы оценивает другая интеллектуальная система, которая ориентируется на объяснения, предоставляемые человеком.

В комментариях под постом на Reddit по теме люди задались вопросом о субъективности юмора и возможной предвзятости модели-оценщика. Однако автор считает свой бенчмарк скорее шуткой, нежели полноценным и серьёзным исследованием. В то же время в системе EQ-Bench можно найти и другие тесты. Скажем, модуль Judgemark проверяет, насколько эффективно LLM способна оценивать небольшие художественные произведения, опираясь на набор из 36 положительных/отрицательных критериев. А бенчмарк Creative Writing позволяет оценить возможности моделей в генерации эмоциональных и творческих текстов на основе 32 заданий.

Больше тонкостей юмора

В 2024 году специалисты из ИТ-консалтинговой фирмы F’inn захотели выяснить, насколько эффективно системы ИИ генерируют юмор и способны ли они улавливать тонкости, связанные с эмоциональным контекстом. Чтобы ответить на этот вопрос, они попросили GPT-4/3.5, Gemini и пару других моделей написать самую смешную шутку, на которую они только способны. По большей части модели генерировали бессмысленный текст, хотя некоторые из них предупредили, что юмор субъективен.

Вообще, тема юмора достаточно часто затрагивается разработчиками ML-моделей. Так, один энтузиаст разработал виджет-трекер для отображения прогресса выполнения еженедельных задач. Позже он добавил в него интерактивную метрику в виде шкалы счастья со смайликами. Программист попросил несколько нейронок сгенерировать шкалу эмодзи, в которой эмоции были бы распределены по возрастанию — от сдержанной улыбки до восторга. С задачей более-менее справились только Claude 3.5 Sonnet и Perplexity. А у остальных — не получилось: какие-то нейросети использовали одну и ту же эмодзи, а другие без какой-либо логики расставили случайные «позитивные» смайлики.

В 2024 году анонимные специалисты пошли дальше в изучении возможностей систем ИИ в вопросах юмора. Они опубликовали исследование, посвящённое пониманию LLM сарказма и иронии. Для него они разработали бенчмарк MOCK, оценивающий способность моделей улавливать саркастический контекст, выбирать наиболее подходящий вариант шутки и объяснять суть.

Обучающий датасет MOCK состоит из более чем 11 тыс. юмористических рисунков, 28 тыс. постов из соцсетей и тысяч диалогов из комедийных шоу. Чтобы нейросеть могла анализировать визуальную информацию, изображения сопроводили текстовыми описаниями с аннотациями.

В исследовании инженеры тестировали модели как в базовом режиме, так и с тонкой настройкой. Например, на одном изображении доктор пытался услышать сердцебиение Супермена (хотя это невозможно). Базовые модели с трудом определяли, в чём заключается комичность ситуации. Однако нейросети с тонкой настройкой в целом поняли смысл комикса.

Системы ИИ против веселья

В этой работе 2024 года специалисты Колумбийского университета задались вопросом, возможно ли может ли нейросеть генерировать синтетические данные для детектирования юмора. В исследовании специалисты использовали датасет Unfun. Он был сформирован в 2019 году в ходе лингвистической игры, в которой участники переделывали изначально сатирические заголовки статей в серьёзные с минимальным количеством правок. В набор поместили около 11 тыс. отредактированных заголовков — и на их основе специалисты оценили способности LLM по включению/исключению юмора.

Оказалось, если системы ИИ с чем-то справляются в вопросах юмора, то с переводом интересных и ярких описаний в нейтральный стиль; как выражаются авторы, «лишать их шуточности» (unfun). Например, GPT-4 переделала заголовок «Том Петти сыграет что-то новенькое…» в безэмоциональный «Том Петти исполнит новый материал…».

beeline cloud — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.