Новые нейронки появляются чуть ли не еженедельно и каждая борется за первенство в лидербордах. Но есть и другой способ оценить их — например, с помощью необычных тестов. Мы в beeline cloud подобрали креативные бенчмарки: от рисования птиц на велосипедах до игр в духе логических загадок с наводящими вопросами.

Изображение — Godwill Gira Mude
Изображение — Godwill Gira Mude

Проверка птицей

Название бенчмарка Pelicans on Bicycles говорит само за себя — в этом тесте нейронка должна сгенерировать код SVG-изображения с пеликаном на велосипеде. Насколько правдоподобно получается рисунок — настолько высоко оценивается нейросеть.

Этот своеобразный тест придумал (и активно использует) бывший технический директор онлайн-платформы для организации мероприятий Eventbrite Саймон Уиллисон. Сейчас он занимается опенсорсом и исследованиями в сфере машинного обучения.

Саймон использовал свой метод, чтобы оценить возможности моделей, опубликованных с декабря 2024 года. Результатами он поделился на конференции AI Engineer World’s Fair в Сан-Франциско и с читателями своего блога. Многие модели не сумели достойно изобразить не только самого пеликана, но и двухколесный транспорт.

Из трёх моделей ASW Nova от Amazon лишь nova-pro выдала едва похожий на велосипед результат [у других же были бессмысленные абстракции].

Также инженер проверил возможности DeepSeek-R1 — на изображении можно угадать птицу и даже транспорт. Еще более качественные (хотя и далеко не идеальные) работы сгенерировали Gemini 2.5 Pro, o1-pro и GPT 4.5. В целом на сайте Уиллисона есть 36 примеров от различных моделей. Кстати, пеликан на велосипеде служит «лакмусовой бумажкой» и для систем ИИ, генерирующих видео. К примеру, Sora смогла выдать видеофрагмент с неплохим пеликаном на странном велосипеде.

Саймон признаётся, что поначалу идея подобного теста воспринималась им как шутка, однако теперь он считает «проверку пеликанами» довольно эффективной: «Пеликаны великолепные птицы и их сложно нарисовать, а достоверно изобразить верхом на велосипеде — ещё сложнее». А вот к классическим лидербордам и бенчмаркам разработчик, напротив, потерял доверие из-за недостатка прозрачности в оценках. 

И бенчмарк привлек внимание резидентов Hacker News. Там отметили, что такой подход можно применять при оценке работы LLM в области 3D-моделирования (например, для написания Python-кода в Blender). Хотя у нескольких комментаторов были претензии к объективности тестирования по одному образцу, а не по усреднённому результату из десяти или более генераций. Еще один пользователь отметил, что вскоре системы ИИ начнут обучаться на работах Уиллисона и будут рисовать пеликанов все лучше и лучше.

Необычные задачи

Бывший астрофизик Хавард Твейт Иле раньше занимался анализом данных в крупных космологических проектах COMAP (изучение молекулярного газа и эволюции галактик) и Cosmoglobe (космическая карта излучений обозреваемой вселенной). Сейчас он занимается исследованиями в ML и в этом году представил бенчмарк WeirdML. Его цель — оценить способность LLM решать нестандартные задачи с минимумом подсказок.

Примером такой «странной» задачи может быть тест, в котором модели необходимо изучить облако из 512 точек в двухмерном пространстве и определить одну из пяти геометрических фигур (круг, квадрат, звезда и так далее). В легком варианте задачи предложенная форма всегда расположена по центру, а в более сложном — может быть повернута, смещена, а также увеличена или уменьшена.

Еще есть задача по поиску и «склейке» перемешанных фрагментов изображений (например, это могут быть картинки с туфлей или платьем). Нейронке предоставляется массив данных из двух тысяч образцов в оттенках серого, каждый из которых был разбит на девять фрагментов размером 9x9 пикселей. Модель должна составить пазл 27x27 и не перепутать элементы. 

Наконец, третий тест, в котором модель должна попытаться предсказать исход шахматной партии на основе классической текстовой нотации. В качестве датасета для обучения взяты игры начинающих. Также с вероятностью 50% последний ход белых или чёрных в каждой партии может быть удалён из записи, чтобы LLM было ещё труднее просчитывать результаты.

Изображение — Jacek Pobłocki
Изображение — Jacek Pobłocki

Некоторым показалось, что этот бенчмарк, как и многие другие аналоги, является испытанием ради испытания, и его может ждать судьба остальных тестов. Он может стать популярным, сформируются лидерборды, а затем команды разработчиков начнут настраивать свои LLM для демонстрации высоких результатов именно в этом бенчмарке. Однако Иле считает, что подобные методы проверки всё же несут пользу — позволяют в какой-то мере объективно оценить и сравнить возможности ведущих нейронок.

Игра в данетки

Тест LatEval оценивает LLM в латеральном мышлении. В этом бенчмарке модели сравнивают по способности формулировать и задавать вопросы для решения головоломок. Также проверяется возможность системы ИИ использовать имеющуюся информацию и определять истину с помощью логических рассуждений. LatEval представили в своей научной работе 2023 году китайские исследователи из Международной высшей школы Цинхуа в Шэньчжэне и Университета Цинхуа.

За основу для задач в бенчмарке взяты популярные наборы пазлов с различных веб-сайтов — всего 325 штук на китайском и английском языках. В частности, в одной из задач LLM предлагается сыграть в классические данетки. Тестируемая модель выступает в роли игрока, решающего головоломку, а GPT-4 или GPT-3.5 — в роли ведущего. Например, LLM задают вопрос: «Лодка с пассажирами плывет по реке, но внезапно переворачивается и большинство людей тонет. Почему?». С помощью серии закрытых вопросов модель должна прийти к корректному ответу: «На лодку упала крупная змея, пассажиры в ужасе бросились на противоположный борт, отчего судно перевернулось».

Ведущий оценивает, насколько задаваемые игроком-нейросетью вопросы соответствуют разгадке, разнообразие уточнений, их последовательность и логичность, а также среднее число «ходов» для нахождения решения. Для проверки результатов использовали метод краудсорсинговой оценки — трое студентов проанализировали около пятидесяти сессий. Как оказалось, ни одна из моделей не продемонстрировала уверенных результатов. 

Тест британским юмором

Система бенчмарков EQ-Bench позволяет оценить «эмоциональный интеллект» LLM — эмпатию, проницательность, социальные навыки. В 2023 году ее представил инженер Сэмюэл Пэч, сопроводив объемной научной работой. Одним из наиболее необычных компонентов EQ-Bench является бенчмарк BuzzBench. Его цель — определить, может ли ML-модель понимать шутки из культового британского шоу Never Mind the Buzzcocks. Задача LLM — объяснить комический эффект и предсказать, понравится ли шутка аудитории. Ответы оценивает другая интеллектуальная система, которая ориентируется на объяснения, предоставляемые человеком.

В комментариях под постом на Reddit по теме люди задались вопросом о субъективности юмора и возможной предвзятости модели-оценщика. Однако автор считает свой бенчмарк скорее шуткой, нежели полноценным и серьёзным исследованием. В то же время в системе EQ-Bench можно найти и другие тесты. Скажем, модуль Judgemark проверяет, насколько эффективно LLM способна оценивать небольшие художественные произведения, опираясь на набор из 36 положительных/отрицательных критериев. А бенчмарк Creative Writing позволяет оценить возможности моделей в генерации эмоциональных и творческих текстов на основе 32 заданий.

Больше тонкостей юмора

В 2024 году специалисты из ИТ-консалтинговой фирмы F’inn захотели выяснить, насколько эффективно системы ИИ генерируют юмор и способны ли они улавливать тонкости, связанные с эмоциональным контекстом. Чтобы ответить на этот вопрос, они попросили GPT-4/3.5, Gemini и пару других моделей написать самую смешную шутку, на которую они только способны. По большей части модели генерировали бессмысленный текст, хотя некоторые из них предупредили, что юмор субъективен.

Изображение — Dominik Vanyi
Изображение — Dominik Vanyi

Вообще, тема юмора достаточно часто затрагивается разработчиками ML-моделей. Так, один энтузиаст разработал виджет-трекер для отображения прогресса выполнения еженедельных задач. Позже он добавил в него интерактивную метрику в виде шкалы счастья со смайликами. Программист попросил несколько нейронок сгенерировать шкалу эмодзи, в которой эмоции были бы распределены по возрастанию — от сдержанной улыбки до восторга. С задачей более-менее справились только Claude 3.5 Sonnet и Perplexity. А у остальных — не получилось: какие-то нейросети использовали одну и ту же эмодзи, а другие без какой-либо логики расставили случайные «позитивные» смайлики.

В 2024 году анонимные специалисты пошли дальше в изучении возможностей систем ИИ в вопросах юмора. Они опубликовали исследование, посвящённое пониманию LLM сарказма и иронии. Для него они разработали бенчмарк MOCK, оценивающий способность моделей улавливать саркастический контекст, выбирать наиболее подходящий вариант шутки и объяснять суть.

Обучающий датасет MOCK состоит из более чем 11 тыс. юмористических рисунков, 28 тыс. постов из соцсетей и тысяч диалогов из комедийных шоу. Чтобы нейросеть могла анализировать визуальную информацию, изображения сопроводили текстовыми описаниями с аннотациями.

В исследовании инженеры тестировали модели как в базовом режиме, так и с тонкой настройкой. Например, на одном изображении доктор пытался услышать сердцебиение Супермена (хотя это невозможно). Базовые модели с трудом определяли, в чём заключается комичность ситуации. Однако нейросети с тонкой настройкой в целом поняли смысл комикса.

Системы ИИ против веселья

В этой работе 2024 года специалисты Колумбийского университета задались вопросом, возможно ли может ли нейросеть генерировать синтетические данные для детектирования юмора. В исследовании специалисты использовали датасет Unfun. Он был сформирован в 2019 году в ходе лингвистической игры, в которой участники переделывали изначально сатирические заголовки статей в серьёзные с минимальным количеством правок. В набор поместили около 11 тыс. отредактированных заголовков — и на их основе специалисты оценили способности LLM по включению/исключению юмора.

Оказалось, если системы ИИ с чем-то справляются в вопросах юмора, то с переводом интересных и ярких описаний в нейтральный стиль; как выражаются авторы, «лишать их шуточности» (unfun). Например, GPT-4 переделала заголовок «Том Петти сыграет что-то новенькое…» в безэмоциональный «Том Петти исполнит новый материал…».

beeline cloud — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Комментарии (0)