Большинство тестов для оценки ИИ-моделей не слишком информативны: они часто сводятся к простому запоминанию ответов или касаются тем, которые не всегда актуальны для пользователей. Поэтому некоторые ИИ-энтузиасты используют игры как способ оценки навыков решения задач.

Пол Калкрафт, независимый разработчик, создал приложение, где ИИ-модели играют в игру, похожую на «Крокодил» (Pictionary). Одна модель рисует, а другие пытаются угадать, что изображено.

Модели угадывают изображение. Утка это или солнце в итоге?Источник изображения: Paul Calcraft
Модели угадывают изображение. Утка это или солнце в итоге?
Источник изображения: Paul Calcraft

«Мне показалось, что это может быть интересным способом оценить способности модели», — поделился Калкрафт. «Так что я решил провести дождливую субботу за этим проектом».

Идея этого проекта возникла у Калкрафта после знакомства с работой британского программиста Саймона Уиллисона, который создал похожий тест, предложив моделям нарисовать векторное изображение пеликана на велосипеде. Калкрафт и Уиллисон выбрали подобные задачи, чтобы вынудить модели «думать» вне рамок своих тренировочных данных.

«Это тест, который нельзя пройти, просто запомнив готовые ответы или шаблоны из обучающих данных», — пояснил Калкрафт.

Игры становятся новым и более гибким способом проверки ИИ-моделей. Например, 16-летний разработчик Адонис Сингх создал инструмент mc-bench, который оценивает способности модели, управляя персонажем в Minecraft и строя различные структуры. «Minecraft проверяет находчивость моделей и предоставляет им больше свободы действий», — отметил он.

Использование игр для проверки ИИ — не новинка. Еще в 1949 году математик Клод Шеннон заявлял, что такие игры, как шахматы, являются достойным испытанием для интеллектуальных систем. В последние годы появились ИИ-системы от DeepMind, играющие в Pong и Breakout, и от OpenAI — участвующие в матчах Dota 2.

В настоящее время ИИ-энтузиасты используют большие языковые модели (LLM) для игр, чтобы проверить их логические способности. Разные модели, такие как Gemini, Claude и GPT-4, при взаимодействии создают «разные впечатления» — это явление сложно количественно измерить. «LLM известны своей чувствительностью к формулировке вопросов, нестабильностью и непредсказуемостью», — добавил Калкрафт.

Обратите внимание на опечатку: модели Claude 3.6 Sonnet не существует. Источник изображения: Adonis Singh
Обратите внимание на опечатку: модели Claude 3.6 Sonnet не существует.
 Источник изображения: Adonis Singh

Игры предоставляют визуальный и интуитивно понятный способ оценки того, как ИИ выполняет задачи, считает Мэтью Гуздиал, исследователь из Альбертского университета.

«Каждый тест по-своему упрощает реальность, акцентируя внимание на определенных типах задач, будь то логика или коммуникация», — отметил он. «Игры — это просто ещё один подход к оценке решений, принимаемых ИИ, и именно поэтому их используют наряду с другими тестами и методами».

Можно заметить сходство между Pictionary и генеративными состязательными сетями (GAN), где одна модель создает изображение, а другая его оценивает. Калкрафт считает, что Pictionary позволяет проверить, насколько модели понимают такие концепции, как форма, цвет и предлоги (например, различие между «в» и «на»). Хотя это не строгий тест на способность к рассуждению, для успешной игры в Pictionary модели нужны стратегия и понимание подсказок — задачи, с которыми ИИ справляется не всегда легко.

«Мне нравится почти состязательный характер Pictionary, который напоминает работу GAN, где одна модель рисует, а другая пытается угадать», — отметил Калкрафт. «Здесь лучший художник — это не тот, кто рисует наиболее красиво, а тот, кто наиболее ясно передает идею, понятную для других языковых моделей».

Калкрафт, однако, предупреждает, что Pictionary — это скорее «игрушечный» тест, который не решает практических задач. Тем не менее, он считает, что навыки пространственного мышления и мультимодальности являются важными элементами в развитии ИИ, и что LLM Pictionary может быть пусть небольшим, но значимым шагом в этом направлении.

Сингх также видит в Minecraft полезный инструмент для оценки способности LLM к рассуждению. «Модели, которые я тестировал, продемонстрировали результаты, соответствующие моему уровню доверия к их способности решать задачи», — рассказал он.

 Источник изображения: Adonis Singh
 Источник изображения: Adonis Singh

Тем не менее, не все исследователи поддерживают этот подход. Майк Кук, научный сотрудник Университета Королевы Марии и эксперт в области ИИ, выражает скептицизм по поводу использования Minecraft в качестве тестовой среды для ИИ.

«Часть привлекательности Minecraft кроется в его внешней схожести с "реальным миром"», — пояснил Кук. «Но по сути задачи в Minecraft не слишком отличаются от других игр, таких как Fortnite или World of Warcraft. Minecraft лишь создает иллюзию повседневных задач вроде строительства или исследования».

Кук также отметил, что даже самые продвинутые игровые системы ИИ с трудом адаптируются к новым условиям и задачам, с которыми они еще не сталкивались. Например, модель, обученная в Minecraft, вряд ли будет столь же успешна в игре Doom. «Minecraft имеет некоторые черты, полезные для тестирования ИИ, такие как слабые сигналы вознаграждения и процедурный мир, где задачи могут быть непредсказуемыми», — добавил он. «Но это не делает его более "реальным" по сравнению с другими играми».

Несмотря на это, наблюдение за тем, как языковые модели строят замки и взаимодействуют в играх, продолжает вызывать неподдельный интерес и энтузиазм.

Что вы думаете по поводу тестирования LLM с помощью игр?

Источник

Комментарии (1)


  1. AlexRihter9690
    05.11.2024 22:08

    Попытка разных моделей с lm arena построить логотип ютуба. Заставил генерировать .mcfunction скрипт.

    Minecraft: Write an mcfunction script using the setblock and fill commands to build YouTube logo. Use ~ ~ ~ local coordinates so that the building will be placed at the location where the function is called. Before starting, think through the design step by step, explain to yourself how the logo looks, and create a plan.