Большинство стандартных бенчмарков для ИИ не дают нам достаточно полезной информации. Они часто предлагают задачи, которые можно решить простым запоминанием или охватывают темы, не имеющие отношения к реальным потребностям пользователей.

В ответ на это некоторые энтузиасты искусственного интеллекта начинают использовать игры как способ тестирования способности ИИ решать нестандартные задачи. 

Пол Калкрафт, фриланс-разработчик в области ИИ, создал приложение, в котором две ИИ-модели играют в игру, похожую на Pictionary. Одна модель рисует картинки, а другая пытается угадать, что на них изображено. 

«Мне показалось, что это очень весело и, возможно, интересно с точки зрения возможностей моделей», — рассказывает Калкрафт в интервью TechCrunch. — «Я сидел дома в облачный субботний день и реализовал это». 

Идея Калкрафта была вдохновлена похожим проектом британского программиста Саймона Уиллисона, который поставил перед моделями задачу нарисовать векторное изображение пеликана, едущего на велосипеде. Уиллисон, как и Калкрафт, выбрал задачу, которая, по его мнению, заставила бы модели «думать» за пределами данных, на которых они обучались.

«Идея заключается в том, чтобы создать эталон, который нельзя «обмануть», — сказал Кэлкрафт. — Эталон, который не может быть побеждён с помощью запоминания конкретных ответов или простых шаблонов, которые были встречены на этапе обучения». 

Minecraft также попадает в эту категорию систем, считает 16-летний Адонис Сингх. Он разработал инструмент mc-bench, который даёт модели управление персонажем в Minecraft и тестирует её способность проектировать структуры, по аналогии с проектом Microsoft — Project Malmo. 

«Я считаю, что Minecraft проверяет модели на изобретательность и дает им больше свободы действий», — сказал он в интервью TechCrunch. «Он не так ограничен и не так насыщен, как другие игры для тестирования». 

Использование игр для оценки искусственного интеллекта — далеко не новшество. Эта идея существует уже десятилетия. Еще в 1949 году математик Клод Шеннон утверждал, что игры, такие как шахматы, являются достойным испытанием для «умного» программного обеспечения. В более поздние годы Alphabet и DeepMind разработали модели, способные играть в Pong и Breakout; OpenAI обучил ИИ соревноваться в матчах Dota 2, а Meta создала алгоритм, который мог бы составить конкуренцию профессиональным игрокам в техасский холдем. Однако сейчас ситуация изменилась. Энтузиасты начали подключать большие языковые модели (LLM) — системы, которые способны анализировать текст, изображения и другие данные — к играм, чтобы проверить, насколько хорошо они умеют решать логические задачи. 

Сегодня существует целое разнообразие LLM, от Gemini и Claude до GPT-4, и каждая из них имеет свои особенности, так сказать, свой «характер». Они «чувствуются» по-разному при каждом взаимодействии, что является явлением, которое трудно поддается точной количественной оценке.

Модели больших языков (LLM) известны своей чувствительностью к формулировке вопросов и общей непредсказуемости, что делает их работу трудной для анализа, отмечает Кэлкрафт.

В отличие от текстовых бенчмарков, игры предлагают визуальный и интуитивно понятный способ оценки поведения и производительности модели, добавляет Мэттью Гуздиал, исследователь в области ИИ и профессор Университета Альберты. 

«Можно рассматривать каждый бенчмарк как упрощение реальности, ориентированное на решение определённых типов задач, таких как логика или коммуникация», — говорит он. «Игры — это просто ещё один способ принятия решений с использованием ИИ, и люди начинают использовать их как подход, аналогичный другим». 

Те, кто знаком с историей генеративного ИИ, наверняка заметят, что Pictionary схож с генеративными состязательными сетями (GAN), где модель-генератор отправляет изображения модели-дискриминатору, которая их оценивает. 

Кэлкрафт считает, что Pictionary может продемонстрировать способность LLM понимать такие концепты, как формы, цвета и предлоги (например, различие между "в" и "на"). Хотя он не утверждает, что эта игра является надежным тестом на логическое мышление, он подчеркивает, что для победы нужна стратегия и умение понимать подсказки — а это задачи, с которыми модели обычно сталкиваются с трудом.

«Мне нравится почти антагонистическая природа игры в Pictionary, которая напоминает GAN, где есть две роли: одна рисует, а другая угадывает», — говорит он. «Лучший художник — не тот, кто более искусен, а тот, кто способен наиболее чётко передать идею другим моделям LLM (в том числе менее быстрым и более слабым!).» 

«Pictionary — это упрощённая задача, которая не имеет немедленного практического применения», — предупреждает Кэлкрафт. «Тем не менее, я считаю, что пространственное восприятие и мультимодальность являются критически важными аспектами для развития ИИ, и LLM Pictionary может стать первым шагом на этом пути.»

Сингх считает, что Minecraft — полезный эталон, который может служить индикатором способности моделей LLM к рассуждениям. По его словам, «Результаты, которые я получил на тех моделях, которые тестировал, полностью совпадают с тем, насколько я доверяю модели в вопросах, связанных с логическим мышлением». 

Однако, не все разделяют его мнение. Майк Кук, научный сотрудник Университета Королевы Марии, специализирующийся на искусственном интеллекте, не считает Minecraft каким-то особенно уникальным инструментом для тестирования ИИ. «Мне кажется, что увлечение Minecraft приходит от людей, не имеющих отношения к играм, которые, возможно, полагают, что, поскольку игра выглядит как «реальный мир», она тесно связана с реальными процессами мышления и действия», — сказал Кук в интервью TechCrunch. 

«С точки зрения решения задач, Minecraft не так уж сильно отличается от таких видеоигр, как Fortnite, Stardew Valley или World of Warcraft. Это просто игры с разной оберткой, которые, возможно, кажутся ближе к реальной жизни из-за действий, вроде строительства или исследования». Действительно, даже самые продвинутые системы ИИ для игр не достаточно хорошо адаптируются к новым средам и не могут быстро решать задачи, с которыми не сталкивались раньше. Например, модель, превосходно играющая в Minecraft, вряд ли продемонстрирует те же результаты в Doom, где требуются совершенно другие навыки.

«Я думаю всё что Minecraft действительно может предложить с точки зрения ИИ, — это крайне слабые сигналы вознаграждения и процедурный мир, который создаёт непредсказуемые вызовы», — продолжил Кук. «Но на самом деле он не намного более «реалистичен» в этом плане, чем любая другая видеоигра».

Тем не менее, наблюдать за тем, как модели LLM строят замки в Minecraft, по-прежнему увлекательно.

Комментарии (0)