Большинство стандартных бенчмарков для ИИ не дают нам достаточно полезной информации. Они часто предлагают задачи, которые можно решить простым запоминанием или охватывают темы, не имеющие отношения к реальным потребностям пользователей.
В ответ на это некоторые энтузиасты искусственного интеллекта начинают использовать игры как способ тестирования способности ИИ решать нестандартные задачи.
Пол Калкрафт, фриланс-разработчик в области ИИ, создал приложение, в котором две ИИ-модели играют в игру, похожую на Pictionary. Одна модель рисует картинки, а другая пытается угадать, что на них изображено.
«Мне показалось, что это очень весело и, возможно, интересно с точки зрения возможностей моделей», — рассказывает Калкрафт в интервью TechCrunch. — «Я сидел дома в облачный субботний день и реализовал это».
Идея Калкрафта была вдохновлена похожим проектом британского программиста Саймона Уиллисона, который поставил перед моделями задачу нарисовать векторное изображение пеликана, едущего на велосипеде. Уиллисон, как и Калкрафт, выбрал задачу, которая, по его мнению, заставила бы модели «думать» за пределами данных, на которых они обучались.
«Идея заключается в том, чтобы создать эталон, который нельзя «обмануть», — сказал Кэлкрафт. — Эталон, который не может быть побеждён с помощью запоминания конкретных ответов или простых шаблонов, которые были встречены на этапе обучения».
Minecraft также попадает в эту категорию систем, считает 16-летний Адонис Сингх. Он разработал инструмент mc-bench, который даёт модели управление персонажем в Minecraft и тестирует её способность проектировать структуры, по аналогии с проектом Microsoft — Project Malmo.
«Я считаю, что Minecraft проверяет модели на изобретательность и дает им больше свободы действий», — сказал он в интервью TechCrunch. «Он не так ограничен и не так насыщен, как другие игры для тестирования».
Использование игр для оценки искусственного интеллекта — далеко не новшество. Эта идея существует уже десятилетия. Еще в 1949 году математик Клод Шеннон утверждал, что игры, такие как шахматы, являются достойным испытанием для «умного» программного обеспечения. В более поздние годы Alphabet и DeepMind разработали модели, способные играть в Pong и Breakout; OpenAI обучил ИИ соревноваться в матчах Dota 2, а Meta создала алгоритм, который мог бы составить конкуренцию профессиональным игрокам в техасский холдем. Однако сейчас ситуация изменилась. Энтузиасты начали подключать большие языковые модели (LLM) — системы, которые способны анализировать текст, изображения и другие данные — к играм, чтобы проверить, насколько хорошо они умеют решать логические задачи.
Сегодня существует целое разнообразие LLM, от Gemini и Claude до GPT-4, и каждая из них имеет свои особенности, так сказать, свой «характер». Они «чувствуются» по-разному при каждом взаимодействии, что является явлением, которое трудно поддается точной количественной оценке.
Модели больших языков (LLM) известны своей чувствительностью к формулировке вопросов и общей непредсказуемости, что делает их работу трудной для анализа, отмечает Кэлкрафт.
В отличие от текстовых бенчмарков, игры предлагают визуальный и интуитивно понятный способ оценки поведения и производительности модели, добавляет Мэттью Гуздиал, исследователь в области ИИ и профессор Университета Альберты.
«Можно рассматривать каждый бенчмарк как упрощение реальности, ориентированное на решение определённых типов задач, таких как логика или коммуникация», — говорит он. «Игры — это просто ещё один способ принятия решений с использованием ИИ, и люди начинают использовать их как подход, аналогичный другим».
Те, кто знаком с историей генеративного ИИ, наверняка заметят, что Pictionary схож с генеративными состязательными сетями (GAN), где модель-генератор отправляет изображения модели-дискриминатору, которая их оценивает.
Кэлкрафт считает, что Pictionary может продемонстрировать способность LLM понимать такие концепты, как формы, цвета и предлоги (например, различие между "в" и "на"). Хотя он не утверждает, что эта игра является надежным тестом на логическое мышление, он подчеркивает, что для победы нужна стратегия и умение понимать подсказки — а это задачи, с которыми модели обычно сталкиваются с трудом.
«Мне нравится почти антагонистическая природа игры в Pictionary, которая напоминает GAN, где есть две роли: одна рисует, а другая угадывает», — говорит он. «Лучший художник — не тот, кто более искусен, а тот, кто способен наиболее чётко передать идею другим моделям LLM (в том числе менее быстрым и более слабым!).»
«Pictionary — это упрощённая задача, которая не имеет немедленного практического применения», — предупреждает Кэлкрафт. «Тем не менее, я считаю, что пространственное восприятие и мультимодальность являются критически важными аспектами для развития ИИ, и LLM Pictionary может стать первым шагом на этом пути.»
Сингх считает, что Minecraft — полезный эталон, который может служить индикатором способности моделей LLM к рассуждениям. По его словам, «Результаты, которые я получил на тех моделях, которые тестировал, полностью совпадают с тем, насколько я доверяю модели в вопросах, связанных с логическим мышлением».
Однако, не все разделяют его мнение. Майк Кук, научный сотрудник Университета Королевы Марии, специализирующийся на искусственном интеллекте, не считает Minecraft каким-то особенно уникальным инструментом для тестирования ИИ. «Мне кажется, что увлечение Minecraft приходит от людей, не имеющих отношения к играм, которые, возможно, полагают, что, поскольку игра выглядит как «реальный мир», она тесно связана с реальными процессами мышления и действия», — сказал Кук в интервью TechCrunch.
«С точки зрения решения задач, Minecraft не так уж сильно отличается от таких видеоигр, как Fortnite, Stardew Valley или World of Warcraft. Это просто игры с разной оберткой, которые, возможно, кажутся ближе к реальной жизни из-за действий, вроде строительства или исследования». Действительно, даже самые продвинутые системы ИИ для игр не достаточно хорошо адаптируются к новым средам и не могут быстро решать задачи, с которыми не сталкивались раньше. Например, модель, превосходно играющая в Minecraft, вряд ли продемонстрирует те же результаты в Doom, где требуются совершенно другие навыки.
«Я думаю всё что Minecraft действительно может предложить с точки зрения ИИ, — это крайне слабые сигналы вознаграждения и процедурный мир, который создаёт непредсказуемые вызовы», — продолжил Кук. «Но на самом деле он не намного более «реалистичен» в этом плане, чем любая другая видеоигра».
Тем не менее, наблюдать за тем, как модели LLM строят замки в Minecraft, по-прежнему увлекательно.