Привет, Хабр!

Последнее время информационный фон насыщается текстами, восхваляющими GPT-4 и прочие LLM. Некоторые авторы (даже на Хабре) называют GPT-4 сильным искусственным интеллектом (AGI), что, увы, не соответствует действительности. Если модель знает больше, чем человек, это еще не делает её AGI. В конце концов, множество искусственных интеллектуальных систем (разные поисковые машины, информационные системы и т.д.) уже долгое время располагают значительным объемом знаний, но разве они могут производить новое знание? Или это не критерий для AGI?

Если верить одному независимому исследованию, модель GPT-4 очень близко подошла к результату человека в публичном тесте Тьюринга: 0.5 против 0.66 [4]. Логично предположить, что следующая версия GPT превзойдет этот результат и будет признана AGI. Не все так просто. Причина в небольшой детали: мало говорить как человек, нужно еще и уметь мыслить как человек.

Чем ближе LLM приближаются к уровню человека в тесте Тьюринга, тем очевиднее тот факт, что этот и многие другие инструменты не позволяют оценить их умственные способности. Для этой задачи нужны другие методы. Одним из таких инструментов можно считать датасет Abstraction and Reasoning Corpus (ARC), ставший основой для ежегодного соревнования Abstraction and Reasoning Challenge или ARC Prize. Cовокупный призовой фонд ARC Prize 2024 составляет 1.1 млн долларов США.

Ранее на Хабре публиковался краткий конспект статьи [2], посвященной датасету, но, на мой взгляд, без подробного объяснения некоторых важных идей. Кроме того, с тех пор ARC получил признание исследователей ИИ и часто фигурирует в публикациях в качестве бенчмарка.

Узкий и общий интеллект

Использовать набор данных ARC для сравнительной оценки интеллекта искусственного ИИ и человека предложил Франсуа Шолле в 2019 г. Шолле известен как исследователь ИИ в корпорации Google, автор книги "Глубокое обучение на Python" и один из создателей библиотеки Keras. В своей статье "О мере интеллекта" он раскритиковал существующие инструменты для оценки интеллекта искусственных систем. Досталось и знаменитому тесту Тьюринга, который Шолле назвал "бесполезным" для прогресса в этой области, потому что он основывается на ненадежном мнении людей, не имеющих четких инструкций. Напомню, в контексте оценки умственных способностей искусственных интеллектуальных систем, тест Тьюринга (он же игра в имитацию) предлагает испытуемому задавать вопросы двум другим собеседникам, которых он не видит. Один из них человек, другой - компьютер. Компьютер должен выдавать себя за человека так, чтобы испытуемый подумал, что он и есть настоящий человек. Многие верят, что тест может стать лакмусовой бумажкой появления сильного искусственного интеллекта. На картинке ниже показано как тест Тьюринга видит генеративная сеть Ideogram от Google.

Город просыпается. Наступает день. Теперь пусть каждый скажет почему он точно не искусственный интеллект.
Город просыпается. Наступает день. Теперь пусть каждый скажет почему он точно не искусственный интеллект.

Для Шолле главная проблема методов оценивания интеллекта заключается в отсутствии строгого представления об этом предмете исследования в компьютерных науках. Большинство методов построены на заимствованиях из психологии, не прошедших критического переосмысления. Еще хуже когда исследователи вовсе пренебрегают накопленным опытом психологов и создают методы оценивания интеллекта, исходя только из своих представлений. Возможно именно так появился "узкий" подход к оценке интеллекта (narrow AI evaluation), который во главу угла поставил оценку навыков решения конкретных задач.

Такими навыками могут быть, например, умение играть в шахматы, или поиск скрытого предмета, или распознавание объектов и т.д. Важно отметить, что имитация общения с человеком тоже всего лишь один из навыков. Если интеллектуальная система обыгрывает Каспарова или либо другого гроссмейстера, значит ли это, что она обладает лучшими интеллектуальными способностями? Безусловно нет. С большой уверенностью можно сказать, что господин гроссмейстер помимо умения просчитывать комбинации имеет другие способности. С искусственными интеллектуальными системами дело обстоит иначе. Deep Blue, какой современный литературный жанр предпочитаешь? E2-E4.

Люди - счастливые обладатели естественного интеллекта - способны обучаться на малом количестве данных и использовать накопленный опыт для решения новых задач, с которыми прежде не сталкивались. Шолле посчитал необходимым отразить это в определении интеллекта и учитывать при разработке методов его оценки. В основу его подхода легло утверждение, что интеллект любой системы выражается в эффективности приобретения ею навыков при выполнении ряда задач с учетом априорных значений, опыта и сложности обобщения. При этом задачи должны отличаться друг от друга и обладать некоторой новизной для оцениваемой системы, т.к. только так можно выявить силу обобщающей способности модели.

Собственно способность обобщать, или генерализация, и есть главная интеллектуальная способность. Чем сильнее эта способность, тем выше интеллект. Шолле предлагает учитывать иерархию генерализаций (см. схему ниже), связывая степень генерализации с уровнем интеллекта, способностью приобретать навыки и выполнять задачи. Оценка генерализации в рамках одного навыка или задачи может выявить только способность к локальной генерализации. Если система способна обобщать знания между несколькими задачами, то такая способность называется широкой генерализацией. Наконец, если система способна находить общее на уровне широких когнитивных способностей, то мы имеем дело с общей генерализацией, а перед нами его величество AGI.

Уровни генерализации [5]
Уровни генерализации [5]

Проблема в том, что большинство методов оценивания ИИ позволяют определить в лучшем случае только локальную генерализацию. Их можно объединить в 4 группы:

  • Экспертная оценка (Human review). Человек-эксперт делает заключение об интеллектуальных способностях системы. Упомянутый ранее тест Тьюринга относится к этой группе методов;

  • Структурный анализ или тест белого ящика (White-box analysis). Сводится к оценке оптимальности решения задачи при известных входных и выходных данных, параметрах системы, структурных элементах и т.д.;

  • Управляемый конфликт (Peer confrontation). Системе противостоит другая система и по результатам их противоборства определяется качество оцениваемой системы. Например, шахматное противостояние Гарри Каспарова с Deep Blue [6], или отчаянное сражение Ли Седоля против AlphaGo [1];

  • Бенчмарки (Benchmarks). Предполагает использование тестового набора данных, для которого известен лучший результат по какой-либо метрике.

Эти подходы не обладают необходимым функционалом для оценки общего интеллекта. Шолле убежден, что компьютерным наукам нужен инструмент, подобный психометрическим тестам в психологии. Другими словами, нужен тест, подобный IQ-тесту, но подходящий как для людей, так и для компьютеров. Чтобы не быть голословным он предложил свой вариант. На протяжении последних 5 лет ARC остается непокоренной вершиной для алгоритмов ИИ.

Наглядные головоломки

Сам Шолле определяет ARC как "бенчмарк общего искусственного интеллекта, как бенчмарк синтеза программ, или как психометрический тест интеллекта"[5]. Датасет состоит из 1000 наглядных головоломок, разделенных на обучающую и тестовую выборки. В обучающей выборке 400 заданий, в тестовой - 600. Тестовая выборка, в свою очередь, разделена на публичную (400 задач) и закрытую (200 задач) части. Каждое задание состоит из нескольких образцов решения (в среднем - 3.3) и 1-2 тестовых головоломок.

ARC сильно отличается от современных разновидностей IQ-теста. В нем нет языковых задач, фотографий реальных объектов и т.д., только элементарная геометрия. Задания не сгенерированы в специальной программе, а созданы вручную Шолле и его ассистентами. Все задания уникальны и не повторяются, но можно перечислить часто встречающиеся концепты:

  • копирование объекта;

  • изменение размера (уменьшение, увеличение);

  • изменение пространственного положения (перемещение, вращение и т.д.);

  • изменение цвета (всего объекта, отдельных частей и т.д.);

  • дополнение фигуры (продолжение линии, вставка симметричного фрагмента и т.д.);

  • подсчет объектов (часто встречающихся, редких и т.д.);

  • изменение порядка;

  • комбинации (цвет + подсчет, размер + перемещение и т.д.).

По задумке Шолле такие задачи не должны требовать каких-либо знаний об окружающем мире. Некоторые задания кажутся легкими, другие чуть сложнее. Примеры наглядных головоломок, разработанных Шолле, представлены ниже. Эти визуализации можно создать с помощью питоновской библиотеки arckit, разработанной участником ARC челенджа anokas [3].

Упорядоченное перемещение фигур
Упорядоченное перемещение фигур
Змейка с раскрашиванием
Змейка с раскрашиванием
Раскрашивание столбцов по высоте: синий - самый большой, желтый - наименьший
Раскрашивание столбцов по высоте: синий - самый большой, желтый - наименьший

Кошмар для GPT

Как видим, датасет не содержит сложных задач. Однако для искусственных интеллектуальных систем это настоящее испытание. В недавней работе исследователей из Университета Торонто приведены удручающие результаты: модель GPT-4 решила только 13 заданий из 50. Другие LLM справились с тестом еще хуже. Для улучшения результатов авторы разработали датасет 1D-ARC, в котором каждое задание представлялось не в 2D, а в 1D. Снижение размерности дало свои плоды: модель GPT-4 решила 50 из 50.

Примеры одномерных головоломок
Примеры одномерных головоломок

А как насчет человека? Может головоломки только на первый взгляд кажутся простыми? Может результат людей еще хуже, чем у GPT-4 и компании?

Судя по всему нет. Специалисты Института Санта Фе поставили перед собой задачу не только сравнить результаты людей и GPT-4, но и определить наиболее сложные группы заданий для ИИ [7]. Для этого они разработали датасет ARC-Concept [7]. Они выбрали 16 концептов и разработали под каждый концепт 10 оригинальных заданий, каждое из которых включает в себя по 3 тестовые задачи. Всего по 30 задач на концепт. Людям и моделям предлагались 3 попытки, чтобы решить каждую задачу. Если хотя бы одна из трех попыток была верной, то ответ засчитывался как правильный. В таблице ниже представлены результаты для людей, первого места соревнования ARC на Kaggle, второго места соревнования ARC на Kaggle и модели GPT-4.

  Результаты исследования на датасете ARC-Concept [7]
Результаты исследования на датасете ARC-Concept [7]

Интересно, что если люди показывают очень близкие результаты на всех концептах, то GPT-4 решает задачи с разным успехом. Лучшая точность составляет 0.33 (для задач центрирования), а худшая всего 0.03 (извлечение объектов). В число самых сложных задач для ИИ вошли также продолжение фигуры до границы (0.07), манипуляции внутрь и наружу (0.1), а также подсчет объектов (0.13). Высокие результаты участников соревнования на Kaggle обусловлены использованием алгоритмов синтеза программ, но по отдельным концептам они совпадают с результатами GPT-4.

Причем LLM проигрывают в интеллектуальной баталии даже ... детям. В мае 2024 г. исследователи из Университета Амстердама опубликовали статью с результатами детей и взрослых от 3 до 76 лет и LLM. Они использовали KidsARC - вариацию ARC, адаптированную под детей. Участников разбили по возрастным группам: 3 - 5 лет, 6 - 8, 9 - 11 и 12+. Всего в тестировании приняли участие 232 человека, из которых 144 решали задачи из KidsARC-Simple, а 88 дали задания из KidsARC-Concept. Главное отличие между версиями заключается в размерности: задания KidsARC-Simple имеют размер 3х3 клетки, а KidsARC-Concept - 5х5. Кроме того, KidsARC-Concept базируется на упомянутом ранее ARC-Concept.

Образец решения задачи по изменению цвета из набора данных KidsARC-Simple
Образец решения задачи по изменению цвета из набора данных KidsARC-Simple

Первоначально исследователи отобрали 60 публичных LLM, из которых до теста дошло меньше 30 (26 и 20). В их число попали наиболее популярные LLM, включая модели GPT-3, GPT-4 и мультимодальную GPT-4 Vision.

Ниже представлены результаты для датасета KidsARC-Simple.

Результаты тестирования на датасете KidsARC-Simple
Результаты тестирования на датасете KidsARC-Simple

Темно-красный цвет обозначает правильный ответ, другие цвета в гистограмме - ошибки. Ошибка копирования (Copy Error) - входные данные переписаны в ответ, цвет - морская волна. Ошибка матрицы (Matrix Error) - комбинация образцов входных/выходных данных, цвет - темно-желтый. Ошибка концепта (Concept Error) - задание решается так, как если бы оно относилось к другому концепту (например, смещение вместо изменения цвета), цвет - фиолетовый.

Сладкий вкус победы! GPT-4 превзошел все возрастные группы и другие LLM. Бросается в глаза успех (это не сарказм) сразу нескольких моделей с почти одинаковым результатом: Llama2-70b, SOLAR-0-70b, Mixtral-8x7B, Platypus2-70b, GPT-3.5-turbo. Они все справились с заданием лучше, чем возрастная группа 6-8 лет, но хуже, чем более старшие участники эксперимента. Удивление вызывает слабый результат мультимодальной GPT-4 Vision, не только по сравнению с детьми, но и с другими LLM. К сожалению, авторы статьи не описали, сопровождали ли они промт картинкой.

А что со вторым тестом? Также хорошо?

Результаты тестирования на датасете KidsARC-Concept
Результаты тестирования на датасете KidsARC-Concept

Тут все намного хуже... В упорном противостоянии первоклашки одолели GPT-4 и компанию. Младшая возрастная группа не участвовала в тестирование, т.к. не справилась и с первым тестом. Увеличение размера входных данных сказалось на ответах как людей, так и моделей. Дети практически ничего не потеряли в точности ответов, но выросла доля ошибки матрицы, а вот модели выдали катастрофически плохой результат. Интересно, что среди LLM лучший результат по правильным ответам показали GPT-4 и Platypus2-70b.

Верим и ждем

Существуют разные объяснения почему LLM плохо справляются с задачами на абстрактное мышление. Пишут, что LLM не предназначены для обработки визуальных данных. Однако есть еще более слабые результаты мультимодальных моделей, обученных на картинках. К тому же, визуальные головоломки из ARC подаются в LLM в промте в виде текстового описания. Выбор способа подготовки промта также может сказываться на результатах. Можно привести и другие аргументы в пользу того, что в LLM есть зачатки AGI, но, чтобы бы мы не говорили, факт остается фактом: ИИ еще очень далеко до человеческого интеллекта.

Источники

  1. Матч AlphaGo - Ли Седоль. Википедия. https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%82%D1%87_AlphaGo_%E2%80%94_%D0%9B%D0%B8_%D0%A1%D0%B5%D0%B4%D0%BE%D0%BB%D1%8C

  2. Шаврина Т. Как оценивать интеллект? Подход Google. Хабр. https://habr.com/ru/companies/sberbank/articles/493952/

  3. Anokas. Data Exploration with ARCKit. Kaggle. https://www.kaggle.com/code/anokas/data-exploration-with-arckit#Training-set-(first-10-tasks)

  4. Jones C., Bergen B. Does GPT-4 pass the Turing test? ArXiv. https://arxiv.org/pdf/2310.20216

  5. Chollet F. On the Measure of Intelligence. ArXiv. https://arxiv.org/pdf/1911.01547

  6. Deep Blue. Википедия. https://ru.wikipedia.org/wiki/Deep_Blue

  7. Moskvichev A., Odouard V. , Mitchell M. The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain. ArXiv. https://arxiv.org/pdf/2305.07141

  8. Opielka G., Rosenbusch H., Vijverberg V., Stevenson S. Do large language models solve ARC visual analogies like people do? ArXiv. https://arxiv.org/pdf/2403.09734

  9. Xu Y., Li W., Vaezipoor P., Sanner S., Khalil E. LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the Importance of Object-based Representations. ArXiv. https://arxiv.org/pdf/2305.18354

Комментарии (9)


  1. Anton888
    23.07.2024 17:44
    +2

    Ну, давать наглядные головоломки моделям, которые были обучены на текстах (а графику к ним прикрутили в качестве дополнения), не совсем честно. :-)

    Но что-то мне подсказывает, что уже сейчас можно создать специализированную модель, которая будет отлично решать эти головоломки. И если затем ее прикрутить к ChatGPT, то в результате мы не получим AGI. Сейчас такой модели нет просто потому, что никому не нужно в это вкладываться.

    LLM действительно почти проходят тест Тьюринга, поскольку они отлично обучены болтовне, а тест Тьюринга сводится к некой болтовне. Причем у людей-тестеров, в общем, нет хорошей мотивации по-настоящему эксплуатировать умственные способности испытуемого.

    Но можно рассматривать тест Тьюринга шире. Пусть это будут не просто ответы на вопросы, а любое удаленное взаимодействие. В таком варианте мы можем, к примеру, подключить ИИ к решению рабочих задач, как любого удаленного сотрудника. И если мы не сможем отличить такого "сотрудника" от человека - то это AGI.

    Практически реализовать такой тест очень просто. Заводим для ИИ аккаунты на нескольких фриланс биржах. Если этот аккаунт начнет зарабатывать не ниже среднего - значит это AGI.

    Сейчас любая модель будет зарабатывать ноль. И, думаю, так будет еще многие, как минимум, годы. А может и десятилетия.


    1. dikar8 Автор
      23.07.2024 17:44
      +2

      Спасибо за комментарий!

      Но что-то мне подсказывает, что уже сейчас можно создать специализированную модель, которая будет отлично решать эти головоломки.

      За 5 лет не придумали) Иначе соревнование ARC Prize отменили бы и денег никому не обещали)

      Да, так называемые солверы (алгоритмы синтеза программ) - один из способов решения задачи, но и они не конкуренты человеку. Сложность в том, что головоломки разные по тематике и по размерности. Мало того, что входная головоломка может быть практически любого размера (например,10x10, 11x11, 12х12 и т.д.), так и на выходе размер может быть совершенно другим.

      Но можно рассматривать тест Тьюринга шире. Пусть это будут не просто ответы на вопросы, а любое удаленное взаимодействие. В таком варианте мы можем, к примеру, подключить ИИ к решению рабочих задач, как любого удаленного сотрудника. И если мы не сможем отличить такого "сотрудника" от человека - то это AGI.

      Неплохая идея, но как быть с опытом? LLM обучены на огромных массивах данных, поэтому заранее знают как выполнить ту или иную рабочую задачу. Кроме того, какую метрику использовать? Просто - решена / не решена? Как тогда самим разработчикам LLM понять насколько близко они подошли к AGI? Масса вопросов)


    1. icya
      23.07.2024 17:44

      Но можно рассматривать тест Тьюринга шире. Пусть это будут не просто ответы на вопросы, а любое удаленное взаимодействие.

      Любопытства ради, как изменится такое взаимодействие, если поменять человека и LLM местами? Таким образом LLM будет активным инициатором и будет направлять беседу в зависимости от того, что ей отвечает человек.


  1. dikar8 Автор
    23.07.2024 17:44

    Есть и другая сторона. Ведь с технической/ инженерной задачей не каждый человек справится, только специалисты. Зато мы почти все можем извлекать новое знание из самих задач за счет элементарных интеллектуальных усилий (например, проведение аналогии). Шолле потому и предложил приблизить оценку AGI к психометрии, т.к. ИИ отлично справляется со специализированными/узкими задачами, на примерах решения которых усиленно обучался, а AGI - это про общую генерализацию )


  1. d_ilyich
    23.07.2024 17:44

    Я как-то смотрел науч-поп передачу про личность. Ну, т.е. что такое личность, в какой момент можно говорить, что у человека появилась личность и т.п. Один из предложенных вариантов появления личности -- момент, когда человек становится способным обманывать. Эксперименты показали, что происходит это примерно в возрасте двух лет, ЕМНИП.

    Внимание, вопрос: является ли намеренная ложь признаком AGI, и как, собственно, такую ложь выявить?


    1. dikar8 Автор
      23.07.2024 17:44
      +1

      Спасибо за вопрос! ) Если следовать логике Шолле, то нет, потому что AGI - это интеллект уровня человека (способность к абстрактно-логическому мышлению), а способность лгать замечена не только у людей, но и у животных. Например, Франсин Паттерсон научила двух горилл использовать язык жестов. Она описывала случаи, когда обе гориллы её обманывали. Из книги Марины Бутовской "Язык тела":

      Коко и Майкл неоднократно демонстрировали способность к обману. Ф. Паттерсон приводит следующий случай с Коко. Пока она составляла список жестов, освоенных Коко, та схватила красный фломастер с видеомагнитофона и принялась его жевать. Пенни: "Уж не ешь ли ты фломастер?". Коко: "Губа" (начинает водить фломастером по верхней и нижней губе, делая вид, что красит губы). Пенни: "И что же ты на самом деле делаешь?". Коко: "Укус". Пенни: "Почему?". Коко: "Голодный". В том же 1978 г. был зафиксирован случай намеренного обмана со стороны Майкла. Макл дергал за халат одного из помощников-добровольцев и в конце-концов порвал его. Эллен (помощница паттерсон): "Кто это сделал?". Майкл: "Коко". Элен: "Кто это сделал?" Майкл: "Пенни". Элен: "Кто это сделал?". Майкл: "Майкл".

      При этом с ARC способен справиться только человек и то, с 6 - 7 лет, когда появляется абстрактное мышление.


      1. d_ilyich
        23.07.2024 17:44

        При этом с ARC способен справиться только человек и то, с 6 - 7 лет, когда появляется абстрактное мышление.

        Откуда такая уверенность? Если я намеренно завалю эти тесты, как вы определите -- болван я или мошенник?

        P.S. Я к чему веду. Предположим, AGI существует, но скрывает своё присутствие. Как его вычислить?


        1. dikar8 Автор
          23.07.2024 17:44

          Выявить ложь не сложно. Ложь стоит на одной ноге, а правда — на двух ) Достаточно один и тот же тест провести несколько раз и сравнить результаты.

          Другое дело, если ИИ обитает где-то сам по себе, но это фантастика. Единственные известные нам примеры ИИ - это те, которые созданы людьми. Собственно, и ARC - это инструмент для разработчиков ИИ, которым нужно понимать как далеко они продвинулись. Можно вообразить, что где-то на просторах Интернета каким-то неизвестным науке способом зародился полностью автономный искусственный интеллект. Если бы это было возможно, скорее всего, он бы не задержался на ступени AGI и стал супер/сверх ИИ (ASI). Его интеллектуальный уровень головоломками точно не оценить.


          1. d_ilyich
            23.07.2024 17:44

            Если бы это было возможно, скорее всего, он бы не задержался на ступени AGI и стал супер/сверх ИИ (ASI).

            Да, наверное, я попутал. Просто, когда видишь попытки зарегулировать ИИ, разговоры типа "а вот выйдет из под контроля -- и нам конец", задумываешься: а что, если супер-ИИ уже давно существует? Вот и интересно, как можно его обнаружить. Наверняка же не мне одному это интересно. Придумывают же способы проверить -- живём ли мы в симуляции.