Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.
Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.
На сегодня существует две версии этого теста. Так о чем же он?
ARC-AGI-1
История начинается в 2019 году со статьи Франсуа Шолле (François Chollet, создатель библиотеки Keras). В этой работе он ставит задачу определения и оценки способностей искусственного интеллекта. На самом деле это большая трудность: даже в нейронауках нет четкого критерия для оценки уровня интеллекта. С искусственным интеллектом все еще сложнее.
Один из подходов — оценивать возможности ИИ в решении различных задач. Но проблема в том, что если взять задачи, требующие только опыта, то мы теряем возможность оценить способность модели к обобщению. В таком случае решение будет сильно зависеть от этого опыта, а не от способности к логическим рассуждениям «здесь и сейчас».
В своей работе Франсуа Шолле дает формальное определение интеллекта, основанное на алгоритмической теории информации. Он описывает интеллект как эффективность приобретения навыков, выделяя такие понятия, как масштаб, сложность обобщения, предшествующие знания и опыт, которые необходимо учитывать при характеристике интеллектуальных систем.
Итак, ARC-AGI — это бенчмарк для оценки способности модели к абстрактному мышлению и рассуждению. Задачи в нем выглядят примерно так: на вход подается сетка с закрашенными квадратиками, а на выходе нужно нарисовать квадратики, следуя выявленному шаблону. Цель модели — правильно понять визуальные паттерны. Для обучения и тестирования есть по 400 задач в каждом наборе. На выходе при этом размерность сетки может отличаться от сетки на входе.
Давайте рассмотрим пример. Перед нами сетка 7x7. На левой картинке (вход) изображены две голубые фигуры. На выходе мы должны закрасить ещё два квадратика синим, чтобы получились два полноценных квадрата 2x2.

В другом примере нам необходимо дорисовать фигуры в соответствие с цветами на левой картинке.

Вам кажется, что это легко? В целом, даже если для нас задача проста, для модели она может оказаться непостижимой. Так и было до появления действительно мощных моделей, начиная с reasoning-модели o3. Тогда стало понятно, что с увеличением вычислительных ресурсов модель вполне способна выучить необходимые закономерности.
ARC-AGI-2
Так появился ARC-AGI-2. В 2025 году Франсуа Шолле с соавторами опубликовали новый бенчмарк. Он по-прежнему включает задачи на визуальные паттерны и основан на тех же фундаментальных принципах, которые заложил Шолле. Однако обновление было сосредоточено на том, чтобы модели не могли решать задачи путем перебора (брутфорса) или просто за счет наращивания вычислительной мощности.
ARC-AGI-2 обеспечивает более широкий и релевантный набор метрик для измерения прогресса в развитии способностей, необходимых для достижения AGI. Здесь уже 1000 обучающих задачек и 120 тестовых.
Пример задачек из ARC-AGI-2. Как видно, размер выходной сетки стал меньше и необходимо найти какие-то скрытые паттерны для получения соответствующей абстракции.

В следующей задаче наоборот. Размер выхода больше чем размер входа.

Задачи стали сложнее и интереснее. Кроме того, в рамках бенчмарков учитывается и эффективность, выраженная в явном эквиваленте — стоимости вычислений (compute cost). В целом, чем меньше средств модель тратит на вычислительные ресурсы, тем лучше. На людях этот показатель составляет в среднем 17 долларов.
Про ChatGPT 5.2
Вернемся к вчерашнему релизу. Что же показал ChatGPT-5.2? В общем-то, это очередной рекорд, и графики говорят сами за себя. На ARC-AGI-1 модель достигла результата в 90.5%, тогда как предыдущая версия 5.1 показывала 72.8%. Стоит отметить, что это результат Pro-версии с максимальным уровнем рассуждений, и стоимость решения одной задачи в ней превышает 10 долларов. Однако даже не-Pro версия уверенно опережает ближайших конкурентов.

На ARC-AGI-2 ситуация схожая. Модель с большим отрывом лидирует, набирая 52.9% против 17.6% у предыдущей версии, а Pro-версия и вовсе показывает 54.2%. Для сравнения, результат человеческого интеллекта на этом бенчмарке составляет около 60%. Ещё немного — и ИИ достигнет этого уровня.

Заключение
ARC-AGI-1 и ARC-AGI-2 стали невероятно популярными бенчмарками благодаря своему продуманному подходу и концепциям, заложенным Франсуа Шолле. Будем ждать новых свершений от ИИ, а пока нам готовят следующий бенчмарк — ARC-AGI-3, в котором будет оцениваться интерактивность, приближенная к человеческому процессу рассуждения.
Подписывайтесь на мой тг канал, где я пишу про ИИ и не только.