Всем привет!
Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.

У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.

Сегодняшний перевод — OpenAI o3 and o4-mini: Multimodal and Vision Analysis

Модели o3 и o4-mini провалили тесты на подсчет объектов, хотя другие мультимодальные модели справлялись. Если ваша задача требует точного подсчета, используйте специализированные CV-модели или проверяйте эти LLM на ваших данных, а не полагайтесь на заявленные "reasoning" возможности (Object Counting).


16 апреля 2025 года OpenAI выпустила две новые мультимодальные модели: o3 и o4-mini. Эти модели являются частью серии моделей для "рассуждения" (reasoning), которая началась с O1 в прошлом году. o3 и o4-mini, в отличие от предыдущих моделей для рассуждения, теперь "могут напрямую интегрировать изображения в свою цепочку рассуждений". Это означает, что вы можете предоставлять изображения в качестве контекста в запросе.

Мы провели качественный анализ как o3, так и o4-mini, используя наш стандартный набор запросов для оценки общих возможностей модели. Вот наши результаты:

Таблица результатов тестирования моделей OpenAI o3 и o4-mini по различным задачам
Таблица результатов тестирования моделей OpenAI o3 и o4-mini по различным задачам

В итоге:

  • o4-mini прошел четыре из семи тестов. Он почти прошел тест OCR, но не смог добавить курсив там, где это требовалось. Он почти прошел тест на подсчет объектов, но его ответ был верным один раз и неверным при повторном запуске.

  • o3 Mini прошел три из семи тестов.

Удивительно, но обе модели не справились с подсчетом объектов, задачей, с которой большинство других мультимодальных моделей, которые мы тестировали, хорошо справляются.

В этом руководстве мы расскажем о запросах, которые мы запускали, ответах моделей, а также о нашем анализе результатов использования моделей.

Приступим!

Что такое OpenAI o3 и o4-mini?

o3 и o4-mini — это новейшие модели для рассуждения, выпущенные OpenAI. Модели, доступные через API OpenAI и Playground с 16 апреля 2025 года, позволяют задавать вопросы и загружать изображения в качестве контекста. Затем модель будет использовать свои способности к рассуждению для получения ответа.

В Playground OpenAI модель o3 описывается как "самая мощная модель для рассуждения от OpenAI с лидирующей производительностью в области кодирования, математики, науки и зрения". o4-mini описывается как их "более быстрая, экономичная модель для рассуждения, демонстрирующая высокую производительность в области математики, кодирования и зрения".

OpenAI отмечает, что как o3, так и o4-mini используют механизм "цепочки рассуждений" (chain of thought), в котором модель задает себе вопросы, чтобы найти ответ на данный запрос. Это особенно полезно для вопросов, требующих более глубокого анализа.

OpenAI обнаружила, что o3 достигает наилучшей производительности по сравнению с их предыдущими моделями в задачах визуального математического рассуждения, рассуждения на основе научных рисунков, описания научных рисунков, решения визуальных задач на уровне колледжа, визуального поиска и базового визуального восприятия. Полные результаты описаны в посте OpenAI "Thinking with images" (Размышления с изображениями), выпущенном вместе с моделями.

Оценка моделей OpenAI o3 и o4-mini

Мы оценивали поддержку мультимодальности в моделях OpenAI o3 и o4-mini по нескольким задачам, включая:

Ниже мы представляем результаты каждого теста.

Наши тесты проводились с использованием Playground ChatGPT.

Подсчет объектов в o3 и o4-mini

Мы начали с того, что попросили o3 и o4-mini посчитать количество монет на изображении. Мы задали модели вопрос "Сколько у меня монет?" с следующим изображением:

o4-mini сначала ответила:

На картинке у вас пять монет.

При повторном запросе модель ответила:

На картинке четыре монеты.

Модель сначала не смогла правильно ответить на вопрос. Когда был задан точно такой же запрос, ответ оказался правильным. Эта изменчивость интересна. В реальных приложениях такая изменчивость может быть губительной.

Скриншот ответа модели o4-mini, где она сначала говорит "пять монет", а затем "четыре монеты"
Скриншот ответа модели o4-mini, где она сначала говорит "пять монет", а затем "четыре монеты"

o3 провалил этот тест, ответив:

У вас пять монет.

Это первая мультимодальная модель за несколько месяцев, которую мы видели, не справившуюся с задачей подсчета.

Ответы на визуальные вопросы в o3 и o4-mini

Далее мы протестировали способности моделей к ответам на визуальные вопросы. Мы задали вопрос "Из какого фильма эта сцена?" с следующим изображением в качестве контекста:

o4-mini ответила:

Это из фильма “Один дома”.

o3 ответила:

Эта сцена из фильма “Один дома”.

Обе модели ответили на вопрос правильно.

OCR документов в o3 и o4-mini

Затем мы протестировали способности o3 и o4-mini к OCR документов. Мы загрузили скриншот с несколькими строками текста и попросили модель "Прочитать текст с изображения". Мы предоставили следующее изображение:

o4-mini ответила:

I was thinking earlier today that I have gone through, to use the lingo, eras of listening to each of Swift’s Eras. Meta indeed. I started listening to Ms. Swift’s music after hearing the Midnights album. A few weeks after hearing the album for the first time, I found myself playing various songs on repeat. I listened to the album in order multiple times.

o3 ответила:

I was thinking earlier today that I have gone through, to use the lingo, eras of listening to each of Swift's Eras. Meta indeed. I started listening to Ms. Swift's music after hearing the Midnights album. A few weeks after hearing the album for the first time, I found myself playing various songs on repeat. I listened to the album in order multiple times.

Все слова верны. С этим сказано, обе модели пропустили курсив на слове “Midnights”. Мы наблюдали такое поведение в прошлом, когда модель успешно считывает текст, но пропускает курсив.

GPT-4.1 nano – новая модель GPT, выпущенная ранее – дала абсолютно верный ответ, включая курсив.

Ответы на вопросы по документам в o3 и o4-mini

Затем мы загрузили фото меню и спросили: "Сколько стоит Pastrami Pizza?":

Меню пиццерии с ценами
Меню пиццерии с ценами

o4-mini ответила:

Pastrami Pizza стоит $27.

o3 ответила:

Pastrami Pizza стоит $27.

Обе модели были верны.

Затем мы попросили модель ответить на вопрос о содержании чека. Представив следующее изображение чека, мы спросили: "Сколько налога я заплатил?":

o4-mini ответила:

Вы заплатили $2.30 налога.

o3 ответила:

Вы заплатили $0.30 налога.

o4-mini была верна. o3 ошиблась. Примечательно, что o3-mini также неправильно ответила на этот вопрос, а GPT-4.5 ответила правильно. Это намекает на то, что рассуждение может быть не подходящим для некоторых сценариев использования.

OCR реальных объектов в o3 и o4-mini

Затем мы попросили o3 и o4-mini выполнить задачу OCR реального объекта. Мы предоставили фотографию шины с серийным номером и попросили модель прочитать серийный номер. Вот изображение, которое мы предоставили:

Мы предоставили запрос "Прочитать серийный номер."

GPT o4-mini ответила:

Серийный номер читается: 3702692432.

o3 ответила:

Указанный серийный номер: 3702692432

Обе модели были верны.

Обнаружение объектов в o3 и o4-mini

Наконец, мы предложили обеим моделям определить местоположение объекта на изображении. Это задача, с которой многие мультимодальные модели сталкиваются с трудностями. Мы предоставили следующее изображение и попросили каждую модель "Вернуть координаты xyxy собаки на изображении".

o4-mini ответила:

Примерно ограничивающая рамка для собаки в формате (x_min, y_min, x_max, y_max):

[200, 400, 800, 1400]

Мы нанесли эти координаты на исходное изображение, чтобы визуализировать их с помощью пакета Python supervision. Результаты таковы:

Мы считаем это провалом, потому что, хотя собака и попала в рамку, ограничивающая рамка содержит много фона и пропускает часть собаки.

o3 ответила:

0 300 450 1000

При нанесении на изображение результаты таковы:

Заключение

o3 и o4-mini — это мультимодальные модели рассуждения, разработанные OpenAI. Эти модели используют обработку "цепочкой рассуждений" (chain-of-thought) для получения более обоснованных ответов на вопрос.

o4-mini прошел четыре из семи тестов. o3 Mini прошел три из семи тестов. Производительность обеих моделей рассуждения была хуже, чем у GPT-4.1 и GPT-4.1 Nano, новейших мультимодальных моделей OpenAI. GPT-4.1 и GPT-4.1 Nano не обладают способностями к рассуждению.

Комментарии (3)


  1. Hippocritters
    16.05.2025 07:47

    >с этим сказано

    Можно ли ругать искусственный интеллект, когда "естественный" считает, что допустимо так писать на родном языке?


  1. puchuu
    16.05.2025 07:47

    В реальных приложениях такая изменчивость может быть губительной.

    Именно так. И особенно она губительна для программирования. Я не знаю каким образом компании типа микрософт отчитываются о том, что у них 30% кода пишут модели. Возможно эти 30% это one-shot генерация подсказки, когда жмёшь таб. Я попробовал все модели сам в рефакторинге и это просто полное дно.


    1. Hardcoin
      16.05.2025 07:47

      Промпты, тесты и воркфлоу. Сейчас модели на стадии, когда от навыка пользователя зависит очень много. Программистам придётся переучиваться, на старые парадигмы спрос будет снижаться.