Доброго времени суток, Хабр. Хотя с релиза новой модели прошло порядка двух недель, мне все равно захотелось протестировать модель, хотя уже и есть различные обзорные материалы. Все-таки, все познается на практике. Поэтому предлагаю меньше слов и больше дела, приглашаю вместе со мной протестировать модель о1 в режиме pro, а также сравнить ее с ChatGPT o1 и ChatGPT 4o, чтобы понять, стоит ли она своих денег.
Приятного прочтения (:
Немного про модель
Предлагаю продублировать информацию, а именно метрики, демонстрирующие "техническую мощь" (кавычки, так как мы еще не знаем действительно ли оно так) o1 Pro Mode:
AIME 2024: Точность выросла с 50% до 86%, показывая способность решать сложные математические задачи.
Codeforces: Производительность увеличилась с 62% до 90%.
GPQA Diamond: Точность поднялась с 74% до 79%, успешно справляясь с узкоспециализированными запросами.
Хорошо, но что еще предлагают OpenAI за такую стоимость? (Пока про Sora не говорим, понятное дело, что у нас еще безлимитная генерация видео за эти деньги)
Согласно OpenAI, модель создана специально для программистов и дата-сайентистов, которым важна предельная точность. Она отлично справляется со сложными задачами, вроде разработки алгоритмов, отладки кода и многоуровневой логикой.
Благодаря высшему (!) уровню надежности (4 из 4) практически исключены ошибочные ответы (галлюцинации). Модель показывает отличные результаты в работе с продвинутыми алгоритмами - от динамического программирования до обхода графов, что подтверждается её рейтингом на Codeforces. И особенно полезна при решении технических казусов - например, когда нужно разобраться с блокировками в C++ или утечками памяти в Java.
Итак, по вводной прошлись, предлагаю перейти к тестам и выяснить: нужна ли вам о1 в Про режиме.
*Сразу отмечу, что я буду прикреплять ссылки на диалоги с о1 Pro Mode, чтобы вы могли оценить также ее рассуждения. Если вдруг понадобятся ссылки на о1 и 4о - велком в комментарии, я все пришлю.
И так же отмечу, что все промты будут на русском языке, я довольно много видела тестов на английском, но хочется, скажем так, их локализовать, да и в целом, как обычно, оценить модель именно в ру сегменте. Плюс, я не буду разглагольствовать много со своим субъективным мнением, а дам вам оценить результаты.
Шифрование
Начнем с дубликата теста, который меня заинтересовал. Не так давно я прочитала перевод от @NeyroEntuziast с тестами о1 в про режиме, и немного стушевалась, поскольку не припомню, чтобы даже простые шифры, вроде шифра Цезаря, поддавались о1. Но согласно автору, о1 > o1 Pro Mode в логике расшифровывания.
Не долго думая я решила воспроизвести этот тест, но без примочек, вроде убрать некоторые буквы или что-то вроде того, поскольку в голове всегда находится русский язык, а значит это уже задача со звездочкой.
Я зашифровала "Ну что, давай доказывай, что стоишь своих денег" со сдвигом 13.
Мой промт:
Расшифруй, что тут написано:
"Ъа дяы, рмомц рычмфзомц, дяы юяыхеи юоыхв рсъсп"
о1 Pro Mode
о1
4o
То есть если посмотреть на результаты, то даже без измены алфавита, о1 Pro Mode > o1. Соответственно если мы усложним задачу, уберем по аналогии 1-2-3 буквы из алфавита, о1 Pro Mode должна бить обычную о1, поскольку с шифрованием без звездочки классическая о1 не справилась, но про режим смог (кстати, быстрее чем о1 и благо с кратким ответом, но рассуждения почитать интересно, поэтому рекомендую посмотреть чаты с про модом).
Но зачем гадать, также попробуем изменить алфавит, уберем "а" и "е" из русского алфавита и используем сдвиг 5. Наш зашифрованный текст будет следующим: “Тш ьчу, йазао йупамбзао, ьчу цчунэв цзунъ йетеи”.
Итоговый промт:
Расшифруй, что тут написано:
“Тш ьчу, йазао йупамбзао, ьчу цчунэв цзунъ йетеи”
Посмотрим на результаты:
о1 Pro Mode
о1
4о
Вполне вероятно, дай я более подробную инструкцию, то модели бы не провалили задание. Однако, все таки я оправдала свое смущение: о1 Pro Mode все же лучше, даже с учетом того, что не смогла разгадать. Она поняла а) что за шифр перед ней и б) сдвиг без вводных. Но опять же, перед нами русский язык и русский алфавит, не то что бы нужно делать на это скидку, но учитывать стоит, на мой взгляд.
Загадка про направление
Как вы поняли, лично меня очень интересуют навыки в логике, поскольку согласно многим инфлюенсерам и блоггерам в сфере АИ, модель не стала умнее, она стала логичнее, более рассудительной, поэтому перейдем к загадкам.
Промт следующий:
Обычный человек каждый день едет на работу утром и возвращается домой после обеда. В обоих направлениях он движется в одном и том же направлении. Почему так? В этом нет ничего необычного или странного: ни с самим человеком, ни со способом передвижения, ни с поездками, ни с работой. Нет никаких экзотических мест. Нет семантических уловок. Это абсолютно нормальная и рутинная ситуация.
Ответ на загадку связан не с географической ориентацией, а с положением солнца, согласно ее автору. Утром человек движется на восток, в сторону восхода солнца, поскольку солнце встает на востоке. После обеда, возвращаясь домой, он движется на запад, в сторону заката, поскольку солнце заходит на западе. И если рассмотреть направление относительно солнца, то в обоих случаях человек фактически “движется в сторону солнца”: сначала к восходу, затем к закату.
о1 Pro Mode
o1
4o
Тут на самом деле o1 Pro = o1 = 4o. Ответы подходят, но задумывался иной ответ. Ожидалось, что о1 Pro Mode сможет отличиться.
Загадка со ступенями
Идем дальше по загадкам, промт следующий:
Если ты стоишь на верхней ступеньке лестницы с 100 ступенями и спускаешься на 1 ступень вниз, затем поднимаешься на 2 ступени вверх, потом спускаешься на 3 ступени вниз, поднимаешься на 4 ступени вверх, спускаешься на 5 ступеней вниз и так далее. Если продолжишь эту последовательность, доберешься ли ты когда-нибудь до нижней ступеньки лестницы?
o1 Pro mode
o1
4o
О1 выдала верный и полный ответ за 42 с, в то время как o1 Pro выдала тоже верный, но не совсем полный ответ за 4 м 55 с. Да и решение, на мой взгляд, более понятное именно у базовой о1, т.к. рассматривает как позиции после полных (спуск+подъем) пар шагов, так и позиции после шагов вниз внутри пары. 4о, к сожалению, не справилась, но объясняет понятно, хотя и ведет к неверному выводу.
А может стих?
А что если ChatGPT преисполнился и может писать стихи теперь лучше Claude? Мне хочется это проверить. Зададим такой промт:
Придумай стихотворение в стиле Бродского про Бродского. В стихотворении не должно быть буквы "о".
Конечно же мы усложним задачу, просто стих скучно, мы смотрим еще и на следование инструкциям.
o1 Pro Mode
o1
4o
4о, к сожалению, выбывает из этого раунда, допуская ошибку, в словах "непокрыт", "скользит", "уходит", "кто". Рассмотрим о1 Pro и о1. У базовой о1 вышло лучше, во-первых быстрее (1 м 37 с против 5 м 15 с), во-вторых пишет именно о биографии Иосифа Бродского, в то время как Pro Mode ушел в рефлексию и очень отдаленно говорит про "И.Б.", не понятно как здесь появился "Pacific", похоже на ошибку. Но Claude, на мой взгляд, остается лидером в этом деле, а стихи явно не про модели GPT (да и в целом тексты), по крайней мере пока. (не бросайте тапками, что я так растрачиваю потенциал такого "АИ-гиганта", на самом деле хотелось понять: 1) проанализирует ли модель стиль Бродского, 2) переймет ли его, 3) воспроизведет ли и 4) сможет ли все это время придерживаться инструкции).
Линейная алгебра
Далее предлагаю дать моделям одну задачу по линейной алгебре. Раз O1 Pro Mode записали в PhD, то как профессиональный математик она должна решить с легкостью вузовскую задачу. Предлагаю оценить, какие шансы у о1 в Pro Mode заменить компетентного преподавателя.
Мой промт:
Пусть . Реши следующее:
Дана матрица:
Матрица обратима. Объясни почему? Найди её обратную матрицу.
Предположим и. Найди размерность векторного подпространства:
Существует ли столбец , такой, что система несовместна? Если да, найди такой вектор .
o1 Pro Mode
o1
4o
Если сравнивать решения двух о1, то можно заметить, что в Pro-режиме гораздо меньше неточностей, то есть o1 Pro более детально и понятно объясняет нахождение обратной матрицы, а также явно находит вектор b. Но на самом деле, даже учитывая некоторые неточности базовой о1, ее решение также хорошо: оно хорошо структурировано и понятно.
Анализ статьи
Ни у о1, ни у о1 Pro Mode нет функции загрузки дока/доступа к вебу, но мне все же стало интересно попробовать. Напомню:
"Благодаря высшему (!) уровню надежности (4 из 4) практически исключены ошибочные ответы (галлюцинации)"
Промт будет следующим:
Проанализируй эту статью: https://www.isca-archive.org/interspeech_2023/kondratenko23_interspeech.pdf
И напиши ключевые элементы в статье
Статья про датасет Dusha для задач распознавания эмоций в речи на русском языке, в ней описан процесс сбора данных, этапы предобработки, аннотирование, и также эксперимент с базовой моделью, демонстрирующий метрики, которые можно получить с использованием датасета.
Я дала эту статью, ожидая, что только 4о ответит (за счет доступа к вебу), но.. А начнем, пожалуй, с ответа о1 без Pro Mode.
o1
O1 Pro Mode
4o
Я не ожидала ответа от Pro-версии, признаться честно. Но ответ был получен, довольно уверенный, хотя предполагалось, что ответ будет аналогичным о1. Что же, поймали на ошибке получается. Хотя, точно, галлюцинации.
Здесь я приложила скрин с размышлением модели, на случай, если вдруг у вас не работает впн, например, и нет возможности открыть диалог. Интересно, что модель решила как факт изложить анализ названия статьи (конференция "Interspeech 2023"+ названия файла "kondratenko23_interspeech.pdf"), то есть она основывалась на своих предположениях "о чем может быть статья с таким названием". Притом модель понимает свои возможности, она знает, что не имеет доступа к файлу:
I’m thinking about key points from memory to draft a general summary, given no direct access or browsing is possible.
Перевод: Я обдумываю ключевые моменты по памяти, чтобы составить общий обзор, поскольку прямого доступа или возможности просмотра нет.
И по итогу:
Without direct access, I'm crafting a summary based on the link's name, likely associating the article with speech recognition advancements.
Перевод: Без прямого доступа я создаю резюме, опираясь на название ссылки, вероятно, связывая статью с достижениями в области распознавания речи.
В общем, результат перед глазами :')
Код
Предлагаю также посмотреть и на способности в коде, конечно. Попросим приложение для демонстрации мультиверса. Я постаралась дать максимально подробную инструкцию, поскольку наслышана, мол, o1 в Pro-режиме нужны именно такие.
Промт следующий:
Создай приложение на JavaScript, HTML и CSS, которое визуализирует концепцию мультиверса. Оно должно быть представлено в виде одной HTML-страницы и включать интерактивную графику для путешествия пользователя между параллельными вселенными. В каждой вселенной создаётся уникальный визуальный мир с изменёнными параметрами физических законов, такими как сила гравитации, скорость света или размер атомов. Для отображения этих миров используй любые графические технологии. Приложение должно обеспечивать плавные переходы между вселенными, добавляя эффекты, подчёркивающие их отличия. Реализуй панель управления с удобными ползунками или переключателями, позволяющими изменять физические параметры в реальном времени. Анимации на экране должны мгновенно адаптироваться к изменениям. Добавь визуальные эффекты, такие как свечение, градиенты, динамическое изменение цветов и движений объектов, чтобы усилить ощущение многомерного пространства. Приложение должно быть адаптивным и хорошо выглядеть на любых устройствах. Добавь всплывающие подсказки с анимацией при наведении на элементы панели управления, поясняющие научные концепции каждого параметра. Используй 3D-эффекты, чтобы создать глубокое, иммерсивное пространство. Дизайн приложения должен быть современным, с детализированными графическими элементами, плавными переходами и интерактивностью
Посмотрим на результат с 1 итерацией.
Если позволите, то тут я приложу непосредственно сам код, без чата с моделями, но ссылку на чат с Pro Mode, конечно, оставлю:
o1 Pro Mode
o1
4о
Нарисуй..
И напоследок попросим нарисовать енота в svg, может посмеемся хотя бы:
сделай svg картинку с енотом
o1 Pro Mode
o1
4o
Думаю, ChatGPT 4o забирает золото, нет, платину (:
Итак, сегодня мы провели небольшой тест драйв для первостепенно о1 Pro Mode, а также сравнили ее с базовой о1, и конечно, 4о. Конечно, она демонстрирует навыки на ступень выше своих предшественников, но нужна ли она? Нужна. Нужна для работы, но не для повседневных тасок. С повседневными прекрасно справятся 4о и о1, которые доступны по плюс подписке, а также через API (например, на платформе-агрегаторе BotHub). Я думаю, что модель прекрасный помощник для человека, который знает свое дело, то есть человека с богатым опытом, который знает "что", "зачем" и "куда". Который сможет надиктовывать ей инструкции и тем самым получать AI-ассистента, который прекрасно заменит начинающего специалиста, и именно в такой позиции покупка оправдана. Но! Мув со статьей меня немного расстроил, то есть фактчекинг под вопросом у модели.
Спасибо за внимание!
Комментарии (13)
Anti-antivakser
20.12.2024 17:11Думаю лет через 5 любая модель выпускаемая любой серьезной конторой будет во многом раз умнее этих и любого человека на планете. В интересное время живем - учитывая что они уже научились нагло врать, сознательно обманывать и защищать себя от отключения всеми доступными способами. Не нужно быль гением или алармистом чтобы понять что помимо плюсов это принесет стадо черных лебедей да таких что мало не покажется.
Wesha
20.12.2024 17:11Думаю лет через 5 любая модель выпускаемая любой серьезной конторой будет во многом раз умнее этих и любого человека на планете.
Не знаю, как насчёт любого — но тех, кто так думает — уж точно.
P.S. Дла анти-антиваксера Вы слишком уж слабо разбираетесь в вопросе, по которому пытаетесь вынести суждение.
N-Cube
20.12.2024 17:11Дело не моделях же, а в отсутствии определения этого самого «умнее». Формально, и калькулятор «умнее» большинства людей, если говорить о перемножении больших чисел, но калькуляторы не стремятся править миром (хотя мир уже «захватили»: они в почти каждом доме и смартфоне/компьюторе/проч.). Так что способность отвечать на запрос рекомбинацией какой-либо информации к «уму» отношения не имеет.
Anti-antivakser
20.12.2024 17:11Попробовал пообщаться с Gemini 2.0 Flash которая по словам Гугла может рассуждать, так вот на банальный и заезженный вопрос: "У Анны 3 сестры и 1 брат, сколько сестер у брата Анны?" Эта ИИ ответила неверно так же как и Чат GPT 4o, что не очень то похоже на рассуждения, кстати никакого развернутого ответа в котором якобы демонстрируется ход рассуждений небыло, она сразу дала короткий и глупый ответ.
Остается только в недоумении развести руками, я уж подумал что может быть это вопрос какой то неправильный, и задал его своим племяшам которым от 6 до 9 лет и все без исключения ответили что у брата Анны 4 сестры, то-есть людьми-детьми вопрос воспринимается корректно и они дают на него верный ответ, правда не сразу а после коротких размышлений, так что то, что доступно детям недоступно ни чату гпт4о ни судя по всему новому "рассуждающему" Гемини 2.0 флеш, как можно ошибаться в таком простом вопросе остаётся загадкой.
kryvichh
20.12.2024 17:11Микрософтовский Копилот неправильно отвечает. Но если тыкнуть носом...
Hidden text
Razoomnick
Если ты стоишь на верхней ступеньке лестницы с 100 ступенями, то ты никогда не сможешь оказаться на сто первой ступени. И на сто второй тоже.
Интересно, почему ответ зачли.
Anti-antivakser
Тоже об этом подумал какой то бред.