После всей шумихи вокруг выхода o1 Pro я решил провести обширное сравнение. Результаты оказались неожиданными, и я решил поделиться своими выводами с сообществом.

Методология тестирования

Я проверил обе модели в идентичных сценариях, ориентируясь на реальные приложения, а не просто на бенчмарки. Каждое испытание повторялось несколько раз, чтобы обеспечить согласованность.

Основные выводы

1. Сложные рассуждения

Победитель: o1 Pro (но перевес меньший, чем можно было бы ожидать)

  • На ответы уходит на 20-30 секунд больше времени

  • У Claude Sonnet 3.5 - до 90% точности за значительно меньшее время.

2. Генерация кода

Победитель: Claude Sonnet 3.5

  • Более чистый, более удобный для поддержки код (про другие 5 ИИ-инструментов для программирования вы можете узнать в этой статье)

  • Более качественная документация

  • o1 Pro имеет тенденцию к чрезмерной сложности решений

3. Высшая математика

Победитель: o1 Pro

  • Превосходно справляется с задачами уровня доктора философии

  • Claude Sonnet 3.5 отлично справляется с 95% практических математических задач

4. Анализ зрения

Победитель: o1 Pro

  • Детальная интерпретация изображений

  • Claude Sonnet 3.5 пока не обладает расширенными возможностями зрения

5. Научное мышление

Ничья

  • o1 Pro: более глубокий анализ

  • Claude Sonnet 3.5: более четкие объяснения

Разбивка предложений по стоимости

o1 Pro (200 долларов в месяц)

  • Превосходное решение задач уровня доктора философии

  • Возможности зрения

  • Более глубокие рассуждения

  • Дополнительные 5-10% точности в сложных задачах

Claude Sonnet 3.5 ($20/месяц)

  • Более быстрые ответы

  • Более стабильная работа

  • Превосходная помощь в программировании

  • Справляется с 90-95% задач так же хорошо.

Интересные наблюдения

  • Разница во времени отклика очень заметна - o1 Pro часто требуется 20-30 секунд, чтобы «подумать»

  • Способности Claude Sonnet 3.5 к программированию удивительно хороши

  • Соотношение цены и производительности в значительной степени говорит в пользу Claude Sonnet 3.5 для большинства случаев использования

Стоит ли платить в 10 раз больше?

Для большинства пользователей, вероятно, нет. Вот почему:

  1. Разница в производительности не так велика, как разница в цене (мое примечание: но если, к примеру, покупать подписку не на официальном сайте, а в боте, то стоимость на порядок меньше, и можно оплачивать только те запросы к нейросети, которые вы сделали)

  2. Claude Sonnet 3.5 отлично справляется с большинством практических задач

  3. Дополнительные возможности o1 Pro полезны в основном для специализированной академической или исследовательской работы

Какую модель лучше использовать?

Выбирайте o1 Pro, если

  • Вам нужны возможности технического зрения

  • Вы работаете с математическим/научным контентом уровня кандидата наук

  • Дополнительные 5-10% точности очень важны для вашей работы

  • Бюджет не является главной задачей.

Выбирайте Claude Sonnet 3.5, если:

  • Вам нужны надежные и быстрые ответы

  • Вы много занимаетесь программированием

  • Вы хотите получить оптимальное соотношение цены и качества

  • Вам нужны четкие и практичные решения.

Если вам не нужны возможности технического зрения или дополнительные 5-10% точности для решения специализированных задач, Claude Sonnet 3.5 за 20 долларов в месяц для большинства пользователей будет выгоднее, чем o1 Pro за 200 долларов в месяц.

Комментарии (21)


  1. aborouhin
    12.12.2024 17:21

    Для русскоязычной аудитории, если речь про абстрактный уровень знаний, а не конкретного человека с конкретной учёной степенью, PhD лучше переводить как "кандидат наук", а не как "доктор философии". Впрочем, в любом случае такое сравнение, IMHO, любой LLM пока что необоснованно льстит :)


    1. NeyroEntuziast Автор
      12.12.2024 17:21

      Спасибо за разъяснение, поправил


    1. sokolov_aa
      12.12.2024 17:21

      До уровня кандидата наук многим нейронкам нужно развиваться такими темпами пару лет.


  1. k-morozov
    12.12.2024 17:21

    Более чистый, более удобный для поддержки код 

    А можно хоть один пример увидеть?

    Если речь здесь про написать приложение уровня hello world - это одно дело. Если исправление существуещего кода - другое дело. Кто определял удобность получившегося кода? Есть примеры сравнения ответов разных моделей?

    • Превосходно справляется с задачами уровня доктора философии

    Это какие задачи? Что на входе, что требовалось получить?

    В общем нулевая информативность.


    1. sokolov_aa
      12.12.2024 17:21

      Я так понял, что определял автор, и написал пост по своим ощущениям. Это всего лишь мнение, это вроде не обзор. Я пробовал и то, и то, но под мои задачи Клода вполне хватает.


    1. Mexcn
      12.12.2024 17:21

      Я ради эксперимента писал телеграм-бота в Claude потом пробовал аналогично делать GPT, даже по качеству кода и объяснению - Claude лучше. Единственный минус - не может в слишком многострочный код, обрывает надо отдельно прописывать что бы продолжил с определенного места


    1. Wwyn
      12.12.2024 17:21

      Он статью написал только чтобы бота прорекламировать. Зачем ты задаёшь вопросы шитпостеру?


  1. iqmaker
    12.12.2024 17:21

    Хорошо бы для наглядности добавить примеры промта и ответа каждой из ИИ в решении реальных задач.
    Т.к. когда дело касается именно прикладной задачи, например такого плана "напиши конечный автомат по формализации фраз ... тут идёт несколько примеров входа и выхода", то там нередко возникают сложности, например последний GPT так и не смог, хотя заготовку выдаёт быстро, но не работоспособной .. Сам GPT "объяснил" это как то, что он находится в дефиците времени и делает всё на "скорую" руку и ему не хватает времени оценить все состояния автомата.


  1. Osaka
    12.12.2024 17:21

    Не хватает сравнения с обычными o1 и 4o, ну и конечно, промптов и ответов и итоговой таблицы с баллами. Вряд ли это бы потребовало более 8 исходных часов, а информативности прибавило бы в разы.


  1. teilarerJs
    12.12.2024 17:21

    Зачем вы притащили сюда этот нейровысер от мошенника? У автора оригинального поста в linkedin как места работы указаны непонятные компании, которые он типа основал, но сайты у них не работают или состоят из Lorem ipsum dolor. В сертификаты добавлены бесплатные курсы на курсере вроде "гит для начинающих", на github 100 одинаковых проектов, каждый из которых - обертка для gpt. Указано множество опенсорс-проектов, к которым он якобы контрибьютил, только вот на github у него ничего подобного найти не удалось.
    Конечно же его в комментариях попросили предоставить методологию и результаты, у него к сожалению не получилось, мол reddit удаляет его ссылки :).

    TL;DR Автор ничего не тестировал 8 часов, он потратил час и создал с помощью LLM это нейрохрючево.


    1. NeyroEntuziast Автор
      12.12.2024 17:21

      А для теста нейронок нужны созданные компании, дипломы, медали и регалии? Человек описал свой опыт и выразил свое мнение. Я опубликовал пост как мнение, а не как истину во всех инстанциях.

      И я согласен с автором, что функционал o1 pro не стоит таких денег. Но если нужна модель под серьёзные проекты и задачи, то деньги окупятся с лихвой. Если же задачи как разработать план питания или написать код для небольшого приложения, то функционала Claude вполне хватит.


      1. ArtursBirzgals
        12.12.2024 17:21

        Я бы сказал что при активном использовании стоит. Если бесконечный о1 и для экстренных случаев о1про могут за месяц сэкономить мне 6 часов, и как Побочный эффект экономия нервов и счастливые коллеги то уже это того стоит. Домохозяйкам конечно это не нужно. Но тут можно сравнить с тем, что строители выбирают шуруповёрт Makita, а домохозяйка может купить в супермаркете, и будет счастлива


  1. PDEMON
    12.12.2024 17:21

    Вы забыли про контекстное окно. 32к у o1 против 128к у Sonnet 3.5


    1. NeyroEntuziast Автор
      12.12.2024 17:21

      Согласен, тоже весомый аргумент


      1. PDEMON
        12.12.2024 17:21

        А так же для o1 не умения читать прикрепленный файлы. Вернее функция есть, но толком не работает. А вот sonnet с легкостью переваривает прикрепленные документы от первого до последнего символа.


  1. denisemenov
    12.12.2024 17:21

    По части программирования я скорее соглашусь. С оговоркой, что возможно используются разные версии, но всё же. Я сейчас попробовал Copilot в VSCode и тестировал Claude 3.5 Preview, ChatGPT 4o и o1 Preview. Задача помочь сделать WordPress сайт с несколькими десятками блоков на React.

    Claude выдаёт более подходящий и достаточный код, согласно документации WordPress и ТЗ. В то время, как o1 выдаёт какой-то over engineering с усложнением логики, которой его не просили, подключает какие-то дополнительные библиотеки и использует то, чего в проекте нет и не нужно. С o1 я чаще просил удалять лишний код, чем в Claude. При этом с запросом "сделай мне фичу и проапгрейд её как-нибудь дополнительно" Claude создаёт более "готовые" решения. Это достаточно сложно объяснить без тонны примеров, но общее впечатление именно такое: чаще переключаюсь на Claude, чем на ChatGPT.


    1. ArtursBirzgals
      12.12.2024 17:21

      Именно за claude не скажу, я покупал подписку, пробовал с ней программировать, но мне понравилось меньше чем gpt 4о. Ну я допускаю что я с 4о привык работать, а с клавдией не очень.

      Но когда перешёл на 1o, это стал совсем другой уровень. Понимает всё с первого раза, можно доверять тому чего он написал, редко когда приходится перепроверять или переделывать,.

      Сейчас дал относительно сложную задачу о1про, он тоже сделал всё с первого раза, задача заключалась в том, что я делаю Бота для криптобиржи, файл на 770 строчек. И иногда стоп лосс и тейк Профит не может поставиться из-за того что выбирается неверное количество копеек. Типа мы хотели купить 1.0, купилось 0.99999. А продать мы всё равно хотим 1.

      Предложил ему всё перепроверить все цифры перед тем как ставить ордера, он сам проверил связанный ордер покупки, посмотрел что там получилось, посмотрел сколько мы хотим продать, если продать хотим больше чем у нас есть то поправляет эту цифру, потом обрезает значение до пяти после запятой, всё логирует по логам всё читаемо, и всё Zero Shot.

      Задача моя явно не Докторская.

      А 4o просто предложил умножить на 0.99 :)

      Замёл проблему под ковёр.


      1. devoln
        12.12.2024 17:21

        И как, бот в 770 строчек зарабатывает?


  1. Boboboq
    12.12.2024 17:21

    Автор забыл упомянуть маленький бонус в виде Безлимитной Sora , с генерацией видео в разрешении в 1020 без водяного знака


  1. freQuensy23
    12.12.2024 17:21

    Лимиты о1 про сильно больше чем сонета, так нельзя в лоб сравнивать (


    1. blackangelXXX
      12.12.2024 17:21

      Хоть кто то это написал, Клавдия в лимиты упирается за час вообще легко, а вот гпт упереть в лимит надо постараться.

      Код Клавдия лучше пишет, но 1о иногда может сказать больше подробностей почему код может работать не корректно.