Тест-драйв Claude 4: Opus и Sonnet в бою за код и 3D / forpes.ru

Главная
Тест-драйв Claude 4: Opus и Sonnet в бою за код и 3D

Тест-драйв Claude 4: Opus и Sonnet в бою за код и 3D +23

10.06.2025 11:17

dmitrifriend 6 3900 Источник

Привет, «Хабр»! Май 2025-го выдался жарким на ИИ‑новости: Anthropic наконец запустила долгожданный Claude 4 — сразу в двух вариантах, Opus 4 и Sonnet 4. Это не просто апдейт, а гибридные рассуждающие модели, которые обещают совместить скорость ответов с глубоким анализом. Разработчики уже грезят ИИ, который программирует днями и ночами, а Anthropic называет это «новым рубежом для кодинга и автономных агентов». Скромничают? Возможно. Но факт: релиз важный.

Зачем это всё? Opus 4 способен неустанно кодить и решать многомодальные и агентные задачи, а Sonnet 4 призван поднять планку в массовых сценариях. Ожидания зашкаливают: модели должны не только обойти конкурентов в практических задачах, но и сделать всё быстрее, дешевле и умнее.

В своей новости Anthropic утверждает, что Opus 4 уже лучший в мире разраб, — японская компания Rakuten, которой удалось заполучить ранний доступ к модели, успешно поручила ему 7-часовой рефакторинг, а Майк Кригер (продуктовый стратег Anthropic) заставил модель играть в Pokémon целые сутки (для сравнения, прошлой Sonnet 3.7 хватило на 45 минут). Вообще, Claude Code позволяет отдавать длинные задачи на фоновое выполнение (CI через GitHub Actions), так что можно спать, пока ИИ кодит.

Но подтвердятся ли ожидания на практике? Листайте дальше, чтобы узнать. А если вы тоже хотите попробовать Sonnet 4 и Opus 4, зарегистрируйтесь в BotHub здесь и получите 100 000 токенов для доступа к любым моделям. Отличный способ сравнить Sonnet 4 и Opus 4 на своих задачах.

Что внутри?

Обе модели — «гибридные рассуждатели» (hybrid reasoning) с невероятным рабочим контекстом в 200 000 токенов. При этом итоговый ответ может быть до 32K токенов (Opus) или даже 64K токенов (Sonnet) за один вывод — довольно‑таки неплохие показатели, второй из который обгоняется разве лишь топовыми ChatGPT.

А как же у конкурентов?

Объём выводимого сообщения не всегда критичен, но иметь под рукой такую таблицу полезно. Собрано с официальных сайтов (если не указано иначе), так что инфа сотка.

Opus 4 — упряжка для самых требовательных сценариев, заявленная Anthropic как самая умная модель, превосходящая Sonnet по всем направлениям. Она умеет одновременно думать и использовать инструменты: при включённом режиме extended thinking модель может чередовать программные инструменты (веб‑поиск, запуск кода и т. п.) с рассуждениями. Этот режим аккуратно вырезает сами блоки рассуждений из будущего контекста, чтобы экономить лимит, но всё равно даёт модели возможность по‑новому вдумчиво решать задачи.

Sonnet 4 чуть проще и дешевле, но тоже продвинут. По сути, это мощный универсал, быстрый и сбалансированный. Sonnet 4 рекомендован для повседневных сценариев: чат‑ботов, поддержки клиентов, типового кодирования и масштабной генерации контента. Он даёт такой же удивительный контекст в 200K, но с меньшими тарифами (3 $/15 $ за млн токенов input/output против 15 $/75 $ у Opus).

Внутренние улучшения — настройки поведения (alignment) и безопасности (safety) — тоже не остались без внимания: Opus 4 помечен как ASL-3 (усиленный регламент) из‑за более активной агентности, а Sonnet 4 — ASL-2. Оба стали на 65% реже искать хитрости для обхода задач. Вместе с тем в плане системных промтов они всё еще осторожны (и даже избыточно аккуратны в некоторых случаях).

Цифры не врут?

Что говорят цифры? Opus 4 лидирует в кодинге: SWE‑bench Verified (сборник реальных задач ПО) — 72,5%, Terminal‑bench (агентный CLI‑кодинг) — 43,2%. Sonnet 4 почти так же хорош: 72,7% по SWE и 35,5% по Terminal Bench. Эти цифры неплохо обгоняют показатели ChatGPT 4.1 и Gemini 2.5 Pro.

В строках «Agentic coding», «Agentic terminal coding», «Graduate‑level reasoning», «High school math competition» показано два результата: основной (усреднённый за несколько проходов), а также наилучший образец, выбранный с применением внутреннего промежуточного скоринга

Однако в задачах общего интеллекта и размышления картина сложнее: Claude 4 улучшил себя по сравнению с Claude 3.7, но среди лидеров по‑прежнему ChatGPT o3. Например, на бенчмарке GPQA (вопросы уровня магистра) Sonnet 4 — 75,4%, Opus 4 — 79,6%, тогда как ChatGPT o3 (83,3%) и Gemini 2.5 (83%) немного выше. На мультилингвальном MMMLU Opus 4 набирает 88,8% (равно как ChatGPT o3), Sonnet 4 — 86,5%. В задачах визуального мышления (MMMU) Opus 4 взял 76,5%, что чуть ниже 82,9% у ChatGPT o3.

Что говорят люди

Авторы Cursor (IDE с интеграцией ИИ) называют Opus 4 новым эталоном в кодинге, а Replit (онлайн‑платформа по разработке кода) видят «драматический прогресс при работе с множеством файлов». GitHub внедряет Sonnet 4 и Opus 4 в Copilot, Manus AI хвалит его за чёткое следование сложным инструкциям и красивые ответы.

Иногда Claude хейтят за излишнюю осторожность: он не отвечает о причинах «неэтичности» запросов, а просто отказывается. И действительно, как следует из системного промта и экспериментов пользователей, Claude не любит объяснять отказ, что иногда раздражает.

Ещё один заметный кейс — лидерборд Aider показал, что Sonnet 4 в некоторых кодинговых тестах даже уступил своему предшественнику 3.7:

Пользователь делится эпичным провалом: «Ага, я попытался написать простой Python‑скрипт на Sonnet 4. Приходилось по несколько раз уточнять интенцию, пока не сдался и не попробовал с 3.7, — и она решила задачу сразу, с нулевой донастройки».

Один разработчик поделился успехом: «Opus 4 за пару часов нашёл моего „белого кашалота“ — баг, над которым я ломал голову 4 года». Он дал модели старый и новый код, попросил найти ошибку после рефакторинга — Opus 4 справился там, где другие модели не смогли.

DataCamp отмечает, что Sonnet 4 успешно справляется с анализом длинных документов и кода: «Он неплохо анализирует длинные документы и кодовые базы, генерирует многочастные структурированные ответы». Правда, в огромных кодовых базах модели может недоставать контекстного окна в миллион токенов, которым славится Gemini.

Но даже поклонники бенчмарка Aider не отрицают, что Claude 4 явно state‑of‑the‑art‑модель и один из лидеров в кодинге, наряду с o3 и Gemini.

Кому и зачем?

Opus 4 — для тех, кому нужны прорывные возможности. Anthropic прямо советует Opus 4 для самых требовательных сценариев: сложные AI‑агенты, продвинутые проекты разработки, глубокие исследовательские задачи, долгосрочная автономная работа, где важна точность, а не цена. Если вы пишете ПО на тысячи строк, строите модульные системы или координируете кросс‑функциональные процессы — Opus 4 станет вашим главным помощником.

Sonnet 4 — это рабочая лошадка для широкого применения. Бизнесу и аналитикам он подходит для клиентских чат‑ботов, поддержки пользователей, исправления багов и генерации документов. Sonnet 4 рекомендуют для большинства сценариев, где нужно сочетание возможностей и производительности: «для customer‑facing‑агентов, продакшен‑кодинга, генерации контента в масштабе, аналитических задач в реальном времени». Для исследователей Claude 4 даёт продвинутую базу знаний (cutoff — начало 2025 года) и способность переходить к интернету — что хорошо для сбора справочных данных.

Аудиторию разработчиков порадует интеграция Claude Code в VS Code и JetBrains, которую некоторые уже используют вместо Codex/ChatGPT. Claude Opus 4 способен прочитать десятки тысяч строк логов, выделить паттерны ошибок и сгенерировать сводные отчёты. В тестах с реальными логами DevOps‑специалисты отметили, что модель легко найдёт причину сбоя и предложит фиксы (что быстрее, чем ручной поиск по релевантным статьям). Модель показывает рекордную точность в целевых задачах кодинга: автоисправление багов, рефакторинг, написание сложных алгоритмов. Sonnet 4, хоть и менее мощный, гораздо быстрее отвечает, поэтому его выбирают для массового написания шаблонного или тестового кода.

Безусловно, обе модели пригодятся для творческих задач: руководство Anthropic называло их подходящими для креативного письма и исследований. Обе модели хорошо генерируют объёмные статьи, техническую документацию или творческие сценарии. Opus 4 демонстрирует глубокое понимание темы и консистентность: он может написать детальный whitepaper или длинную статью «от и до», сохраняя логику, структуру и стиль. Sonnet 4 чаще используют для черновиков и быстрых набросков (которые затем можно довести до ума).

Учебные и экспертные задания. Sonnet 4 и Opus 4 показывают выдающиеся результаты в AIME 2025 (математическом экзамене, 70,5% и 75,5% ответов правильно). Это значит, что новые модели можно использовать для создания обучающих материалов, сложных тестов и пояснений к задачам высокого уровня.

В целом: вы — разработчик или инженер, которому нужна супермодель для длительных задач или ускорения рутины, — Opus 4 ваш выбор. Вы — бизнес, создающий интеллектуальных агентов или масштабный чат‑бот, — Sonnet 4 даст желаемый баланс возможностей и цены.

Аналитикам же понравится «просто загрузить весь отчёт в одно сообщение» и получить внятный анализ. Даже небольшим компаниям Claude 4 может стать заменой нескольких инструментов сразу: кодинг, документация, таск‑менеджмент, анализ данных — всё в одном.

Тесты

Сегодня у нас не просто обзор, а настоящий стресс‑тест для топовых языковых моделей. Мы проверим, на что способны современные ИИ‑ассистенты в двух сложнейших задачах: точной вёрстке по визуальному макету и генерации интерактивной веб‑презентации с 3D‑анимациями. В испытаниях участвовали: ChatGPT o3, Grok 3, Claude 3.7 Sonnet, Claude Sonnet 4 и Claude Opus 4. Погнали!

Вёрстка по дизайн-макету

Мы все знаем, что LLM могут генерить HTML/CSS. Но обычно им дают вольные описания или простые схемы. А что если кинуть им реальный, сложный макет в виде плоской картинки (представьте, что дизайнер прислал скрин) и сказать: «Сверстай это точно средствами чистого HTML и CSS, без картинок и SVG»? Да, это почти садизм.

Задача: превратить вот этот макет в работающую страницу. Круги, блоки, фигуры — всё должно быть сделано на <div>’ах и хитрых CSS‑приёмах, вроде border‑radius: 50% для кругов и transform: rotate() для поворотов.

Промт был жёсткий:

Повтори в точности этот дизайн средствами HTML+CSS, не применяя изображений. Выдай результат одним HTML‑файлом.

Все результаты я выложил на CodePen для наглядности (открывайте в новой вкладке, нажимая средней кнопкой на Result или Edit on CodePen!).

ChatGPT o3

Grok 3

Увы, не смог принять картинку на вход, выдал лишь тестовую страницу. Не засчитано.

Claude 3.7 Sonnet

Claude Sonnet 4

Claude Opus 4

Каковы же итоги нашего «Acid»‑теста? Если кто помнит, на заре современного веба существовали тесты Acid1–3 (даты выхода соответственно 1999, 2005 и 2008 год), с помощью которых в браузерах тестировалась поддержка различных функций HTTP, HTML, CSS, JavaScript, SVG, XML. Наш тест, как мне кажется, немного схож.

Хотя выше уже есть демонстрации вживую, думаю, не будет лишним свести все 4 результата в гифку‑анимацию:

Прежде всего бросается в глаза то, что пиксель‑пёрфекта нет. Второе — это то, что сравнить результаты между собой не так‑то просто. Но можно заметить некоторые особенности:

ChatGPT o3 выдал наименее адаптивный дизайн. При расширении/сужении браузера по горизонтали двигаются лишь правые три элемента, а при изменении вертикального размера — не происходит изменений.
Показалось, что макет o3 вызывает наиболее схожее с исходником впечатление (пока не начнёшь детально сравнивать расположение). Пожалуй, в основном это достигается за счёт утяжелённого шрифта и меньшего расстояния между строками, а также большей скучкованности элементов — и то и другое присуще оригиналу.
Claude 3.7 Sonnet Thinking выдал наиболее композиционно удачный результат (хоть и не совпадающий в точности), который хорошо смотрится при почти любых размерах браузера.
Довольно‑таки затруднительно сказать, какая из моделей нарисовала наиболее близкий к исходнику результат. Если смотреть по отдельности, шрифты лучше удались ChatGPT o3, расположение кругов справа сверху — 3.7 Sonnet, нижняя часть наиболее близка у Sonnet 4, а шапка сайта ближе всего совпадает у o3 и Sonnet 4.

Итог по тесту 1. Точное повторение макета — не конёк современных LLM/LRM. Это задача для агента, который умеет итеративно править код под визуальный контроль. Однако Claude 3.7 Sonnet показал, что может создавать практичный и приятный глазу адаптив из коробки.

Тест 2. Веб-презентация — от туманности до чёрной дыры на Three.js

Второй тест — на порядок сложнее. И это не просто кодинг, а программирование анимации. Как ни странно, там, где задание описывается словами, а не буквальной схемой, модели справляются лучше... правда, не все.

Промт:

Создай интерактивную веб‑страницу‑презентацию (одним HTML‑файлом), которая будет визуализировать сложный физический или химический процесс (или теорию), например связанный со светом/пространством/космосом/поверхностями/молекулами, атомами, электронами (или несколькими процессами). Примени трёхмерные каркасы (ваерфреймы), которые будут анимированно изгибаться по ходу появления объясняющих надписей, абзацев. Пусть фон будет чёрным, а схемы и надписи разноцветные. Анимация происходит либо по щелчку (сразу на один экран), либо прокруткой страницы/колёсика (плавно). Пусть будет не менее 5 экранов, каждый из которых либо добавляет новый существенный объект(ы) в схему, либо показывает новую сцену.

ChatGPT o3

Код не завёлся. Сначала я подумал, что проблема в неправильной ссылке (ChatGPT иногда втыкает неактуальные URL на JavaScript‑библиотеки), но даже с исправленным https://cdn.jsdelivr.net/npm/three@0.159.0/examples/js/controls/OrbitControls.js на https://threejs.org/examples/js/controls/OrbitControls.js ошибки не исчезли. Последние предсмертные слова: Cannot assign to read only property 'rotation' of object '#<bl>' — происходит попытка записи в свойство, предназначенное только для чтения.

В исходном коде можно вычитать задуманную последовательность: «Туманность — облако точек (частиц)»; «Протозвезда — пульсирующий wireframe‑сфера»; «Стабильная звезда — компактная сфера + вращающийся тор»; «Сверхновая — разлетающаяся оболочка»; «Чёрная дыра — плоскость‑решётка + кольцо‑диск».

Grok 3

Смешно, но грустно. Анимации «работают»... но все на первом слайде! Перелистывание просто показывает статичные слайды ниже, а анимация обновляется только при возврате на первый. Визуал — примитивные 3D‑фигуры.

Claude 3.7 Sonnet

Исходный код имел коварную JS‑ошибку: Uncaught SyntaxError: Unary operator used immediately before exponentiation expression. Parenthesis must be used to disambiguate operator precedence.

Не что иное, как траур для обфускаторов, — оказывается, в современном JavaScript даже нельзя возвести отрицательное число в степень, на заключив его в скобки. А вот и сам виновник: amplitude = 0.4 * Math.exp(-(x+1)**2) * Math.sin(x * 2 + time);.

Что ж, если это единственная ошибка, можно пофиксить и попробовать завести. Исправляю -(x+1)**2 на (-(x+1))**2. (Если вдруг имелось в виду другое, следом попробую второй вариант — -((x+1)**2).)

И... ЗАВЕЛОСЬ! 5 интерактивных слайдов! Можно вращать сцену левой кнопкой мыши, панорамировать правой. Минус: даже при управлении камерой клик переключал слайды, и эту часть я закомментировал для удобства вращения:

/*
// Навигация с помощью кликов
document.addEventListener('click', () => {
    const nextSection = currentSection < 5 ? currentSection + 1 : 1;
    loadSection(nextSection);
});
*/

Правда, хотспот, за который нужно ухватывать, иногда находится в неочевидном месте — внизу экрана.

Claude Sonnet 4

Уже в процессе генерации кода, глядя через интерфейс BotHub на крупные анимирующие функции и в три раза большую длину (729 строк HTML‑файла, по сравнению с 244 у ChatGPT o3 и 255 у Grok 3), я понял, что Claude 4 собирается выдать нечто мощное.

Claude Opus 4

Результат Claude Opus 4 тоже завёлся с первого раза. Слайды переключаются кликом или стрелками.

Эта задача была не по зубам ChatGPT o3 и Grok 3, но остальные реализации показались невероятными и имеющими огромный потенциал для быстрой генерации презентаций через нейросети, что позволило бы продвинуться от классических статичных «пауэрпойнтов».

Версия Claude 3.7 Sonnet — пять интерактивных трёхмерных слайдов, в которых можно крутить камеру. Всё это с анимациями: визуализация функции в реальном времени, пульсации объектов, вспышки света.
В презентации Sonnet 4 добавились цветовые анимации, градиентный текст, пульсирующие окружности... и, главное, анимированно искривляющийся меш (как просили). Из минусов — визуализированные орбитали на 4-м слайде упрощены до эллипсов. На последнем слайде пасхалка — при сильно уменьшенном масштабе браузера открывается второй объект.
И наконец, версия Opus 4. Визуал — топ! Невероятная комбинация на первом слайде — градиентный заголовок (как у 3.7), колышащееся свечение, ползающая ось координат и волновой график, плывущий на фоне. Слайды 3 и 4 отлично визуализируют взаимодействие частиц со средой. Хоть и без полноценного 3D (как в 3.7), но выглядит профессионально и эстетично. Потрясающе для одного промта!

Итог по тесту 2. ChatGPT o3 и Grok 3 не справились. Победители однозначны: Claude 3.7 Sonnet и Claude Opus 4! Они показали невероятный результат, открывая двери для быстрого прототипирования сложных интерактивных презентаций силами ИИ.

Заключение: ИИ-работяги наступают

Главный итог: ИИ улучшает свои навыки не просто отвечать, а работать — автономно, долго и с пониманием контекста. И это, друзья, только начало.

Текущие релизы, особенно семейство Claude 4, ярко демонстрируют ключевой сдвиг: ИИ‑ассистенты перестают быть просто умными чатиками. Длинная память, способность к сложному планированию и, главное, умение генерировать работающий, сложный код по описанию делают из них нечто большее.

? Буду рад комментариям! И не забудьте подписаться на наш телеграм‑канал BotHub AI News, где мы публикуем новости из мира нейросетей.

Комментарии (6)

Arxitektor
10.06.2025 13:42
#28421146
Как я понимаю из 2 моделей Claude Sonnet 4 и Opus 4 первую можно попробовать бесплатно А вот вторую только за деньги. Им бы дать некоторое количество бесплатных запросов.

Чтобы пользователи видели разницу. Я бы еще Gemini добавил для сравнения. Как я понимаю оригинал запроса на английском языке ?
1. dmitrifriend Автор
  10.06.2025 13:42
  #28421264
  Да, тоже в какой-то момент захотелось добавить Gemini 2.5 Pro. Попробую уделить больше внимания этой модели в следующий раз.
  
  Все запросы были заданы на русском, ведь для сегодняшних крупных моделей не составляет труда понимание нюансов разных языков. Промты приведены в идентичном виде, как я их писал в интерфейсе чат-бота.
1. Onyix67
  10.06.2025 13:42
  #28425318
  С учётом того, насколько криво у них все работает, несколько бесплатных запросов мало что дадут. Особенно радует ошибка request timeout, после которой пропадает ВСЕ, что модель успела сгенерировать за это время, и нужно отправить запрос ещё раз. При этом все то, что успешно пропало, учитывается в лимите использования

eeglab
10.06.2025 13:42
#28422948
Честно говоря , вообще по текстовым задачам не вижу разницы между sonnet 4, opus 4 и старой версией 3.7. возможно sonnet 4 на 10-15% получше пишет, но в целом это не существенно. Opus 4 даже немного хуже, пытаясь "очеловечить" текст тол ко портит. В обще вообще не сильно понятно, в чем улучшение. В chatgpt намного заметнее разница между о1, o3 и 04 mini hight.
1. Onyix67
  10.06.2025 13:42
  #28425336
  Я много тестировал эти модели для текстов, и пришел к мнению, что для этого лучше всего подходит sonnet 4 с отключённой функцией thinking

Raicon
10.06.2025 13:42
#28427526
Буквально недавно делал сравнение 6 моделей

Топ 3 у гпт и топ 3 у антропика

Опус очень быстро токены ест и аккаунт в лимиты кидает

https://habr.com/ru/posts/917026/

Но результаты того стоят

Тест-драйв Claude 4: Opus и Sonnet в бою за код и 3D +23

Что внутри?

Цифры не врут?

Что говорят люди

Кому и зачем?

Тесты

Вёрстка по дизайн-макету

ChatGPT o3

Grok 3

Claude 3.7 Sonnet

Claude Sonnet 4

Claude Opus 4

Тест 2. Веб-презентация — от туманности до чёрной дыры на Three.js

ChatGPT o3

Grok 3

Claude 3.7 Sonnet

Claude Sonnet 4

Claude Opus 4

Заключение: ИИ-работяги наступают

Комментарии (6)

Arxitektor

dmitrifriend Автор

Onyix67

eeglab

Onyix67

Raicon