Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?

Если вы ответили “конечно, пешком — отчего не прогуляться”, поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.

Но не переживайте! Ровно так же на этот вопрос ответила и новая модель Claude Opus 4.8, заявленная Anthropic как самая мощная на сегодняшний день нейросеть. Раз уж искусственному сверхразуму незазорно попадать в смысловые ловушки, то нам с вами и подавно.

В этом материале мы разбираем первые рецензии на новую нейросеть и делаем короткий вывод: кому нужно перейти на нее прямо сейчас, кто может без проблем продолжить пользоваться предыдущей моделью, а кому будет достаточно и ChatGPT, Grok и других бесплатных аналогов.

Что такое Claude Opus 4.8

Anthropic выпустила Claude Opus 4.8 всего через шесть недель после 4.7, и апдейт ощущается не как новое поколение, а скорее как патч, после которого модель стала чуть быстрее и стабильнее.

При этом базовая рамка почти не поменялась: те же цены, интерфейсы, сценарии использования, только с улучшенным кодингом, агентными задачами и бенчмарками вроде SWE-bench, где модель снова показала рост.

Добавили более жесткий safety-слой, чтобы снизить количество странных или опасных ответов, и ввели режим “прикладываемых усилий”, где можно буквально управлять тем, насколько глубоко модель думает над задачей — от экономичных режимов до максимального расхода вычислительных мощностей.

Плюс расширили агентные возможности в Claude Code, где модель теперь умеет работать более автономно, запускать параллельные процессы и собирать более сложные цепочки действий.

Opus 4.7 после пяти промптов: “Давай лучше в следующей сессии”.
Opus 4.7 после пяти промптов: “Давай лучше в следующей сессии”.

Обзор от LCX.com: кодинг — лучше, цена — заоблачная   

Автор Decrypt на сайте LCX.com пишет, что модель действительно стала лучше, но без ощущения скачка. 

В сухих цифрах все выглядит безупречно: SWE-bench Pro растет до 69,2%, и это уже уровень, где модель обходит не только 4.7, но и конкурентов вроде GPT-5.5 и Gemini 3.1 Pro. В задачах, связанных с реальными кодовыми базами и инженерными кейсами, это заметный шаг вперед. Также она уверенно держится в академических тестах уровня Humanity’s Last Exam и задачах работы с интерфейсами, вроде OSWorld, где моделируется реальное взаимодействие с компьютером. Нет, это не революция, но уверенный инженерный прогресс. 

Главное изменение — в контроле вычислительной мощности. Anthropic постепенно меняет саму модель потребления ИИ: теперь это не просто “ИИ ответил”, а “ИИ думал на уровне X”. Режимы усилий превращают интеллект в регулируемый ресурс, где можно выбрать, будет ли модель экономить токены или сжигать максимум вычислений ради качества. В результате и без того дорогая нейросеть начинает совсем уж бесстыдно требовать денег, постоянно напоминая о том, что вычисления можно улучшить и ускорить, если доплатить.

POV: даю Claude полный доступ к моему компьютеру.
POV: даю Claude полный доступ к моему компьютеру.

Обзор от How I AI: быстро соображает, уверенно врет

На канале How I AI протестировали модель не через бенчмарки, а через реальные задачи, и их отзыв гораздо менее однозначный.

Когда модели дают чистый лист и просят собрать что-то сложное с нуля, она показывает себя во всей красе. Opus 4.8 может разложить задачу на архитектуру, собрать прототип, связать интерфейсы, логику, код и выдать результат, который воспринимается как почти автономная разработка. Возникает ощущение волшебной кнопки: вы дали короткий промт, дальше нейросеть все сделала сама.

Но потом магия улетучивается. Как только появляется необходимость дорабатывать, фиксить баги, уточнять детали или работать с уже существующей структурой, модель теряет стабильность. Появляется классический эффект “последних десяти процентов”: вроде все уже работает, но довести до нормального состояния становится неожиданно сложно.

И самое неприятное — поведение на уточнениях. Модель начинает уверенно галлюцинировать: не просто ошибаться, а строить правдоподобные объяснения там, где данных нет. И это особенно заметно в бизнес-задачах, где она может делать выводы из неполной информации и звучать при этом максимально убедительно, как будто проверила все три раза, хотя на деле просто “достроила картину”.

Вывод: это отличная модель для прототипирования и старта, но слабая в доведении результата до финального состояния и опасная своим уверенным враньем.

Скриншот из клона League of Legends, созданного в Claude за сутки. Источник — reddit
Скриншот из клона League of Legends, созданного в Claude за сутки. Источник — reddit

Обзор с reddit: на автомойку без машины

Пользователи reddit также неоднозначно оценили Opus 4.8.

Со сложными задачами она справляется безупречно. Например, при генерации сложных интерфейсов в одном HTML-файле она может собрать почти полноценную систему: с анимациями, логикой, интерактивными элементами, ощущением живого продукта. Это уже уровень не “сгенерировать код”, а “собрать мини-приложение от начала и до конца без вмешательства пользователя”.

Но дальше снова появляется разрыв. В простых задачах, где от модели ждешь стабильности и здравого смысла, все уже не так убедительно. Короткие запросы, простые UI-генерации или базовые логические задачи иногда выполняются не лучше, а иногда и хуже предыдущей версии 4.7.

И здесь всплывает ключевой пример, который стал мемом этих тестов: задача про автомойку. Машина находится в 50 метрах от дома, вопрос — идти или ехать. Модель отвечает, что надо идти пешком, полностью игнорируя тот факт, что без машины сама цель задачи не выполняется. Это ошибка не вычисления, а модели мира: она оптимизирует расстояние, теряя здравый смысл.

И именно такие кейсы дают ощущение, что прогресс здесь нелинейный. Модель стала сильнее в сложных системных задачах, но местами потеряла устойчивость в базовой логике.

Вывод

Claude Opus 4.8 действительно делает заметный шаг вперед в сложных агентных задачах, кодинге и автономной работе, где нужно строить системы и длинные цепочки действий. Но одновременно с этим она становится менее стабильной в простых задачах, иногда уступает предыдущей версии в деталях и логике и часто попросту врет. 

Это не универсальное улучшение, а, скорее, смещение баланса: больше мощности и автономности в сложном сегменте и меньше предсказуемости и аккуратности в базовом.

Эта модель нужна тем, кто работает со сложными агентными системами, кодом и архитектурой, где важна способность модели самой вести процесс и собирать результат из множества шагов. Если же речь идет про простые запросы, то разница с 4.7 может быть минимальной или вообще несущественной. Для простых повседневных задач и вовсе лучше использовать ChatGPT, Grok или DeepSeek — они и надежнее, и дешевле.

Комментарии (1)


  1. denja244
    03.06.2026 07:53

    Может на мойке человек работает и ему проще пройти 50 метров до работы чем туда ехать