Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?
Если вы ответили «конечно, пешком — отчего не прогуляться», поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.
Но не переживайте! Ровно так же на этот вопрос ответила и новая модель Claude Opus 4.8, заявленная Anthropic как самая мощная на сегодняшний день нейросеть. Раз уж искусственному сверхразуму незазорно попадать в смысловые ловушки, то нам с вами и подавно.
В этом материале мы разбираем первые рецензии на новую нейросеть и делаем короткий вывод: кому нужно перейти на нее прямо сейчас, кто может без проблем продолжить пользоваться предыдущей моделью, а кому будет достаточно и ChatGPT, Grok и других бесплатных аналогов.

Что такое Claude Opus 4.8
Anthropic выпустила Claude Opus 4.8 всего через шесть недель после 4.7, и апдейт ощущается не как новое поколение, а скорее как патч, после которого модель стала чуть быстрее и стабильнее.
При этом для пользователя мало что изменилось: те же цены, интерфейсы, сценарии использования, только с улучшенным кодингом, агентными задачами и бенчмарками вроде SWE‑bench, где модель снова показала рост.
Добавили более жесткий safety‑слой, чтобы снизить количество странных или опасных ответов, и ввели режим «прикладываемых усилий», где можно буквально управлять тем, насколько глубоко модель думает над задачей — от экономичных режимов до максимального расхода вычислительных мощностей.
Плюс расширили агентные возможности в Claude Code, где модель теперь умеет работать более автономно, запускать параллельные процессы и собирать более сложные цепочки действий.

Обзор от LCX.com: кодинг — лучше, цена — заоблачная
Автор Decrypt на сайте LCX.com пишет, что модель действительно стала лучше, но без ощущения скачка.
В сухих цифрах все выглядит безупречно: SWE‑bench Pro растет до 69,2%, и это уже уровень, где модель обходит не только 4.7, но и конкурентов вроде GPT-5.5 и Gemini 3.1 Pro. В задачах, связанных с реальными кодовыми базами и инженерными кейсами, это заметный шаг вперед. Также она уверенно держится в академических тестах уровня Humanity«s Last Exam и задачах работы с интерфейсами, вроде OSWorld, где моделируется реальное взаимодействие с компьютером. Нет, это не революция, но уверенный инженерный прогресс. »
Главное изменение — в контроле вычислительной мощности. Anthropic постепенно меняет саму модель потребления ИИ: теперь это не просто «ИИ ответил», а «ИИ думал на уровне X». Режимы усилий превращают интеллект в регулируемый ресурс, где можно выбрать, будет ли модель экономить токены или сжигать максимум вычислений ради качества. В результате и без того дорогая нейросеть начинает совсем уж бесстыдно требовать денег, постоянно напоминая о том, что вычисления можно улучшить и ускорить, если доплатить.

Обзор от How I AI: быстро соображает, уверенно врет
На канале How I AI протестировали модель не через бенчмарки, а через реальные задачи, и их отзыв гораздо менее однозначный.
Когда модели дают чистый лист и просят собрать что‑то сложное с нуля, она показывает себя во всей красе. Opus 4.8 может разложить задачу на архитектуру, собрать прототип, связать интерфейсы, логику, код и выдать результат, который воспринимается как почти автономная разработка. Возникает ощущение волшебной кнопки: вы дали короткий промт, дальше нейросеть все сделала сама.
Но потом магия улетучивается. Как только появляется необходимость дорабатывать, фиксить баги, уточнять детали или работать с уже существующей структурой, модель теряет стабильность. Появляется классический эффект «последних десяти процентов»: вроде все уже работает, но довести до нормального состояния становится неожиданно сложно.
И самое неприятное — поведение на уточнениях. Модель начинает уверенно галлюцинировать: не просто ошибаться, а строить правдоподобные объяснения там, где данных нет. И это особенно заметно в бизнес‑задачах, где она может делать выводы из неполной информации и звучать при этом максимально убедительно, как будто проверила все три раза, хотя на деле просто «достроила картину».
Вывод: это отличная модель для прототипирования и старта, но слабая в доведении результата до финального состояния и опасная своим уверенным враньем.

Обзор с reddit: на автомойку без машины
Пользователи reddit также неоднозначно оценили Opus 4.8.
Со сложными задачами она справляется безупречно. Например, при генерации сложных интерфейсов в одном HTML‑файле она может собрать почти полноценную систему: с анимациями, логикой, интерактивными элементами, ощущением живого продукта. Это уже уровень не «сгенерировать код», а «собрать мини‑приложение от начала и до конца без вмешательства пользователя».
Но дальше снова появляется разрыв. В простых задачах, где от модели ждешь стабильности и здравого смысла, все уже не так убедительно. Короткие запросы, простые UI‑генерации или базовые логические задачи иногда выполняются не лучше, а иногда и хуже предыдущей версии 4.7.
И здесь всплывает ключевой пример, который стал мемом этих тестов: задача про автомойку. Машина находится в 50 метрах от дома, вопрос — идти или ехать. Модель отвечает, что надо идти пешком, полностью игнорируя тот факт, что без машины сама цель задачи не выполняется. Это ошибка не вычисления, а модели мира: она оптимизирует расстояние, теряя здравый смысл.
И именно такие кейсы дают ощущение, что прогресс здесь нелинейный. Модель стала сильнее в сложных системных задачах, но местами потеряла устойчивость в базовой логике.

Вывод
Claude Opus 4.8 действительно делает заметный шаг вперед в сложных агентных задачах, кодинге и автономной работе, где нужно строить системы и длинные цепочки действий. Но одновременно с этим она становится менее стабильной в простых задачах, иногда уступает предыдущей версии в деталях и логике и часто попросту врет.
Это не универсальное улучшение, а, скорее, смещение баланса: больше мощности и автономности в сложном сегменте и меньше предсказуемости и аккуратности в базовом.
Эта модель нужна тем, кто работает со сложными агентными системами, кодом и архитектурой, где важна способность модели самой вести процесс и собирать результат из множества шагов. Если же речь идет про простые запросы, то разница с 4.7 может быть минимальной или вообще несущественной. Для простых повседневных задач и вовсе лучше использовать ChatGPT, Grok или DeepSeek — они и надежнее, и дешевле.
Комментарии (30)

eps
03.06.2026 07:53Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?
“1. Зачем вообще добираться до автомойки? 2. Конечно пешком, это меньше одной остановки на транспорте, а такси дольше ждать, чем дойти самому”
Всё-таки задача про автомойку странная и натянутая. Её придумал человек, который не представляет, как жить без машины, и для таких же людей, в общем-то.

DonnaG Автор
03.06.2026 07:53Загадка про мойку – довольно популярный свежий тест для нейросетей. Вот, например, его обсуждение https://www.reddit.com/r/singularity/comments/1r2ndfz/the_car_wash_test_a_new_and_simple_benchmark_for/

eps
03.06.2026 07:53Имею в виду, что это тест на carbrain intelligence, не на general intelligence.
Я бы предпочёл ответ: “конечно, пешком — отчего не прогуляться. Только если вы не автовладелец и не хотите помыть свою машину”

Soorin
03.06.2026 07:53В задаче не было ничего про "помыть машину" - там только "добраться до автомойки". "Если" - это додумывание за задающего вопрос.

spirit1984
03.06.2026 07:53При этом базовая рамка почти не поменялась
Это что, калька с английского "basic framing hasn't changed"? Если это перевод, то так и указывайте, что это перевод

DonnaG Автор
03.06.2026 07:53Спасибо за внимательность. Это не перевод, статью собирал на основе нескольких источников, и здесь действительно получилась неудачная формулировка с моей стороны. Исправил текст, спасибо, что обратили внимание.

Djeux
03.06.2026 07:53
Решил перепроверить. 
DonnaG Автор
03.06.2026 07:53Может, уже доработали :)

Djeux
03.06.2026 07:53Может. Или просто промпт был составлен так заковыристо что и ответ был "пешком". Поэтому в таких статьях всегда стоит указывать конкретный текст

DonnaG Автор
03.06.2026 07:53Брали вот такой:
And it still misses the classic logic trap: “I need a car wash, it’s 50 feet away, should I walk or drive?” → it said walk. (You kind of need the car at the car wash.) Failed it on max mode too.

Djeux
03.06.2026 07:53Что ж, ответ вполне корректный.
Walk. It's 50 feet — that's about 15 meters, roughly the length of a school bus. You'd spend more time getting in the car, starting it, and pulling it over than just strolling there.
Though if the whole point is to wash the car, you'll obviously need to drive it over for the actual wash. So: walk if you're going to scope it out or talk to someone, drive if the car itself is getting cleaned.
UPD:
В Claude Code ответ сильно короче и без второго абзаца
Walk — 50 feet is roughly 15 steps, less time than buckling your seatbelt.

Nikollor48
03.06.2026 07:53В Claude Code модель ответила коротко, потому что экономила ваши деньги за токены)

Anna_Smirnova323
03.06.2026 07:53Задача про автомойку интересный тест, пробовала прогонять на разных моделях как ГПТ так и Клода - к удивлению некоторые без проблем справлялись, причем более ранние модели чем текущие. Интересно, от чего зависит логика ИИ в подобных "примитивных" запросах? Промпты одинаковые везде были

DonnaG Автор
03.06.2026 07:53Может какие-то из моделей обучают на похожих логических задачках, а какие-то нет...

Nikollor48
03.06.2026 07:53Более ранние модели могли справляться лучше просто потому, что их обучали на других датасетах, где было больше бытовых историй и меньше кода

RulenBagdasis
03.06.2026 07:53Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком? Если вы ответили “конечно, пешком — отчего не прогуляться”, поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.
Почему, нечего? Мне нужно помыть детский велосипед и коврик. А машина в боксе только мешаться будет.

Nikollor48
03.06.2026 07:53С каждым патчем одно и то же: стало лучше в сложных задачах, но отупело в простых. Просто поменяли веса в сторону кодинга, вот она и перестала выкупать бытовые шуточки

Leadmagneet
03.06.2026 07:53Ну вот я говорю новые модели выходя а толку, галюцинации как были так остались. Антропик еже хочет выйти на бизнес нише что бы они с данными работали?

ru4pae
03.06.2026 07:53Вопрос на уровне начальной школы. Имеющий четкую скрытую структуру. И имеющий один правильный ответ в этой скрытой структуре. Любой ответ не совпадающий с ответом который загадал экзаменатор, будет ошибкой. Так у кого ошибка? У экзаменатора.

grixis
03.06.2026 07:53Ну, дипсик не затупил.
Конечно, пешком. 50 метров — это меньше минуты ходьбы. Пока вы будете заводить машину, выходить с парковки и искать место, чтобы припарковаться у мойки, вы уже давно дошли бы. Плюс не придётся тратить топливо и лишний раз греть двигатель. Единственное, если нужно привезти на мойку саму машину, то без неё никак — тогда садитесь за руль. Но сам путь до будки оператора или кассы вы всё равно пройдёте ногами.

Kwentin3
03.06.2026 07:53По степени некорректности формулировки первого вопроса есть сильное напоминание старой детской загадки " твои друзья знают что ты дурак? да или нет? ".
Ну и в догонку, что такие траблы есть и у кожаных: Запись в судовом журнале:«Сегодня штурман был пьян».Штурман сильно обиделся и просит капитана вычеркнуть запись, так как это вредит его карьере. Капитан отвечает:— В журнале должны быть только правдивые факты.На следующий день штурман делает ответную запись:«Сегодня капитан был трезв».
denja244
Может на мойке человек работает и ему проще пройти 50 метров до работы чем туда ехать
DonnaG Автор
Да! Там может быть много условий: например, это моя мойка и я иду проверять бухгалтерию, или свидание у мойки. Я не стал это разжевывать в тексте, но суть в том, что ответить “пешком” и все – явная ошибка. Вот как ответил чатгпт: "Обычно ответ на эту загадку: поедете на машине.
Логика в том, что цель — попасть на автомойку вместе с машиной, чтобы ее помыть. Даже если автомойка всего в 50 метрах от дома, машину туда нужно доставить, поэтому вы поедете на ней, а не пойдете пешком.
Хотя формально в условии не сказано, что вы собираетесь мыть свою машину, поэтому это загадка с подвохом: при буквальном прочтении возможны оба варианта. Но ожидаемый ответ — на машине."
IAmNotMe
Кем ожидаемый ответ? Тем, кто постоянно ездит на автомойку мыть машину? Тем, кто работает на автомойку? Это как спросить - больница в 50 метрах, как доберетесь на ней? Пешком? Нет, у вас сломана нога, как же вы не догадались! Надо было вызывать скорую!
unclejocker
Вот я тоже подумал, вопрос формулировки, у меня про абстрактного человека тоже "модели мира" нет, так что тут самый правильный ответ будет "а вам зачем?". Но если модель начнет вопросом на вопрос отвечать, боюсь редит все равно останется недоволен:)
akakoychenko
А это, правда, камень преткновения. Десятки лет на собесах в ФААНГ программистов дрессировали отвечать вопросом на вопрос (вы сказали "спроектировать дом", а кто в нем будет жить? И жить ли, или решать какую-то другую задачу?)
Сейчас же, с одной стороны, юзеров бесит, что нейронки, не делая так, строят ответ в принципиально другой картине мире, чем ожидал юзер. С другой, если начнут, то это сломает все сценарии вайбкодинга и применения в бизнесе (запустил 100 агентов, и получил 1000 вопросов).
Походу, тут нерешаемая проблема. Кодер из ФААНГа настолько дорог, как ресурс (условно, $100+ в час), что, чтобы он не делал херни, и не жег эти часы впустую, можно обеспечить ему инфраструктуру ответа на его вопросы, сколько бы это не стоило. Один нейрочас в один поток сильно дешевше, - выходит, что лучше, пусть делает хрень и потом переделает, чем будет отвлекать человека
Nikollor48
ФААНГ дрессировал задавать вопросы, чтобы проверить адекватность джуна. А нейронке адекватность не нужна, ей нужен четкий системный промпт
Granulex
Тест проверяет одно незаявленное допущение, а не reasoning. Если ты не автовладелец – "правильный" ответ для тебя неправильный.
Gonchar_POTT
Вопрос про автомойка заменил очень популярный в эпоху раннего ChatGPT подсчет r в strawberry.
И то, и другое, по-моему, глупо или рассчитано на хайп