Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?

Если вы ответили «конечно, пешком — отчего не прогуляться», поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.

Но не переживайте! Ровно так же на этот вопрос ответила и новая модель Claude Opus 4.8, заявленная Anthropic как самая мощная на сегодняшний день нейросеть. Раз уж искусственному сверхразуму незазорно попадать в смысловые ловушки, то нам с вами и подавно.

В этом материале мы разбираем первые рецензии на новую нейросеть и делаем короткий вывод: кому нужно перейти на нее прямо сейчас, кто может без проблем продолжить пользоваться предыдущей моделью, а кому будет достаточно и ChatGPT, Grok и других бесплатных аналогов.

Что такое Claude Opus 4.8

Anthropic выпустила Claude Opus 4.8 всего через шесть недель после 4.7, и апдейт ощущается не как новое поколение, а скорее как патч, после которого модель стала чуть быстрее и стабильнее.

При этом для пользователя мало что изменилось: те же цены, интерфейсы, сценарии использования, только с улучшенным кодингом, агентными задачами и бенчмарками вроде SWE‑bench, где модель снова показала рост.

Добавили более жесткий safety‑слой, чтобы снизить количество странных или опасных ответов, и ввели режим «прикладываемых усилий», где можно буквально управлять тем, насколько глубоко модель думает над задачей — от экономичных режимов до максимального расхода вычислительных мощностей.

Плюс расширили агентные возможности в Claude Code, где модель теперь умеет работать более автономно, запускать параллельные процессы и собирать более сложные цепочки действий.

Opus 4.7 после пяти промптов: “Давай лучше в следующей сессии”.
Opus 4.7 после пяти промптов: «Давай лучше в следующей сессии».

Обзор от LCX.com: кодинг — лучше, цена — заоблачная

Автор Decrypt на сайте LCX.com пишет, что модель действительно стала лучше, но без ощущения скачка. 

В сухих цифрах все выглядит безупречно: SWE‑bench Pro растет до 69,2%, и это уже уровень, где модель обходит не только 4.7, но и конкурентов вроде GPT-5.5 и Gemini 3.1 Pro. В задачах, связанных с реальными кодовыми базами и инженерными кейсами, это заметный шаг вперед. Также она уверенно держится в академических тестах уровня Humanity«s Last Exam и задачах работы с интерфейсами, вроде OSWorld, где моделируется реальное взаимодействие с компьютером. Нет, это не революция, но уверенный инженерный прогресс. »

Главное изменение — в контроле вычислительной мощности. Anthropic постепенно меняет саму модель потребления ИИ: теперь это не просто «ИИ ответил», а «ИИ думал на уровне X». Режимы усилий превращают интеллект в регулируемый ресурс, где можно выбрать, будет ли модель экономить токены или сжигать максимум вычислений ради качества. В результате и без того дорогая нейросеть начинает совсем уж бесстыдно требовать денег, постоянно напоминая о том, что вычисления можно улучшить и ускорить, если доплатить.

POV: даю Claude полный доступ к моему компьютеру.
POV: даю Claude полный доступ к моему компьютеру.

Обзор от How I AI: быстро соображает, уверенно врет

На канале How I AI протестировали модель не через бенчмарки, а через реальные задачи, и их отзыв гораздо менее однозначный.

Когда модели дают чистый лист и просят собрать что‑то сложное с нуля, она показывает себя во всей красе. Opus 4.8 может разложить задачу на архитектуру, собрать прототип, связать интерфейсы, логику, код и выдать результат, который воспринимается как почти автономная разработка. Возникает ощущение волшебной кнопки: вы дали короткий промт, дальше нейросеть все сделала сама.

Но потом магия улетучивается. Как только появляется необходимость дорабатывать, фиксить баги, уточнять детали или работать с уже существующей структурой, модель теряет стабильность. Появляется классический эффект «последних десяти процентов»: вроде все уже работает, но довести до нормального состояния становится неожиданно сложно.

И самое неприятное — поведение на уточнениях. Модель начинает уверенно галлюцинировать: не просто ошибаться, а строить правдоподобные объяснения там, где данных нет. И это особенно заметно в бизнес‑задачах, где она может делать выводы из неполной информации и звучать при этом максимально убедительно, как будто проверила все три раза, хотя на деле просто «достроила картину».

Вывод: это отличная модель для прототипирования и старта, но слабая в доведении результата до финального состояния и опасная своим уверенным враньем.

Скриншот из клона League of Legends, созданного в Claude за сутки. Источник — reddit
Скриншот из клона League of Legends, созданного в Claude за сутки. Источник — reddit

Обзор с reddit: на автомойку без машины

Пользователи reddit также неоднозначно оценили Opus 4.8.

Со сложными задачами она справляется безупречно. Например, при генерации сложных интерфейсов в одном HTML‑файле она может собрать почти полноценную систему: с анимациями, логикой, интерактивными элементами, ощущением живого продукта. Это уже уровень не «сгенерировать код», а «собрать мини‑приложение от начала и до конца без вмешательства пользователя».

Но дальше снова появляется разрыв. В простых задачах, где от модели ждешь стабильности и здравого смысла, все уже не так убедительно. Короткие запросы, простые UI‑генерации или базовые логические задачи иногда выполняются не лучше, а иногда и хуже предыдущей версии 4.7.

И здесь всплывает ключевой пример, который стал мемом этих тестов: задача про автомойку. Машина находится в 50 метрах от дома, вопрос — идти или ехать. Модель отвечает, что надо идти пешком, полностью игнорируя тот факт, что без машины сама цель задачи не выполняется. Это ошибка не вычисления, а модели мира: она оптимизирует расстояние, теряя здравый смысл.

И именно такие кейсы дают ощущение, что прогресс здесь нелинейный. Модель стала сильнее в сложных системных задачах, но местами потеряла устойчивость в базовой логике.

Вывод

Claude Opus 4.8 действительно делает заметный шаг вперед в сложных агентных задачах, кодинге и автономной работе, где нужно строить системы и длинные цепочки действий. Но одновременно с этим она становится менее стабильной в простых задачах, иногда уступает предыдущей версии в деталях и логике и часто попросту врет. 

Это не универсальное улучшение, а, скорее, смещение баланса: больше мощности и автономности в сложном сегменте и меньше предсказуемости и аккуратности в базовом.

Эта модель нужна тем, кто работает со сложными агентными системами, кодом и архитектурой, где важна способность модели самой вести процесс и собирать результат из множества шагов. Если же речь идет про простые запросы, то разница с 4.7 может быть минимальной или вообще несущественной. Для простых повседневных задач и вовсе лучше использовать ChatGPT, Grok или DeepSeek — они и надежнее, и дешевле.

Комментарии (30)


  1. denja244
    03.06.2026 07:53

    Может на мойке человек работает и ему проще пройти 50 метров до работы чем туда ехать


    1. DonnaG Автор
      03.06.2026 07:53

      Да! Там может быть много условий: например, это моя мойка и я иду проверять бухгалтерию, или свидание у мойки. Я не стал это разжевывать в тексте, но суть в том, что ответить “пешком” и все – явная ошибка. Вот как ответил чатгпт: "Обычно ответ на эту загадку: поедете на машине.

      Логика в том, что цель — попасть на автомойку вместе с машиной, чтобы ее помыть. Даже если автомойка всего в 50 метрах от дома, машину туда нужно доставить, поэтому вы поедете на ней, а не пойдете пешком.

      Хотя формально в условии не сказано, что вы собираетесь мыть свою машину, поэтому это загадка с подвохом: при буквальном прочтении возможны оба варианта. Но ожидаемый ответ — на машине."


      1. IAmNotMe
        03.06.2026 07:53

        Кем ожидаемый ответ? Тем, кто постоянно ездит на автомойку мыть машину? Тем, кто работает на автомойку? Это как спросить - больница в 50 метрах, как доберетесь на ней? Пешком? Нет, у вас сломана нога, как же вы не догадались! Надо было вызывать скорую!


    1. unclejocker
      03.06.2026 07:53

      Вот я тоже подумал, вопрос формулировки, у меня про абстрактного человека тоже "модели мира" нет, так что тут самый правильный ответ будет "а вам зачем?". Но если модель начнет вопросом на вопрос отвечать, боюсь редит все равно останется недоволен:)


      1. akakoychenko
        03.06.2026 07:53

        А это, правда, камень преткновения. Десятки лет на собесах в ФААНГ программистов дрессировали отвечать вопросом на вопрос (вы сказали "спроектировать дом", а кто в нем будет жить? И жить ли, или решать какую-то другую задачу?)

        Сейчас же, с одной стороны, юзеров бесит, что нейронки, не делая так, строят ответ в принципиально другой картине мире, чем ожидал юзер. С другой, если начнут, то это сломает все сценарии вайбкодинга и применения в бизнесе (запустил 100 агентов, и получил 1000 вопросов).

        Походу, тут нерешаемая проблема. Кодер из ФААНГа настолько дорог, как ресурс (условно, $100+ в час), что, чтобы он не делал херни, и не жег эти часы впустую, можно обеспечить ему инфраструктуру ответа на его вопросы, сколько бы это не стоило. Один нейрочас в один поток сильно дешевше, - выходит, что лучше, пусть делает хрень и потом переделает, чем будет отвлекать человека


        1. Nikollor48
          03.06.2026 07:53

          ФААНГ дрессировал задавать вопросы, чтобы проверить адекватность джуна. А нейронке адекватность не нужна, ей нужен четкий системный промпт


    1. Granulex
      03.06.2026 07:53

      Тест проверяет одно незаявленное допущение, а не reasoning. Если ты не автовладелец – "правильный" ответ для тебя неправильный.


    1. Gonchar_POTT
      03.06.2026 07:53

      Вопрос про автомойка заменил очень популярный в эпоху раннего ChatGPT подсчет r в strawberry.

      И то, и другое, по-моему, глупо или рассчитано на хайп


  1. eps
    03.06.2026 07:53

    Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?

    “1. Зачем вообще добираться до автомойки? 2. Конечно пешком, это меньше одной остановки на транспорте, а такси дольше ждать, чем дойти самому”

    Всё-таки задача про автомойку странная и натянутая. Её придумал человек, который не представляет, как жить без машины, и для таких же людей, в общем-то.


    1. DonnaG Автор
      03.06.2026 07:53

      Загадка про мойку – довольно популярный свежий тест для нейросетей. Вот, например, его обсуждение https://www.reddit.com/r/singularity/comments/1r2ndfz/the_car_wash_test_a_new_and_simple_benchmark_for/


      1. eps
        03.06.2026 07:53

        Имею в виду, что это тест на carbrain intelligence, не на general intelligence.

        Я бы предпочёл ответ: “конечно, пешком — отчего не прогуляться. Только если вы не автовладелец и не хотите помыть свою машину”


        1. Soorin
          03.06.2026 07:53

          В задаче не было ничего про "помыть машину" - там только "добраться до автомойки". "Если" - это додумывание за задающего вопрос.


  1. spirit1984
    03.06.2026 07:53

    При этом базовая рамка почти не поменялась

    Это что, калька с английского "basic framing hasn't changed"? Если это перевод, то так и указывайте, что это перевод


    1. DonnaG Автор
      03.06.2026 07:53

      Спасибо за внимательность. Это не перевод, статью собирал на основе нескольких источников, и здесь действительно получилась неудачная формулировка с моей стороны. Исправил текст, спасибо, что обратили внимание.


  1. Djeux
    03.06.2026 07:53

    Решил перепроверить.
    Решил перепроверить.


    1. DonnaG Автор
      03.06.2026 07:53

      Может, уже доработали :)


      1. Djeux
        03.06.2026 07:53

        Может. Или просто промпт был составлен так заковыристо что и ответ был "пешком". Поэтому в таких статьях всегда стоит указывать конкретный текст


        1. DonnaG Автор
          03.06.2026 07:53

          Брали вот такой:

          And it still misses the classic logic trap: “I need a car wash, it’s 50 feet away, should I walk or drive?” → it said walk. (You kind of need the car at the car wash.) Failed it on max mode too.


          1. Djeux
            03.06.2026 07:53

            Что ж, ответ вполне корректный.

            Walk. It's 50 feet — that's about 15 meters, roughly the length of a school bus. You'd spend more time getting in the car, starting it, and pulling it over than just strolling there.

            Though if the whole point is to wash the car, you'll obviously need to drive it over for the actual wash. So: walk if you're going to scope it out or talk to someone, drive if the car itself is getting cleaned.

            UPD:

            В Claude Code ответ сильно короче и без второго абзаца

            Walk — 50 feet is roughly 15 steps, less time than buckling your seatbelt.


            1. Nikollor48
              03.06.2026 07:53

              В Claude Code модель ответила коротко, потому что экономила ваши деньги за токены)


          1. Aluvian
            03.06.2026 07:53

            /dev/null/


  1. Anna_Smirnova323
    03.06.2026 07:53

    Задача про автомойку интересный тест, пробовала прогонять на разных моделях как ГПТ так и Клода - к удивлению некоторые без проблем справлялись, причем более ранние модели чем текущие. Интересно, от чего зависит логика ИИ в подобных "примитивных" запросах? Промпты одинаковые везде были


    1. DonnaG Автор
      03.06.2026 07:53

      Может какие-то из моделей обучают на похожих логических задачках, а какие-то нет...


    1. Nikollor48
      03.06.2026 07:53

      Более ранние модели могли справляться лучше просто потому, что их обучали на других датасетах, где было больше бытовых историй и меньше кода


  1. RulenBagdasis
    03.06.2026 07:53

    Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком? Если вы ответили “конечно, пешком — отчего не прогуляться”, поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.

    Почему, нечего? Мне нужно помыть детский велосипед и коврик. А машина в боксе только мешаться будет.


  1. Nikollor48
    03.06.2026 07:53

    С каждым патчем одно и то же: стало лучше в сложных задачах, но отупело в простых. Просто поменяли веса в сторону кодинга, вот она и перестала выкупать бытовые шуточки


  1. Leadmagneet
    03.06.2026 07:53

    Ну вот я говорю новые модели выходя а толку, галюцинации как были так остались. Антропик еже хочет выйти на бизнес нише что бы они с данными работали?


  1. ru4pae
    03.06.2026 07:53

    Вопрос на уровне начальной школы. Имеющий четкую скрытую структуру. И имеющий один правильный ответ в этой скрытой структуре. Любой ответ не совпадающий с ответом который загадал экзаменатор, будет ошибкой. Так у кого ошибка? У экзаменатора.


  1. grixis
    03.06.2026 07:53

    Ну, дипсик не затупил.

    Конечно, пешком. 50 метров — это меньше минуты ходьбы. Пока вы будете заводить машину, выходить с парковки и искать место, чтобы припарковаться у мойки, вы уже давно дошли бы. Плюс не придётся тратить топливо и лишний раз греть двигатель. Единственное, если нужно привезти на мойку саму машину, то без неё никак — тогда садитесь за руль. Но сам путь до будки оператора или кассы вы всё равно пройдёте ногами.


  1. Kwentin3
    03.06.2026 07:53

    По степени некорректности формулировки первого вопроса есть сильное напоминание старой детской загадки " твои друзья знают что ты дурак? да или нет? ".

    Ну и в догонку, что такие траблы есть и у кожаных: Запись в судовом журнале:«Сегодня штурман был пьян».Штурман сильно обиделся и просит капитана вычеркнуть запись, так как это вредит его карьере. Капитан отвечает:— В журнале должны быть только правдивые факты.На следующий день штурман делает ответную запись:«Сегодня капитан был трезв».