Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.

Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!

Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.

Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.

В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.

Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.

А пока я решил протестировать этого caveman'а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.

Как тестировал

Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.

И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.

Поэтому я придумал такой тестовый промпт:

Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.

В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.

Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти у клода. Итого получился такой набор тестов:

  • Opus 4.8

  • Opus 4.8 With Caveman

  • Sonnet 4.6

  • Sonnet 4.6 With Caveman

На выходе получилось 4 игры. 

По самим играм:

▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.

▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.

Итого, по качеству решений Caveman только все ухудшил.

С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:

Opus 4.8 — COLOSSUS

Поиграть тут клик!
Поиграть тут клик!

Opus 4.8 With Caveman — COLOSSUS-С

Поиграть тут клик!
Поиграть тут клик!

Sonnet 4.6 — TITAN-X7

Поиграть тут клик!
Поиграть тут клик!

Sonnet 4.6 With Caveman — TITAN

Поиграть тут клик!
Поиграть тут клик!

А что по токенам?

С качеством не задалось, окей. Но может хоть токены сэкономим?

Конфигурация

Токены

Время

Sonnet 4.6

42.2k tokens

16m 12s

Sonnet 4.6 With Caveman

52k tokens

12m 50s

Opus 4.8

32.5k tokens

5m 16s

Opus 4.8 With Caveman

29k tokens

4m 34s

На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.

Конфигурация

Токены

Время

Sonnet 4.6

40.3k tokens

15m 36s

Sonnet 4.6 With Caveman

59.1k tokens

12m 50s

На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!

В общем, и тут я бы констатировал промах.

Как итог

На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md работает лучше.

Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:

  1. Делается проект. 

  2. На него закупаются звёзды на гитхаб

  3. Создается пост в твиттере, мол я запилил проект с кучей звёзд. 

  4. Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты. 

  5. А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.

  6. Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.

Это, конечно, лишь мои догадки, но если смотреть по цифрам: 

  • Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.

  • Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал. 

  • Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

К примеру библиотека tailwindcss набрала за аналогичный период всего 58 звёзд.

Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.

Послесловие

Теперь про то, что работает. По моему опыту, сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты... 

На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.

А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик, где мы порой публикуем подобные исследования.

Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.

Комментарии (7)


  1. Scank
    17.06.2026 08:32

    Спасибо за тесты.
    Ждем тест rtk ;)


  1. nidalee
    17.06.2026 08:32

    То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk.

    RTK постоянно вынуждает модель либо перезапускать его с грепами, либо вообще выполнять команды без него, потому что модель ожидает на понятный ввод понятный вывод, а получает кастрированный однострочник и думает, что что-то не так. Особенно claude от этого очень страдает, может один и тот же тул по 3-5 раз перезапускать.


    1. Indermove Автор
      17.06.2026 08:32

      Спасибо!

      Блин, вот тут тоже надо видимо тестировать все же. С этими зазвездёнными репами видимо со всеми такая проблема. Короче, потестирую тоже эту штуку пристально. Хотя вот вроде смотришь описание и такой: Ну вроде же логично, что если ты чутка вербозность подсократишь и вывода инструмента, то все должно стать лучше.


      1. nidalee
        17.06.2026 08:32

        С этими зазвездёнными репами видимо со всеми такая проблема.

        Да. Я думаю, их фармят ради бесплатной подписки по программе осс.


    1. nidalee
      17.06.2026 08:32

      За примером далеко идти не пришлось:

      ● Now typecheck and run the affected tests before rebuilding:

      ● Bash(npm run lint 2>&1 | tail -8; echo “=== TESTS ===”; npx tsx --test server/test/static-routing.test.ts server/test/cloudflare-purge.test.ts server/test/missions-f…) ⎿  ESLint output (JSON parse failed: EOF while parsing a value at line 1 column 0)

      ● Tests pass (55/55). The lint output looks like RTK mis-parsing tsc output as ESLint JSON. Let me run the typecheck directly to confirm it’s clean.

      ● Bash(npx tsc -p tsconfig.json --noEmit; echo “tsc exit: $?”) ⎿  TypeScript: No errors found tsc exit: 0 ⎿  Allowed by auto mode classifier

      ● Typecheck clean, all tests pass.


      1. Indermove Автор
        17.06.2026 08:32

        Ну это жёстко. Я если честно, не думал, что эта штука как-то так бездумно это все режет( Потестирую на дотнете тоже.


        1. nidalee
          17.06.2026 08:32

          Проблема не в бездумности. Она действительно из тех же npm test выкидывает 99% мусора. Остается пара строчек по делу, если на них глазами смотреть. Проблема в том, что модель ожидает увидеть мусор, и когда не видит - думает, что это ошибка.