Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.
Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!
Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.
Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.
В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.
Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.
А пока я решил протестировать этого caveman'а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.
Как тестировал
Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.
И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.
Поэтому я придумал такой тестовый промпт:
Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.
В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.
Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти у клода. Итого получился такой набор тестов:
Opus 4.8
Opus 4.8 With Caveman
Sonnet 4.6
Sonnet 4.6 With Caveman
На выходе получилось 4 игры.
По самим играм:
▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.
▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.
Итого, по качеству решений Caveman только все ухудшил.
С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:
Opus 4.8 — COLOSSUS

Opus 4.8 With Caveman — COLOSSUS-С

Sonnet 4.6 — TITAN-X7

Sonnet 4.6 With Caveman — TITAN

А что по токенам?
С качеством не задалось, окей. Но может хоть токены сэкономим?
Конфигурация |
Токены |
Время |
Sonnet 4.6 |
42.2k tokens |
16m 12s |
Sonnet 4.6 With Caveman |
52k tokens |
12m 50s |
Opus 4.8 |
32.5k tokens |
5m 16s |
Opus 4.8 With Caveman |
29k tokens |
4m 34s |
На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.
Конфигурация |
Токены |
Время |
Sonnet 4.6 |
40.3k tokens |
15m 36s |
Sonnet 4.6 With Caveman |
59.1k tokens |
12m 50s |
На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!
В общем, и тут я бы констатировал промах.
Как итог
На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md работает лучше.
Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:
Делается проект.
На него закупаются звёзды на гитхаб.
Создается пост в твиттере, мол я запилил проект с кучей звёзд.
Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты.
А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.
Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.
Это, конечно, лишь мои догадки, но если смотреть по цифрам:
Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.
Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал.
Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

К примеру библиотека tailwindcss набрала за аналогичный период всего 58 звёзд.
Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.
Послесловие
Теперь про то, что работает. По моему опыту, сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты...
На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.
А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик, где мы порой публикуем подобные исследования.
Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.
Комментарии (7)

nidalee
17.06.2026 08:32То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk.
RTK постоянно вынуждает модель либо перезапускать его с грепами, либо вообще выполнять команды без него, потому что модель ожидает на понятный ввод понятный вывод, а получает кастрированный однострочник и думает, что что-то не так. Особенно claude от этого очень страдает, может один и тот же тул по 3-5 раз перезапускать.

Indermove Автор
17.06.2026 08:32Спасибо!
Блин, вот тут тоже надо видимо тестировать все же. С этими зазвездёнными репами видимо со всеми такая проблема. Короче, потестирую тоже эту штуку пристально. Хотя вот вроде смотришь описание и такой: Ну вроде же логично, что если ты чутка вербозность подсократишь и вывода инструмента, то все должно стать лучше.
nidalee
17.06.2026 08:32С этими зазвездёнными репами видимо со всеми такая проблема.
Да. Я думаю, их фармят ради бесплатной подписки по программе осс.

nidalee
17.06.2026 08:32За примером далеко идти не пришлось:
● Now typecheck and run the affected tests before rebuilding:
● Bash(npm run lint 2>&1 | tail -8; echo “=== TESTS ===”; npx tsx --test server/test/static-routing.test.ts server/test/cloudflare-purge.test.ts server/test/missions-f…) ⎿ ESLint output (JSON parse failed: EOF while parsing a value at line 1 column 0)
● Tests pass (55/55). The lint output looks like RTK mis-parsing tsc output as ESLint JSON. Let me run the typecheck directly to confirm it’s clean.
● Bash(npx tsc -p tsconfig.json --noEmit; echo “tsc exit: $?”) ⎿ TypeScript: No errors found tsc exit: 0 ⎿ Allowed by auto mode classifier
● Typecheck clean, all tests pass.

Indermove Автор
17.06.2026 08:32Ну это жёстко. Я если честно, не думал, что эта штука как-то так бездумно это все режет( Потестирую на дотнете тоже.

nidalee
17.06.2026 08:32Проблема не в бездумности. Она действительно из тех же npm test выкидывает 99% мусора. Остается пара строчек по делу, если на них глазами смотреть. Проблема в том, что модель ожидает увидеть мусор, и когда не видит - думает, что это ошибка.
Scank
Спасибо за тесты.
Ждем тест rtk ;)