Работает ли Caveman? Тестируем модный скилл для экономии токенов / forpes.ru

Главная
Работает ли Caveman? Тестируем модный скилл для экономии токенов

Работает ли Caveman? Тестируем модный скилл для экономии токенов +8

17.06.2026 08:01

Indermove 9 7800 Источник

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.

Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!

Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.

Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.

В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.

Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.

А пока я решил протестировать этого caveman'а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.

Как тестировал

Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.

И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.

Поэтому я придумал такой тестовый промпт:

Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.

В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.

Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти у клода. Итого получился такой набор тестов:

Opus 4.8
Opus 4.8 With Caveman
Sonnet 4.6
Sonnet 4.6 With Caveman

На выходе получилось 4 игры.

По самим играм:

▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.

▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.

Итого, по качеству решений Caveman только все ухудшил.

С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:

Opus 4.8 — COLOSSUS

Opus 4.8 With Caveman — COLOSSUS-С

Sonnet 4.6 — TITAN-X7

Sonnet 4.6 With Caveman — TITAN

А что по токенам?

С качеством не задалось, окей. Но может хоть токены сэкономим?

Конфигурация	Токены	Время
Sonnet 4.6	42.2k tokens	16m 12s
Sonnet 4.6 With Caveman	52k tokens	12m 50s
Opus 4.8	32.5k tokens	5m 16s
Opus 4.8 With Caveman	29k tokens	4m 34s

На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.

Конфигурация	Токены	Время
Sonnet 4.6	40.3k tokens	15m 36s
Sonnet 4.6 With Caveman	59.1k tokens	12m 50s

На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!

В общем, и тут я бы констатировал промах.

Как итог

На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md работает лучше.

Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:

Делается проект.
На него закупаются звёзды на гитхаб.
Создается пост в твиттере, мол я запилил проект с кучей звёзд.
Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты.
А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.
Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.

Это, конечно, лишь мои догадки, но если смотреть по цифрам:

Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.
Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал.
Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

К примеру библиотека tailwindcss набрала за аналогичный период всего 58 звёзд.

Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.

Послесловие

Теперь про то, что работает. По моему опыту, сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты...

На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.

А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик, где мы порой публикуем подобные исследования.

Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.

Комментарии (9)

Scank
17.06.2026 08:32
#30120688
Спасибо за тесты.
Ждем тест rtk ;)
1. Genius_Russian_Coders
  17.06.2026 08:32
  #30124756
  Тоже тестировал caveman — на генерации кода разницы почти нет, а на архитектурных задачах модель теряет нюансы. Сжатие промпта неизбежно lossy, вопрос в том что именно вы теряете.

nidalee
17.06.2026 08:32
#30121206
То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk.

RTK постоянно вынуждает модель либо перезапускать его с грепами, либо вообще выполнять команды без него, потому что модель ожидает на понятный ввод понятный вывод, а получает кастрированный однострочник и думает, что что-то не так. Особенно claude от этого очень страдает, может один и тот же тул по 3-5 раз перезапускать.
1. Indermove Автор
  17.06.2026 08:32
  #30121294
  Спасибо!
  
  Блин, вот тут тоже надо видимо тестировать все же. С этими зазвездёнными репами видимо со всеми такая проблема. Короче, потестирую тоже эту штуку пристально. Хотя вот вроде смотришь описание и такой: Ну вроде же логично, что если ты чутка вербозность подсократишь и вывода инструмента, то все должно стать лучше.
  1. nidalee
    17.06.2026 08:32
    #30121460
    С этими зазвездёнными репами видимо со всеми такая проблема.
    
    Да. Я думаю, их фармят ради бесплатной подписки по программе осс.
1. nidalee
  17.06.2026 08:32
  #30121714
  За примером далеко идти не пришлось:
  
  ● Now typecheck and run the affected tests before rebuilding:
  
  ● Bash(npm run lint 2>&1 | tail -8; echo “=== TESTS ===”; npx tsx --test server/test/static-routing.test.ts server/test/cloudflare-purge.test.ts server/test/missions-f…) ⎿ ESLint output (JSON parse failed: EOF while parsing a value at line 1 column 0)
  
  ● Tests pass (55/55). The lint output looks like RTK mis-parsing tsc output as ESLint JSON. Let me run the typecheck directly to confirm it’s clean.
  
  ● Bash(npx tsc -p tsconfig.json --noEmit; echo “tsc exit: $?”) ⎿ TypeScript: No errors found tsc exit: 0 ⎿ Allowed by auto mode classifier
  
  ● Typecheck clean, all tests pass.
  1. Indermove Автор
    17.06.2026 08:32
    #30121736
    Ну это жёстко. Я если честно, не думал, что эта штука как-то так бездумно это все режет( Потестирую на дотнете тоже.
    
    nidalee
    17.06.2026 08:32
    #30121748
    Проблема не в бездумности. Она действительно из тех же npm test выкидывает 99% мусора. Остается пара строчек по делу, если на них глазами смотреть. Проблема в том, что модель ожидает увидеть мусор, и когда не видит - думает, что это ошибка.

endeveit
17.06.2026 08:32
#30131892
Попробуйте headroom-proxy

Работает ли Caveman? Тестируем модный скилл для экономии токенов +8

Как тестировал

Opus 4.8 — COLOSSUS

Opus 4.8 With Caveman — COLOSSUS-С

Sonnet 4.6 — TITAN-X7

Sonnet 4.6 With Caveman — TITAN

А что по токенам?

Как итог

Послесловие

Комментарии (9)

Scank

Genius_Russian_Coders

nidalee

Indermove Автор

nidalee

nidalee

Indermove Автор

nidalee

endeveit