Менеджмент нашёл способ измерить AI-продуктивность. Он такой же удобный, как и всегда.

Это клод придумал картинку под статью, он ещё дэбнул.. так плохо, что это великолепно.
Это клод придумал картинку под статью, он ещё дэбнул.. так плохо, что это великолепно.

Сначала про токены

Компании начали ранжировать инженеров по количеству потреблённых AI-токенов. Не по результату, не по коду — по токенам. Это называется tokenmaxxing.

В ночь с 7 на 8 апреля в Meta закрыли внутренний дашборд — Claudeonomics. За месяц 85 тыс сотрудников сожгли 60 триллионов токенов. Лидер таблицы набрал 281 миллиард лично, однако сам Цекерберг в топ не попал.

После негатива в сети дашборд исчез, но в Shopify и OpenAI похожие рейтинги продолжают работать.

Шесть дней спустя на Semafor World Economy Summit Рейд Хоффман осторожно поддержал трекинг AI-активности как несовершенный, но полезный сигнал.

Дженсен Хуанг рассуждал о годовых токен-бюджетах порядка $250 000 на одного топ-инженера. TechCrunch написал, что люди, гоняющие агентов в три ночи, менее продуктивны, чем думают. В LinkedIn инженеры выкладывают скриншоты счетов от Anthropic — $200K, $400K за месяц — и подписывают: «вот это я называю работой».

Это выглядит как история про AI. На самом деле это история, которой уже восемьдесят лет.

Теперь про гвозди и другие причуды

В СССР ходила (и дошла до нас) история про гвоздильный завод. План в тоннах — делали огромные бесполезные гвозди. План в штуках — делали гвозди-иголки. Говорят, это байка из «Крокодила». Может, и байка.

Но Хрущёв в 1959 году жаловался на то же самое в «Правде» — только про люстры. Фабрики делали их слишком тяжёлыми, диваны слишком большими, листовое стекло слишком толстым. Потому что план был в тоннах, и вес набрать проще всего. Плановая цифра достигнута. Света в комнате не прибавилось.

Вы можете легко сказать: так плановая экономика, советская специфика, у нас такого нет. Но механизм тут не в плане — в метрике.

Чарльз Гудхарт сформулировал идею в 1975 году: когда показатель превращается в цель, он перестаёт быть хорошим показателем. Смысл не в том, что метрики плохи. Смысл в том, что любая система с людьми внутри начинает оптимизироваться под измерение, а не под то, что измерение должно отражать. Разрыв между прокси и реальностью — не баг конкретной метрики.

— Из крайне привычного и понятного, с чем мы живем сейчас — Индекс Хирша должен был измерять влияние учёного на науку. Небольшое сообщество исследователей быстро обнаружило, что взаимные цитирования поднимают h-index обоим без всяких новых открытий. Появился термин «salami slicing»: одну работу режут на пять статей, каждая цитирует остальные четыре. Журналы под давлением рейтингов это публикуют, потому что им тоже нужны метрики. Никто не нарушает правил. Правила и есть проблема.

— Американская система образования No Child Left Behind, запущенная в 2001 году, привязала финансирование школ к результатам стандартизированных тестов. Учителя начали натаскивать детей именно на формат теста — у них не было другого выбора. К 2010-му проверки фиксировали рост результатов по математике и чтению. Независимые исследования фиксировали, что дети хуже решают задачи, которых нет в тестах. Метрика улучшилась. Образование — нет.

— История с колл-центрами короче, но честнее. Эффективность операторов начали считать по среднему времени звонка — чем короче, тем лучше. Операторы нашли выход: вешать трубку на сложных клиентах. Формально показатель рос. Клиенты получали разъединение на пике проблемы и перезванивали — два звонка вместо одного, вдвое больше нагрузки, вдвое меньше удовлетворённости. Во многих КЦ это работает до сих пор.

— NPS устроен ровно так же. Сотрудник поддержки, которого оценивают по индексу его тикетов, перед опросом говорит клиенту примерно следующее: если что-то не устроило — напишите мне лично, я разберусь, а в анкете поставьте десятку, иначе нам прилетит. Клиент ставит десятку. NPS растёт. Проблема, из-за которой клиент звонил, остаётся.

— Разработчики получили свою версию в виде строк кода. Билл Гейтс когда-то сравнил измерение производительности программиста в строках с измерением прогресса авиастроителей в весе самолёта: чем больше — тем хуже. Метрика всё равно прижилась. В некоторых командах она живёт до сих пор, переименованная в velocity story points. Команды, которых оценивают по очкам за спринт, начинают завышать оценки задач. Очки растут. Скорость доставки фич — нет. На ретро все согласны, что система работает нормально.

Люди, которые в апреле 2026-го смотрят на токен-лидерборды, делают ровно то, что делали советские директора, американские учителя и операторы колл-центров. Оптимизируют под измеримое.

Агент, гоняющий пустые промпты в три ночи, чтобы не выпасть из таблицы — предсказуемый финал любой системы, где метрика стала кадровым решением. Хоффман назвал трекинг «неидеальным, но полезным». Он прав в обоих словах — и, возможно, недооценивает первое. Хуанг обсуждает $250 000 в год на инженера как инвестицию в производительность. Красивая цифра. Понятна совету директоров. Уже становится целью.

Виноват не AI

Хотя винить ИИ в том, что сложно найти работу, читать нормальные тексты и запускать рекламу вроде как стало удобным (нет, тут не ИИ виноват).

AI попал в машину Гудхарта по той же причине, по которой в неё попало всё остальное: он дал удобную, численно выражаемую прокси для чего-то сложного. Количество токенов — не производительность. Но считается.

Строки кода — не качество архитектуры. Индекс Хирша — не вклад в науку. NPS — не лояльность. Везде одно: метрика удобна, реальность сложна, система выбирает удобное.

Давайте будем чуть больше задаваться вопросами и искать чуть более сложные пути!

Комментарии (5)


  1. AdrianoVisoccini
    24.04.2026 13:41

    Компании начали ранжировать инженеров по количеству потреблённых AI-токенов. Не по результату, не по коду — по токенам. Это называется tokenmaxxing.

    Напоминает как во времена расцвета американского автомобилестроения люди мерились потреблением у своих автомобилей, только не как сейчас а наоборот. Надпись "двигатель 12 литров" или "расход 40 литров на сотню"(у них правда километры на галлон но мне лень правдоподобные цифры искать) вызывали подъем продаж.


    1. GarryC
      24.04.2026 13:41

      А потом на авто-рынок США пришли японцы ...


      1. AdrianoVisoccini
        24.04.2026 13:41

        В первую очередь на авто-рынок США пришел кризис нефтяной отрасли. Японцы просто удачно с этим совпали, пока бензин стоил дешевле воды из под крана, ездить на японце было просто для настоящего Американца. А вот когда цены на бензин полетели вверх, а спрос вырос до того что ввели ограничения на розлив в одну машину, то тут оказалось что и ничего эти ваши японцы и даже удобно и вообще


  1. Rinat111
    24.04.2026 13:41

    Правильно выстроить план, расставить цели, определить критерии эффективной работы давняя проблема. Для компании это прибыль, потому как нет прибыли нет компании. Но порой даже эта цель приводит к сомнительным результатам.


  1. ideological
    24.04.2026 13:41

    Придумать нормальную метрику во многих сферах можно. Другие показатели вроде количество металла и штук тоже нужны, просто не для лидерборда конечно. И не обязательно выбирать же что-то одно для максимизации или минимизации.

    Но вот с ИИ кажется специально выбрали токены, потому что иначе может выясниться что многим и не нужОн (хотя на habr сейчас опасно так выражаться).