Перевод свежей и вызывающей споры статьи об оценке роста производительности разных работ при использовании ИИ.

Опубликовано: 5 ноября 2025

Alex Tamkin and Peter McCrory

Обзор

Что реальные диалоги с Claude говорят нам о влиянии ИИ на производительность труда? Используя наш метод анализа, сохраняющий конфиденциальность, мы отобрали сто тысяч реальных диалогов с платформы Claude.ai, оценили, сколько времени на выполнение этих задач потребовалось бы с ИИ и без него, и проанализировали последствия этих приростов производительности для экономики в целом. Согласно оценкам самого Claude, эти задачи в среднем заняли бы около 90 минут без помощи ИИ, а использование Claude ускоряет выполнение отдельных задач примерно на 80 %.

Экстраполяция этих оценок показывает, что модели ИИ текущего поколения могут увеличить ежегодный рост производительности труда в США на 1,8 % в течение следующего десятилетия — примерно вдвое по сравнению с недавними темпами роста. Однако это не прогноз будущего, поскольку мы не учитывали темпы внедрения технологий и более масштабные эффекты, которые могут возникнуть при использовании значительно более мощных ИИ-систем.

Наш анализ имеет ограничения. В частности, мы не можем учесть дополнительное время, которое люди тратят на задачи за пределами диалога с Claude — например, на проверку качества или точности работы, выполненной ИИ. Однако по мере того как ИИ-модели становятся лучше в оценке временных затрат, методы, применённые в данном исследовании, могут стать всё более полезными для понимания того, как ИИ влияет на реальную работу.

Вот резюме наших результатов:

  • В ходе анализа ста тысяч реальных диалогов выяснилось, что, по оценкам Claude, искусственный интеллект сокращает время выполнения задач на 80%. Мы использовали Claude для анализа анонимизированных транскриптов переписок на Claude.ai, чтобы оценить влияние ИИ на производительность труда. Согласно оценкам Claude, пользователи обычно используют ИИ для выполнения сложных задач, на которые в среднем у человека ушло бы 1,4 часа. Сопоставив эти задачи с профессиями из базы O*NET и данными Бюро статистики труда (BLS) о заработной плате, мы подсчитали, что выполнение таких задач обошлось бы в $55 стоимости человеческого труда.

  • Предполагаемый объём, стоимость и экономия времени на задачах сильно различаются в зависимости от профессии. Согласно оценкам Claude, пользователи применяют Claude для юридических и управленческих задач, на выполнение которых без ИИ ушло бы почти два часа, тогда как на задачи по [поиску рецептов по] приготовлению пищи ушло бы всего около 30 минут. Кроме того, мы выяснили, что задачи в сфере медобслуживания можно выполнить на 90% быстрее, в то время как при решении аппаратных («hardware») проблем экономия времени составляет 56%. Однако эти цифры не учитывают дополнительное время, которое люди могут тратить на выполнение задач вне диалога с Claude, поэтому, по нашему мнению, текущие оценки производительности, вероятно, несколько завышены.

  • Экстраполируя эти результаты на всю экономику, можно предположить, что модели ИИ текущего поколения способны увеличить ежегодный рост производительности труда в США на 1,8% в течение следующего десятилетия. Это примерно вдвое превышает темпы роста последних лет. При условии, что оценки Claude относительно повышения эффективности на уровне отдельных задач верны, мы применили стандартные методы расчёта и получили прогнозируемое увеличение производительности труда в США на 1,8% в год на ближайшие десять лет. Однако эта оценка не учитывает будущих усовершенствований ИИ-моделей (или более изощрённого применения существующих технологий), которые могут значительно усилить экономическое влияние ИИ.

  • По мере того как ИИ ускоряет выполнение одних задач, другие могут превратиться в «узкие места»: мы наблюдаем существенное ускорение по некоторым задачам и гораздо меньшее — по другим, даже в рамках одной и той же профессиональной группы. Те задачи, в которых ИИ оказывает меньший эффект, могут стать ограничивающими факторами и, потенциально, сдерживать общий экономический рост.

  • Это даёт нам новый инструмент для понимания эволюции экономического влияния ИИ с течением времени, который мы будем отслеживать в рамках нашего Экономического индекса. Расчёт таких оценок на основе реальных диалогов с Claude позволяет по-новому взглянуть на производительность труда под влиянием ИИ. Этот подход дополняет другие методы — например, лабораторные исследования в узких областях или официальную статистику, дающую более грубые сводные данные. Мы будем отслеживать, как эти оценки меняются со временем, чтобы получать актуальную картину этих процессов по мере развития возможнос��ей ИИ и роста его внедрения.

Обзор нашего метода и некоторых ключевых результатов. Ниже приведены сведения о том, как мы проверяем оценки Claude, какие предположения делаем и каковы ограничения нашего анализа.
Обзор нашего метода и некоторых ключевых результатов. Ниже приведены сведения о том, как мы проверяем оценки Claude, какие предположения делаем и каковы ограничения нашего анализа.

Введение

В рамках Экономического индекса Anthropic мы документировали, как люди используют Claude в различных задачах, отраслях и регионах. Мы зафиксировали разнообразие сценариев использования — например, применение Claude для юридических, научных и программистских задач — но не глубину этих применений. Насколько значимыми являются задачи, для которых люди используют Claude, и сколько времени Claude им экономит?

Текущая версия Экономического индекса не учитывает различия внутри самих задач: например, она не может отличить задачи по написанию отчётов, на которые уходит пять минут, от тех, что требуют пяти дней, или задачи по финансовому моделированию, выполнение которых занимает один день, от тех, что растягиваются на несколько недель.

Это затрудняет оценку экономического влияния ИИ: разработчик программного обеспечения может использовать Claude для написания десяти запросов на внесение изменений (pull requests) за день, но если девять из них — незначительные правки в документации, а один — критическое изменение инфраструктуры, простой подсчёт количества задач, выполненных с помощью Claude, упускает самую суть.

Более того, по мере развития возможностей моделей мы хотим понимать, выполняют ли они работу более высокой ценности. Чтобы понять, как ИИ трансформирует труд и производительность, нам необходимо знать не только какие задачи решает Claude, но и насколько значимы эти задачи и какую экономию времени они дают.

Несколько исследовательских групп уже начали проводить рандомизированные контролируемые испытания для измерения прироста производительности в узких областях, включая задачи в программной инженерии, написании текстов и обслуживании клиентов. Работа METR по оценке способности ИИ выполнять длительные задачи продемонстрировала, что ИИ-системы могут самостоятельно справляться с многокомпонентными, многоэтапными проблемами. Однако такие оценки охватывают узкий набор задач, а не широкое реальное применение. Чтобы оценить общее влияние ИИ на экономику, нам необходим метод анализа сотен или тысяч реальных случаев использования ИИ.

Данный отчёт делает первый шаг в этом направлении. Он использует Claude для оценки того, сколько времени понадобилось бы человеку на выполнение задач, которые обрабатывает Claude, сравнивает это с тем, сколько времени потребовалось человеку и Claude вместе, и таким образом вычисляет, сколько времени сэкономил ИИ. Хотя ИИ-модели не обладают контекстом о квалификации пользователей, их рабочих процессах и ограничениях, мы обнаружили, что оценки времени, сделанные моделью, демонстрируют многообещающую точность на наборе данных по задачам в области разработки программного обеспечения — по сравнению как с оценками самих разработчиков, так и с фактическими замерами затраченного времени.

Далее мы представим нашу методологию оценки экономии времени на уровне отдельных задач, проверим её на достоверность с использованием данных реального мира, а затем применим эти оценки для анализа, какие задачи и профессии демонстрируют наибольший прирост производительности благодаря ИИ. После этого мы рассмотрим, к каким выводам о совокупной производительности ведут наши оценки на уровне задач по мере внедрения ИИ в экономику.

Оценка продолжительности задач и экономии времени

С помощью нашей системы анализа, сохраняющей конфиденциальность, мы проанализировали 100 000 транскриптов диалогов с Claude.ai (тарифы Free, Pro и Max), чтобы измерить продолжительность задач и степень экономии времени при использовании Claude. Для каждой задачи мы сформировали две ключевые оценки:

  • Время без ИИ: сколько часов потребовалось бы профессиональному специалисту на выполнение задачи без помощи ИИ;

  • Время с ИИ: сколько времени фактически заняло выполнение задачи при взаимодействии с ИИ.

Эти оценки для каждого диалога генерировались самим Claude. Затем, следуя методологии нашего Экономического индекса, мы агрегировали отдельные диалоги по таксономии задач O*NET, взяв медианное значение оценок времени по каждой задаче. Это позволило нам изучить, как оценки времени варьируются в зависимости от задач и профессий в экономике. Примеры используемых запросов (промптов) приведены в Приложении.

Анализ реальных записей диалогов даёт возможность учитывать внутризадачную вариативность. Например, даже если общая доля задач по проектированию производственного оборудования остаётся неизменной, информация на уровне записей диалогов позволяет увидеть, реализуют ли люди с помощью ИИ всё более сложные и длительные проекты (или достигают большей экономии времени). Наш Экономический индекс будет отслеживать, как эти оценки меняются со временем, и делиться агрегированными наборами данных, которые исследователи смогут использовать для собственных прогнозов и выводов.

Валидация

Оценка продолжительности задачи — проблема, хорошо известная своей сложностью даже для людей. Для ИИ-моделей она ещё труднее, поскольку им не хватает важного контекста о более широких обстоятельствах выполнения задачи (хотя мы ожидаем, что этот контекст будет расширяться со временем по мере внедрения таких функций, как память и интеграции с внешними системами). Чтобы проверить, насколько оценки Claude информативны, мы провели два валидационных анализа.

Тест на самосогласованность:
Во-первых, мы оценили, даёт ли Claude стабильные оценки продолжительности задач при анализе разных выборок диалогов или при небольших изменениях формулировок наших запросов.

Мы создали несколько вариантов запросов — например, спрашивая о «сотруднике с соответствующими навыками» или о «квалифицированном специалисте» — чтобы оценить, насколько чувствительны оценки к формулировке. Мы проанализировали 1 800 диалогов для каждого варианта запроса (согласие пользователей на использование таких диалогов в исследовании было получено) и рассчитали корреляции между вариантами.

Результаты показали высокую степень самосогласованности: корреляции в логарифмическом масштабе составили r = 0,89–0,93 между разными вариантами формулировок.

Оценки Claude времени выполнения задач человеком демонстрируют высокую корреляцию при использовании различных формулировок запросов. В запросе 1 Claude просили оценить, сколько времени понадобилось бы «сотруднику с соответствующими навыками» для завершения задачи, а в запросе 2 — сколько времени потребовалось бы «человеку-исполнителю», «компетентному в соответствующей области». Эти два варианта запросов показали корреляцию 0,89 в логарифмическом масштабе, что свидетельствует о высокой степени согласованности оценок. Анализ проводился на скриптах диалогов с Claude.ai, предоставленных пользователями, давшими согласие на использование своих данных в исследовательских целях.
Оценки Claude времени выполнения задач человеком демонстрируют высокую корреляцию при использовании различных формулировок запросов. В запросе 1 Claude просили оценить, сколько времени понадобилось бы «сотруднику с соответствующими навыками» для завершения задачи, а в запросе 2 — сколько времени потребовалось бы «человеку-исполнителю», «компетентному в соответствующей области». Эти два варианта запросов показали корреляцию 0,89 в логарифмическом масштабе, что свидетельствует о высокой степени согласованности оценок. Анализ проводился на скриптах диалогов с Claude.ai, предоставленных пользователями, давшими согласие на использование своих данных в исследовательских целях.

Внешняя проверка на эталонных данных:
Самосогласованность сама по себе не гарантирует соответствия реальности. Чтобы это проверить, мы протестировали способность Claude оценивать время выполнения задач на наборе данных, содержащем тысячи реальных задач в области разработки программного обеспечения, собранных из карточек JIRA в открытых репозиториях, для которых имелись как экспертные оценки самих разработчиков, так и фактические замеры времени выполнения.

Это чрезвычайно сложная задача для Claude, поскольку модели доступны только заголовок и описание карточки JIRA, в то время как разработчики обладают полным контекстом кодовой базы и понимают, сколько времени обычно занимают подобные задачи. На подвыборке из 1000 задач:

  • Самостоятельные оценки разработчиков показали корреляцию Спирмена ρ = 0,50 с фактическим временем и корреляцию Пирсона в логарифмическом масштабе r_{log} = 0,67, что указывает на умеренную, но значимую связь.

  • Claude Sonnet 4.5 продемонстрировал ρ = 0,44 и r_{log} = 0,46.

  • Claude Sonnet 4.5 с примерами калибровки (10 задач с известным временем выполнения) показал немного худшую ρ = 0,39, но улучшенную r_{log} = 0,48.

Этот анализ показывает, что оценки Claude дают полезную направленную информацию, уступая оценкам разработчиков лишь незначительно. Однако мы обнаружили, что оценки Claude «сжаты» в меньшем диапазоне: модель склонна завышать время коротких задач и занижать длительных. Это говорит о том, что реальные различия в продолжительности задач могут быть ещё больше, чем отражено в наших данных, а сами задачи — в среднем немного короче.

В целом, эти результаты свидетельствуют, что прогнозы модели имеют осмысленную корреляцию с реальными исходами (по крайней мере в сфере разработки ПО), что делает их полезными для сравнения задач между собой или отслеживания изменений с течением времени. Кроме того, мы зафиксировали более высокую корреляцию у Claude Sonnet 4.5 по сравнению с более ранней версией (Sonnet 4), что даёт основания полагать: точность таких оценок будет расти вместе с развитием моделей.

Корреляция фактического времени, затраченного на задачи в области разработки программного обеспечения, с оценками разработчиков и Claude.  Слева: корреляция между первоначальными оценками разработчиков и итоговыми замерами фактического времени. Разработчики знакомы со всей кодовой базой, понимают полный контекст запроса и знают, сколько времени обычно занимают аналогичные задачи.   В центре: корреляция с оценками Claude Sonnet 4.5, получаемыми только на основе заголовка и описания карточки JIRA.   Справа: корреляция с оценками Claude Sonnet 4.5, получаемыми при наличии в запросе 10 примеров задач с известной продолжительностью для калибровки.   В целом, оценки Claude демонстрируют схожую с разработчиками направленную корреляцию: коэффициент Спирмена ρ = 0,44 у Claude против ρ = 0,50 у разработчиков. При этом Claude существенно завышает продолжительность коротких задач и занижает — длинных.   Оси масштабированы по логарифму (основание 10). Уровни погрешности отражают 95% доверительные интервалы для каждого интервала.
Корреляция фактического времени, затраченного на задачи в области разработки программного обеспечения, с оценками разработчиков и Claude. Слева: корреляция между первоначальными оценками разработчиков и итоговыми замерами фактического времени. Разработчики знакомы со всей кодовой базой, понимают полный контекст запроса и знают, сколько времени обычно занимают аналогичные задачи. В центре: корреляция с оценками Claude Sonnet 4.5, получаемыми только на основе заголовка и описания карточки JIRA. Справа: корреляция с оценками Claude Sonnet 4.5, получаемыми при наличии в запросе 10 примеров задач с известной продолжительностью для калибровки. В целом, оценки Claude демонстрируют схожую с разработчиками направленную корреляцию: коэффициент Спирмена ρ = 0,44 у Claude против ρ = 0,50 у разработчиков. При этом Claude существенно завышает продолжительность коротких задач и занижает — длинных. Оси масштабированы по логарифму (основание 10). Уровни погрешности отражают 95% доверительные интервалы для каждого интервала.

Результаты

Мы сначала используем описанные выше методы для оценки экономии времени на уровне отдельных задач, а затем агрегируем эти данные для получения оценок влияния на всю экономику.

Экономия на уровне задач

Оценочное время выполнения задачи по версии Claude, средняя почасовая ставка по профессии, расчётная стоимость задачи и экономия времени для девяти различных задач. Время выполнения задачи оценивалось путём запроса к Claude с просьбой предсказать, сколько времени профессиональному специалисту потребовалось бы на выполнение задачи без помощи ИИ. Почасовая ставка взята из данных Статистики занятости и заработной платы по профессиям (Occupational Employment and Wage Statistics, OEWS) за май 2024 года. Стоимость задачи рассчитывалась путём умножения оценочного времени выполнения на почасовую ставку. Экономия времени определялась на основе оценки времени, фактически затраченного пользователем на выполнение задачи с ИИ, по формуле:1 – (время с ИИ / время без ИИ).
Оценочное время выполнения задачи по версии Claude, средняя почасовая ставка по профессии, расчётная стоимость задачи и экономия времени для девяти различных задач. Время выполнения задачи оценивалось путём запроса к Claude с просьбой предсказать, сколько времени профессиональному специалисту потребовалось бы на выполнение задачи без помощи ИИ. Почасовая ставка взята из данных Статистики занятости и заработной платы по профессиям (Occupational Employment and Wage Statistics, OEWS) за май 2024 года. Стоимость задачи рассчитывалась путём умножения оценочного времени выполнения на почасовую ставку. Экономия времени определялась на основе оценки времени, фактически затраченного пользователем на выполнение задачи с ИИ, по формуле:
1 – (время с ИИ / время без ИИ).

Примеры задач демонстрируют широкий диапазон экономии времени

Анализ отдельных задач внутри профессий даёт конкретные примеры того, где и как ИИ может экономить время. В наиболее ярких случаях пользователи завершали задачи по разработке учебных программ, на выполнение которых, по оценке Claude, ушло бы 4,5 часа, всего за 11 минут. Стоимость таких задач составляет примерно 115 долларов, исходя из средней почасовой ставки учителей.

Люди также используют ИИ, чтобы сэкономить 87% времени на написании счетов, служебных записок и других документов (по крайней мере, тех типов документов, с которыми обращаются к Claude). Наконец, ИИ экономит 80% времени на задачах финансового аналитика, таких как интерпретация финансовых данных, которые в обычных условиях стоили бы 31 доллар в виде заработной платы.

Продолжительность задач сильно различается в зависимости от профессии

Оценки времени выполнения показывают, что Claude используется для задач очень разной продолжительности в зависимости от профессии. На приведённых ниже графиках показаны средние значения по каждой профессиональной категории среди подмножества задач, для которых используется Claude. Средняя управленческая задача (например, выбор инвестиций), для которой используется Claude, по оценке модели, занимает у человека 2,0 часа, за ней следуют юридические задачи (1,8 часа), образовательные (1,7 часа) и задачи в сфере искусства и СМИ (1,6 часа). На другом конце шкалы — задачи по приготовлению пищи (например, планирование или ценообразование меню), установке/обслуживанию и транспортировке, на которые в среднем уходит от 0,3 до 0,5 часа, что свидетельствует о более ограниченном характере таких задач или меньшем времени ожидания. Учитывая, что оценки времени от Claude склонны занижать длительные задачи и завышать короткие, на практике эти различия могут быть ещё значительнее.

Различные показатели, рассчитанные на основе оценок времени от Claude для основных групп профессий по классификатору SOC (Standard Occupational Classification).   Оценки времени, необходимого человеку, существенно различаются в зависимости от профессии: пользователи применяют Claude для управленческих и юридических задач, на выполнение которых без ИИ уходит, по оценкам, около 2 часов, в то время как задачи в сфере медподдержки и приготовления пищи в среднем занимают около получаса.   Средняя почасовая ставка по каждой профессиональной категории взята из данных OEWS (Occupational Employment and Wage Statistics) за 2024 год.   Средняя стоимость задачи рассчитывается путём умножения почасовой ставки профессии на медианное время выполнения задачи и последующего усреднения с весами, соответствующими частоте встречаемости каждой задачи в нашей выборке.   Экономия времени вычисляется по формуле:  1 – (время с ИИ / время без ИИ).
Различные показатели, рассчитанные на основе оценок времени от Claude для основных групп профессий по классификатору SOC (Standard Occupational Classification). Оценки времени, необходимого человеку, существенно различаются в зависимости от профессии: пользователи применяют Claude для управленческих и юридических задач, на выполнение которых без ИИ уходит, по оценкам, около 2 часов, в то время как задачи в сфере медподдержки и приготовления пищи в среднем занимают около получаса. Средняя почасовая ставка по каждой профессиональной категории взята из данных OEWS (Occupational Employment and Wage Statistics) за 2024 год. Средняя стоимость задачи рассчитывается путём умножения почасовой ставки профессии на медианное время выполнения задачи и последующего усреднения с весами, соответствующими частоте встречаемости каждой задачи в нашей выборке. Экономия времени вычисляется по формуле: 1 – (время с ИИ / время без ИИ).

Оценки стоимости усиливают эту вариативность влияния ИИ: задачи с наибольшей продолжительностью, как правило, также являются и самыми дорогостоящими с точки зрения труда. Мы рассчитали эти оценки стоимости, умножив медианное время выполнения каждой задачи на среднюю почасовую ставку соответствующей профессии по данным OEWS за май 2024 года. Средняя управленческая задача обошлась бы профессионалу в 133 доллара, юридическая — в 119 долларов, а задачи по приготовлению и обслуживанию еды — всего в 8 долларов. Бизнес- и финансовые задачи в среднем стоят 69 долларов, а задачи в сфере информатики и математики — 82 доллара.

Среди всех проанализированных нами задач мы оцениваем, что работа, выполняемая с помощью Claude, имела бы медианную стоимость в 54 доллара, если бы её выполнял квалифицированный специалист. Конечно, на практике текущие модели, вероятно, хуже справляются со многими задачами по сравнению с человеком-экспертом, хотя недавние исследования показывают, что разрыв сокращается во многих областях применения.

Мы также наблюдаем положительную корреляцию между средней почасовой ставкой в профессии и продолжительностью задач, с которыми к Claude обращаются в нашей выборке. Например, категории «Управление» и «Юриспруденция» находятся на вершине рейтинга по средней почасовой ставке — что согласуется с сильными сторонами Claude в выполнении сложных интеллектуальных задач.

Корреляция между средней почасовой ставкой в профессиональной категории и средней продолжительностью задачи, оценённой Claude в нашей выборке. Категории профессий с более высокой оплатой труда (например, управление и юриспруденция) в нашей выборке связаны с более сложными и длительными задачами (коэффициент корреляции r = 0,8).
Корреляция между средней почасовой ставкой в профессиональной категории и средней продолжительностью задачи, оценённой Claude в нашей выборке. Категории профессий с более высокой оплатой труда (например, управление и юриспруденция) в нашей выборке связаны с более сложными и длительными задачами (коэффициент корреляции r = 0,8).

Экономия времени сильно различается по профессиям

Наши оценки продолжительности и стоимости задач отражают масштаб задач, с которыми люди обращаются к ИИ. Однако сама экономия времени — по оценке Claude, насколько быстрее работа выполняется с ИИ — отражает потенциальный прирост производительности при использовании ИИ для этих задач.

Медианная беседа, по оценке, даёт экономию времени в 84%, хотя мы наблюдаем значительные различия между задачами и категориями. Например, проверка диагностических изображений демонстрирует всего 20% экономии времени, вероятно, потому что эта задача и без ИИ уже выполняется экспертами быстро. Напротив, сбор информации из отчётов позволяет сэкономить около 95% времени, поскольку ИИ-системы могут читать, извлекать и цитировать информацию гораздо быстрее людей.

В целом, распределение экономии времени по задачам сосредоточено в диапазоне от 50% до 95%, с пиком между 80% и 90%.

Эта значительная экономия времени соответствует способностям Claude читать и писать гораздо быстрее, чем люди. Однако наш подход не учитывает дополнительного времени, которое люди тратят на доработку ответов Claude до окончательного результата, а также возможность продолжения работы над задачей в нескольких сессиях — оба фактора привели бы к меньшей экономии времени. Ранее проведённые рандомизированные контролируемые испытания, как правило, показывали меньшую экономию времени: 56%, 40%, 26%, 14% и даже отрицательную экономию в разных приложениях — возможно, из-за этих факторов или потому, что в тех исследованиях использовались более ранние поколения моделей.

График плотности распределения экономии времени по задачам O*NET в нашей выборке. Мы видим, что оценки экономии времени от Claude сильно различаются в зависимости от задачи: большинство значений сосредоточено в диапазоне от 50% до 95%. Медианное значение экономии времени составляет 81%.   Экономия времени рассчитывается по формуле:  1 – (время с ИИ / время без ИИ).   Наши оценки не учитывают время, которое пользователи тратят на доработку или уточнение ответов Claude за пределами окна чата.
График плотности распределения экономии времени по задачам O*NET в нашей выборке. Мы видим, что оценки экономии времени от Claude сильно различаются в зависимости от задачи: большинство значений сосредоточено в диапазоне от 50% до 95%. Медианное значение экономии времени составляет 81%. Экономия времени рассчитывается по формуле: 1 – (время с ИИ / время без ИИ). Наши оценки не учитывают время, которое пользователи тратят на доработку или уточнение ответов Claude за пределами окна чата.

От прироста эффективности на уровне задач к влиянию на производительность всей экономики

Приведённые выше оценки отражают прирост производительности благодаря ИИ на уровне отдельных задач. Чтобы понять макроуровневые последствия, в этом разделе моделируется, как эти приросты могут агрегироваться по всей экономике США при условии, что они реализуются в соответствии с оценками Claude.

Методология

Для оценки влияния на всю экономику мы используем теорему Хультена — стандартный метод, позволяющий агрегировать прирост эффективности на уровне задач до масштаба всей экономики США. Как и в «базовом» подходе Аджемоглу (2024), мы моделируем предполагаемый рост производительности труда как взвешенное среднее по приросту производительности на уровне задач — такой подход неявно предполагает, что инвестиции в капитал возрастут вследствие роста общей факторной производительности (total factor productivity, TFP), связанного с внедрением ИИ.

В этой модели предполагаемый рост TFP равен приросту производительности труда, умноженному на долю труда в доходе.

Структура задач: для каждой профессии мы получаем список рабочих задач из базы O*NET. Затем с помощью Claude оцениваем, какую долю времени работники тратят на каждую из этих задач. Например, Claude оценивает, что программисты тратят 23% времени на написание и поддержку кода, 15% — на анализ и переписывание программ, и меньшие доли — на тестирование, документацию и совещания.

Прирост производительности на уровне задач: в предыдущем разделе мы получили оценки того, насколько быстрее каждая задача выполняется с помощью ИИ. Мы берём логарифмическую разницу между временем без ИИ и временем с ИИ, чтобы получить значение прироста производительности, и консервативно присваиваем нулевой прирост для задач, не наблюдавшихся в наше�� выборке.

Оценка для всей экономики: мы взвешиваем прирост производительности по каждой задаче по её экономической значимости с учётом двух факторов:
(i) доли времени, которую, по оценке Claude, профессия тратит на эту задачу (см. выше), и
(ii) доли этой профессии в общем фонде заработной платы США (число занятых в категории × средняя зарплата ÷ общий фонд ЗП по всем профессиям).
Для расчёта общего фонда заработной платы мы используем данные OEWS за май 2024 года. Этот подход неявно предполагает, что оценки времени от Claude представляют надёжные средние значения для всех случаев выполнения каждой задачи и что Claude или аналогичные ИИ-системы будут внедрены повсеместно в экономике США.

Влияние на производительность труда в масштабе всей экономики США: десять ведущих профессий.  В целом, оценки Claude предполагают ежегодный рост производительности труда в США на 1,8% (пунктирная линия), при условии, что современные ИИ-системы будут повсеместно внедрены для всех задач, зафиксированных в нашей выборке. Этот рост в первую очередь обусловлен задачами в сфере разработки программного обеспечения, управления, маркетинга и обслуживания клиентов.Такой прирост производительности труда соответствует ежегодному росту общей факторной производительности (ОФП) на 1,08%.   Показатель среднего значения ln(коэффициента времени) отражает взвешенный по времени прирост производительности по всем задачам внутри каждой профессии, где коэффициент времени = время с ИИ / время без ИИ.   Данные по занятости и заработной плате получены из статистики OEWS (Occupational Employment and Wage Statistics) за 2024 год.
Влияние на производительность труда в масштабе всей экономики США: десять ведущих профессий. В целом, оценки Claude предполагают ежегодный рост производительности труда в США на 1,8% (пунктирная линия), при условии, что современные ИИ-системы будут повсеместно внедрены для всех задач, зафиксированных в нашей выборке. Этот рост в первую очередь обусловлен задачами в сфере разработки программного обеспечения, управления, маркетинга и обслуживания клиентов.
Такой прирост производительности труда соответствует ежегодному росту общей факторной производительности (ОФП) на 1,08%. Показатель среднего значения ln(коэффициента времени) отражает взвешенный по времени прирост производительности по всем задачам внутри каждой профессии, где коэффициент времени = время с ИИ / время без ИИ. Данные по занятости и заработной плате получены из статистики OEWS (Occupational Employment and Wage Statistics) за 2024 год.

Основные выводы

При допущении, что внедрение ИИ займёт 10 лет и охватит всю экономику США, а сами модели останутся на текущем уровне, мы рассчитали, что оценки Claude указывают на ежегодный рост производительности труда в США на 1,8%. Это почти удвоит текущие долгосрочные темпы роста, которые в среднем составляли 2,1% в год с 1947 года и 1,8% с 2019 года. При доле труда в TFP, равной 0,6, это соответствует ежегодному росту общей факторной производительности на 1,1%. Учитывая, что рост TFP с начала 2000-х годов редко превышал 1%, эти оценки показывают, что даже широкое внедрение текущих ИИ-систем может удвоить темпы роста — до уровней конца 1990-х или 1960–1970-х годов.

Эта оценка находится в пределах диапазона недавних прогнозов влияния ИИ на производительность, хотя и ближе к верхней границе (Filippucci, Gal и Schief, 2024).

Важно отметить, что в этом расчёте предполагается, что возможности ИИ (и эффективность их использования людьми) останутся неизменными в течение следующих 10 лет — а это маловероятно. Мы ожидаем, что ИИ будет быстро совершенствоваться.

Поэтому данную оценку следует воспринимать не как прогноз наиболее вероятного будущего, а как исследование возможного сценария на основе текущих паттернов использования.

Как мы отмечали в других работах, мы остаёмся крайне настороженными в отношении риска значительных потрясений на рынке труда, которые, вероятно, будут сопровождаться ещё большим ростом производительности благодаря ИИ. По мере развития моделей наша текущая оценка может рассматриваться как приблизительная нижняя граница возможного влияния ИИ на производительность, хотя она не учитывает неравномерность внедрения, которая может снижать реальный прирост производительности в краткосрочной перспективе.

Рост производительности труда в секторе несельскохозяйственного бизнеса. График показывает пятилетние скользящие средние годовых темпов роста производительности труда.Наблюдается общий спад: с почти 3 % в 1960-х годах до примерно 1,5 % в последние несколько лет.
Рост производительности труда в секторе несельскохозяйственного бизнеса. График показывает пятилетние скользящие средние годовых темпов роста производительности труда.Наблюдается общий спад: с почти 3 % в 1960-х годах до примерно 1,5 % в последние несколько лет.

Учитывая, что некоторые задачи и профессии встречаются в наших данных значительно чаще других, мы наблюдаем аналогичную картину и по вкладу профессий в общий прирост производительности. Наибольший вклад вносит программное обеспечение — 19% общего прироста производительности труда, обусловленного ИИ.

Далее следуют:
— Руководители общего и операционного профиля — около 6%,
— Аналитики рынка и специалисты по маркетингу — 5%,
— Представители службы поддержки клиентов — 4%,
— Учителя средней школы — 3%.

Напротив, рестораны, здравоохранение, строительство и розничная торговля вносят гораздо меньший вклад. В основном это связано с тем, что в наших данных почти отсутствуют соответствующие задачи — в значительной степени потому, что в нашей выборке мало примеров использования Claude в этих профессиях.

Как ИИ может изменить распределение времени работников?

Если работники смогут ускорить выполнение части своих задач с помощью ИИ, то задачи, в которых ИИ даёт меньший эффект, могут занять бо́льшую долю в общем рабочем процессе и, соответственно, стать более значимыми. Например, ИИ может помочь инспектору по жилью быстрее готовить отчёты, но если на физическую поездку на объект и личную проверку по-прежнему уходит столько же времени, то эта часть работы станет преобладающей.

Рисунок ниже иллюстрирует это на примере нескольких профессий.

У программистов ИИ ускоряет разработку, тестирование, документирование и обработку данных. Но мы пока не видим значимого использования ИИ для координации установки систем или управления другими специалистами.

У учителей ИИ помогает с планированием уроков и мероприятий, но не участвует в руководстве внеклассными занятиями или поддержании дисциплины в классе.

С точки зрения экономического роста эти наблюдения хорошо согласуются с недавним выводом Агиона, Джонса и Джонса: «рост может быть ограничен не тем, в чём мы хороши, а тем, что является существенным, но трудно поддаётся улучшению».

Четыре различные профессии с указанием «ускоряемых» задач, по которым возможна значительная экономия времени, и потенциальных «узких мест» — задач, которые не встречаются в нашей выборке. Например, у инженеров-программистов оценки показывают большую экономию времени при разработке и отладке программного обеспечения, но не при управлении другими программистами. Доли времени, затрачиваемого на задачи в течение недели, оценены с помощью Claude (см. предыдущий раздел).
Четыре различные профессии с указанием «ускоряемых» задач, по которым возможна значительная экономия времени, и потенциальных «узких мест» — задач, которые не встречаются в нашей выборке. Например, у инженеров-программистов оценки показывают большую экономию времени при разработке и отладке программного обеспечения, но не при управлении другими программистами. Доли времени, затрачиваемого на задачи в течение недели, оценены с помощью Claude (см. предыдущий раздел).

Ограничения

Наш подход имеет несколько ограничений, которые, как мы считаем, требуют дальнейших исследований:

  • Оценки Claude несовершенны, и у нас нет реальных данных для их валидации: ИИ-системы дают неточные прогнозы и не видят активность, происходящую после завершения взаимодействия с моделью. Хотя мы ожидаем, что точность оценок будет расти вместе с моделями, использование прогнозов модели вносит значительный шум. Несмотря на то что модели приближаются к уровню людей в оценке длительности задач (а сами люди тоже далеки от совершенства), у нас нет реальных данных для проверки оценок Claude.

  • Ограничения таксономии задач: реальные рабочие места сложнее списков задач O*NET, а наши оценки распределения времени по задачам приблизительны. Многие важные аспекты работы — неявные знания, межличностные связи, принятие решений в условиях неопределённости — не отражены в формальных описаниях задач, а взаимосвязи между задачами могут быть столь же важны для производительности, как и экономия времени по отдельности. Хотя мы наблюдаем значительную экономию по отдельным задачам, недавнее рандомизированное контролируемое испытание, изучавшее разработку программного обеспечения «от начала до конца», не выявило экономии времени благодаря ИИ.

  • Структурные допущения: в наших расчётах мы сравниваем время, необходимое профессионалу без ИИ, со временем при использовании ИИ. Это может как недооценивать прирост производительности (поскольку не учитывает дополнительные издержки на найм и передачу контекста), так и переоценивать его, если качество работы ИИ хуже, чем у человека.

  • Реструктуризация организаций: исторически наибольший прирост производительности на уровне фирм следовал не просто от внедрения технологий, а от реструктуризации бизнес-процессов. Наша модель может помочь оценить эффекты такой реструктуризации, но не может предсказать, как и когда компании примут такие решения.

  • Роль инноваций: технологические инновации — двигатель экономического роста. Наша модель не учитывает, как ИИ может ускорить или даже автоматизировать научный процесс, и как это повлияет на производительность, рост и структуру труда.

  • Ограниченные данные: наши данные основаны только на диалогах с Claude.ai. Эта выборка не репрезентативна для всего спектра применения ИИ: вероятно, имеет место эффект отбора — люди используют Claude именно для тех задач, где ожидают наибольшей пользы. Кроме того, из-за конечного размера выборки мы, скорее всего, упускаем менее распространённые задачи.

Разработанная нами система измерений позволяет непрерывно отслеживать влияние ИИ на экономию времени в масштабе. По мере совершенствования моделей и устранения этих ограничений мы сможем пересчитывать экономию времени и выявлять, как улучшения возможностей транслируются в более широкие экономические последствия. Мы планируем отслеживать эти изменения в ближайшие месяцы и годы.

Заключение

Claude используется для задач чрезвычайно разной сложности — от простых вопросов по приготовлению пищи, на которые уходит несколько минут, до сложных юридических и управленческих задач, требующих нескольких часов. Но каков совокупный эффект этой работы?

Исходя из оценок времени выполнения задач от Claude (и предполагая повсеместное внедрение в течение следующих 10 лет), мы видим, что текущее использование нынешних ИИ-моделей может привести к ежегодному росту производительности труда в США на 1,8% — удвоению темпов роста за последние годы. Эти приросты будут сконцентрированы в технологиях, образовании и профессиональных услугах, тогда как розничная торговля, рестораны и транспорт получат минимальный эффект. Мы будем отслеживать эти изменения как часть нашего Экономического индекса по мере развития возможностей моделей, продуктов и масштабов внедрения.

Этот прирост производительности достигается за счёт ускорения уже существующих задач. Однако исторически трансформационные улучшения — от электрификации до компьютеров и интернета — происходили не просто от ускорения старых задач, а от фундаментальной реструктуризации производства. В таких сценариях будущего ИИ не только ускоряет реализацию функций, но и побуждает компании перестраивать совещания, процессы код-ревью и другие практики, чтобы быстрее проверять и внедрять решения — будь то с ИИ или без него.

Наша методология может помочь оценить последствия такой реструктуризации, но не может предсказать, какие именно изменения произойдут и как быстро. Важное направление будущих исследований — понять именно этот вопрос: когда и как компании реорганизуются вокруг новых возможностей ИИ. Ответ определит, когда ИИ перейдёт от предоставления значительного, но ограниченного прироста производительности к запуску структурной трансформации, характерной для исторических технологических революций.

Библиографическая ссылка (BibTeX)

Если вы хотите сослаться на этот отчёт, используйте следующую запись BibTeX:

@online{tamkinmccrory2025productivity,
author = {Alex Tamkin and Peter McCrory},
title = {Estimating AI productivity gains from Claude conversations},
date = {2025-11-05},
year = {2025},
url = {https://www.anthropic.com/research/estimating-productivity-gains},
}

Приложение

Сравнение оценок Claude с другими источниками

Прогнозируемый рост годовой производительности труда в течение 10-летнего горизонта благодаря ИИ. График воспроизведён из работы Filippucci, Gal и Schief (2024). Пунктирная линия соответствует значению 1,8 %, полученному на основе оценок Claude.
Прогнозируемый рост годовой производительности труда в течение 10-летнего горизонта благодаря ИИ. График воспроизведён из работы Filippucci, Gal и Schief (2024). Пунктирная линия соответствует значению 1,8 %, полученному на основе оценок Claude.

Использованные запросы (промпты)

Промпт для оценки времени выполнения человеком:

Human: Consider the following conversation:

<conversation>
{{TRANSCRIPT}}
</conversation>

Estimate how many hours a competent professional would need to complete the tasks done by the Assistant.
Assume they have:
- The necessary domain knowledge and skills
- All relevant context and background information
- Access to required tools and resources

Before providing your final answer, use <thinking> tags to break down your reasoning process:
<thinking>
2-5 sentences of reasoning estimating how many hours would be needed to complete the tasks.
</thinking>

Provide your output in the following format:
<answer>A number representing hours (can use decimals like 0.5 for shorter tasks)</answer>

Assistant: <thinking>
Человек: Рассмотрите следующий диалог:

<conversation>
{{TRANSCRIPT}}
</conversation>

Оцените, сколько часов потребовалось бы квалифицированному специалисту для выполнения задач, выполненных Ассистентом.  
Предположите, что у него есть:  
- Необходимые предметные знания и навыки  
- Весь релевантный контекст и справочная информация  
- Доступ к требуемым инструментам и ресурсам  

Прежде чем дать окончательный ответ, используйте теги <thinking> для пошагового обоснования:  
<thinking>  
2–5 предложений с рассуждениями о том, сколько часов понадобилось бы для выполнения задач.  
</thinking>  

Предоставьте ответ в следующем формате:  
<answer>Число, обозначающее часы (можно использовать десятичные дроби, например 0.5 для коротких задач)</answer>  

Ассистент: <thinking>

Промпт для оценки времени взаимодействия с ИИ:

Human: Consider the following conversation:

<conversation>
{{TRANSCRIPT}}
</conversation>

Estimate how many minutes the user spent completing the tasks in the prompt with the model.
Consider:
- Number and complexity of human messages
- Time reading Claude's responses
- Time thinking and formulating questions
- Time reviewing outputs and iterating
- Realistic typing/reading speeds
- Time implementing suggestions or running code outside of the converesation (only if directly relevant to the tasks)

Before providing your final answer, use <thinking> tags to break down your reasoning process:
<thinking>
2-5 sentences of reasoning about how many minutes the user spent.
</thinking>

Provide your output in the following format:
<answer>A number representing minutes</answer>

Assistant: <thinking>
Человек: Рассмотрите следующий диалог:

<conversation>
{{TRANSCRIPT}}
</conversation>

Оцените, сколько минут пользователь потратил на выполнение задач из запроса с помощью модели.  
Учитывайте:  
- количество и сложность сообщений пользователя,  
- время на чтение ответов Claude,  
- время на размышление и формулирование вопросов,  
- время на проверку и итерации ответов,  
- реалистичные скорости печати и чтения,  
- время на реализацию предложений или запуск кода вне диалога (только если это прямо связано с задачами).

Прежде чем дать окончательный ответ, используйте теги <thinking> для пошагового обоснования:  
<thinking>  
2–5 предложений с рассуждениями о том, сколько минут, вероятно, потратил пользователь.  
</thinking>  

Предоставьте ответ в следующем формате:  
<answer>Число, обозначающее минуты</answer>  

Ассистент: <thinking>

Промпт для оценки задач в разработке ПО

Human: You are estimating software development tasks for open-source projects. Provide ONLY a number in hours (e.g., 0.3, 1.6, 15). Do not explain.
Task: {task}
Description: {description}:
Estimate (hours):
Assistant:
Человек: Вы оцениваете задачи по разработке программного обеспечения для проектов с открытым исходным кодом. Укажите ТОЛЬКО число в часах (например, 0.3, 1.6, 15). Не объясняйте.  
Задача: {task}  
Описание: {description}  
Оценка (часы):  

Ассистент:

Промпт для оценки недельной загрузки по задачам:

You are estimating how much time workers in the occupation "{occupation_title}" spend on each of their job tasks.

Below is the complete list of tasks for this occupation. For each task, estimate how many hours per week a typical worker spends on it.

Important: Don't worry about making the hours sum to exactly 40 or any specific total - we'll normalize the results afterward. Just give your best estimate for each task independently based on what seems realistic.

Tasks:
{tasks}

Return ONLY a JSON object mapping each task_id to your estimated hours per week, with no additional text, explanations, or commentary. Format:
{{
  "task_id_1": hours,
  "task_id_2": hours,
  ...
}}"""
Вы оцениваете, сколько времени работники в профессии «{occupation_title}» тратят на выполнение каждой из своих рабочих задач.

Ниже приведён полный список задач для данной профессии. Для каждой задачи оцените, сколько часов в неделю типичный работник тратит на её выполнение.

Важно: не стремитесь, чтобы сумма часов составляла ровно 40 или любое другое конкретное значение — мы нормализуем результаты позже. Просто дайте наилучшую независимую оценку для каждой задачи, исходя из реалистичных предположений.

Задачи:  
{tasks}

Верните ТОЛЬКО JSON-объект, сопоставляющий каждый task_id с оценкой количества часов в неделю. Без какого-либо дополнительного текста, пояснений или комментариев. Формат:  
{  
  "task_id_1": hours,  
  "task_id_2": hours,  
  ...  
}

Комментарии (0)