anthropic

클로드 대화로 AI 생산성 향상 추정하기

요약

클로드 실제 대화 데이터를 분석한 결과, AI는 개별 작업을 평균 80% 단축시키고, 이를 통해 향후 10년간 미국 노동 생산성 성장률을 연간 1.8%까지 높일 수 있는 잠재력이 있음을 발견했어요.

인사이트

  • 클로드 대화 분석 결과, AI는 개별 업무 시간을 평균 80% 단축시켜준대요.
  • 현재 AI 모델만으로도 향후 10년간 미국 노동 생산성 성장률을 연간 1.8%까지 높일 잠재력이 있어요. 이는 최근 성장률의 약 두 배에 해당하는 수치예요.
  • AI가 특정 작업의 효율을 크게 높여주면, 상대적으로 개선이 덜한 작업들이 새로운 병목 현상이 되어 성장을 제약할 수 있음을 시사해요.

왜 중요한가

이 연구는 실제 클로드 사용 데이터를 기반으로 AI가 현재 노동 생산성에 어떤 영향을 미치는지 구체적인 수치로 보여줘요. 현재 AI 모델만으로도 미국 노동 생산성 성장률을 두 배 가까이 끌어올릴 수 있는 잠재력을 제시하며, AI의 경제적 파급력을 이해하는 새로운 측정 방법을 제공한다는 점에서 중요해요.

클로드 대화로 AI 생산성 향상 추정하기

Claude’s estimated human completion times show high correlation across prompt variations. Prompt 1 asks Claude to estimate the time it would take an "employee with appropriate skills" to complete and Prompt 2 asks about a “human worker” who is “competent in the relevant field.” The two prompts show a log-scale correlation of 0.89, indicating high agreement. Analysis performed on Claude.ai transcripts where users have consented to share them with us for research purposes.

개요

클로드와의 실제 대화들이 AI가 노동 생산성에 미치는 영향에 대해 뭘 말해줄까요? 앤트로픽 팀은 개인 정보 보호 분석 방법을 사용해서 Claude.ai에서 이루어진 10만 개의 실제 대화 샘플을 분석했어요. 이 대화 속 작업들을 AI 도움 없이 얼마나 걸릴지, AI 도움을 받으면 얼마나 걸릴지 추정하고, 더 넓은 경제에 미칠 생산성 영향을 연구했죠. 클로드의 추정치를 보면, 이런 작업들은 AI 도움 없이 평균 90분 정도 걸리는데, 클로드는 개별 작업 속도를 약 80% 정도 높여준다고 해요.

이 추정치를 바탕으로 계산해보면, 현재 세대 AI 모델이 향후 10년간 미국 노동 생산성 성장률을 연간 1.8% 늘릴 수 있다는 의미예요. 이는 최근 몇 년간의 성장률보다 거의 두 배나 높은 수치죠. 하지만 이건 미래를 예측하는 건 아니에요. 왜냐하면 AI 도입 속도나 훨씬 더 강력한 AI 시스템이 가져올 더 큰 생산성 효과는 아직 고려하지 않았거든요.

앤트로픽 팀의 분석에도 한계는 있어요. 특히, 사용자가 클로드와의 대화 외에 추가적으로 작업에 들이는 시간(예를 들어, 클로드 작업물의 품질이나 정확성을 검증하는 시간)은 반영할 수 없다는 점이 가장 중요해요. 그래도 AI 모델들이 시간 추정 능력이 더 좋아지면, 이번 연구 노트에서 사용한 방법들이 AI가 실제 업무를 어떻게 변화시키는지 이해하는 데 점점 더 유용해질 거라고 생각해요.

앤트로픽 팀의 연구 결과에 대한 좀 더 자세한 요약은 다음과 같아요.

10만 건의 실제 대화 분석 결과, 클로드는 AI가 작업 완료 시간을 80% 줄여준다고 추정했어요. 앤트로픽 팀은 클로드를 활용해 익명화된 Claude.ai 대화 기록을 평가해서 AI의 생산성 영향을 추정했어요. 클로드의 추정치에 따르면, 사람들은 보통 평균 1.4시간이 걸리는 복잡한 작업에 AI를 사용한다고 해요. O*NET 직업 분류와 BLS 임금 데이터를 매칭해보니, 이런 작업들은 AI 없이 사람의 노동력만으로는 55달러의 비용이 들었을 거라고 추정하고 있어요. 작업의 추정 범위, 비용, 시간 절약 효과는 직업별로 크게 달라요. 클로드의 추정치에 따르면, 사람들은 법률 및 관리 업무에 클로드를 사용하는데, 이 업무는 거의 두 시간이 걸렸을 거라고 해요. 반면에 음식 준비 작업은 단 30분이면 됐을 거고요. 그리고 저희는 의료 지원 작업은 90% 더 빠르게 완료될 수 있지만, 하드웨어 문제는 56%의 시간 절약 효과를 보인다는 것을 알아냈어요. 하지만 이건 사람들이 Claude.ai 대화 에 이 작업에 들일 수 있는 시간은 고려하지 않은 거라서, 현재의 생산성 효과를 어느 정도 과대평가할 수도 있다고 생각해요. 이 결과를 경제 전체로 확장해보면, 현재 세대 AI 모델은 향후 10년간 미국 노동 생산성 성장률을 연간 1.8% 증가시킬 수 있대요. 이는 2019년 이후 미국이 경험한 연간 성장률의 두 배가 될 거예요. 그리고 이 추정치는 최근 추정치의 상단에 속하는 편이죠. 클로드의 작업 수준 효율성 향상 추정치를 전제로, 앤트로픽 팀은 표준 방법을 사용해서 향후 10년간 미국 노동 생산성이 연간 1.8% 증가할 것이라고 계산했어요. 하지만 이 추정치에는 AI 모델의 향후 개선(또는 현재 기술의 더 정교한 사용)이 반영되지 않았는데, 이는 AI의 경제적 영향을 크게 증폭시킬 수 있답니다. AI가 일부 작업을 가속화하면, 다른 작업들이 병목 현상이 될 수 있어요: 동일한 직업군 내에서도 일부 작업에서는 큰 속도 향상을 보이지만, 다른 작업에서는 훨씬 작은 효과를 보여요. AI가 덜 영향을 미치는 작업들은 병목 현상이 되어 성장을 제약하는 요소가 될 수도 있죠.

이 연구는 AI의 경제적 영향이 시간 경과에 따라 어떻게 변하는지 이해하는 새로운 관점을 제공하며, 앤트로픽 팀은 이를 '경제 지수(Economic Index)'의 일부로 계속 추적할 거예요: 실제 클로드 대화를 기반으로 이 추정치를 계산하는 것은 AI 생산성을 이해하는 새로운 시각을 제공해요. 이는 좁은 분야의 실험실 연구나 거시적인 통찰력을 제공하는 정부 통계와 같은 다른 접근 방식들을 보완해주는 거죠. 앤트로픽 팀은 AI의 능력과 채택이 계속 발전함에 따라 이 문제들에 대한 변화하는 그림을 얻기 위해 이 추정치들이 시간 경과에 따라 어떻게 변하는지 추적할 예정이에요.

An overview of our method and some of our main results. See below for how we validate Claude’s estimates, the assumptions we make, and limitations of our analysis.

서론

앤트로픽 경제 지수의 일환으로, 앤트로픽 팀은 사람들이 다양한 작업, 산업, 지역에서 클로드를 어떻게 사용하는지 기록해왔어요. 법률, 과학, 프로그래밍 작업 등 클로드 사용의 은 포착했지만, 깊이는 아직 몰랐죠. 사람들이 클로드를 사용하는 작업들은 얼마나 중요한지, 그리고 클로드가 얼마나 많은 시간을 절약해주는 걸까요?

경제 지수의 현재 버전은 이런 작업 내 이질성을 포착할 수 없어요. 예를 들어, 5분 걸리는 보고서 작성 작업과 5일 걸리는 작업을 구별할 수 없고, 오후에 끝나는 재무 모델링 작업과 몇 주 걸리는 작업을 구분할 수 없죠. 이러면 AI의 경제적 효과를 평가하기가 어려워져요. 소프트웨어 개발자가 하루에 클로드를 사용해서 열 개의 풀 리퀘스트를 작성했을 때, 아홉 개가 사소한 문서 업데이트이고 하나가 중요한 인프라 변경이라면, 단순히 클로드로 수행된 작업의 수만 세는 건 핵심을 놓치는 거거든요.

그뿐만 아니라, 모델의 능력이 향상됨에 따라 더 가치 있는 작업을 수행하는지 이해하고 싶어요. AI가 업무와 생산성을 어떻게 변화시키는지 이해하려면, 클로드가 어떤 작업을 처리하는지뿐만 아니라, 그 작업과 시간 절약이 얼마나 중요한지 알아야 해요.

여러 그룹에서 좁은 분야에서 생산성 향상을 측정하기 위해 무작위 대조군 연구를 시작했어요. 여기에는 소프트웨어 엔지니어링 작업, 글쓰기, 그리고 고객 서비스 등이 포함돼요. METR의 AI의 장기 작업 완료 능력 측정 연구는 AI 시스템이 길고 여러 단계가 필요한 도전을 독립적으로 처리할 수 있다는 것을 보여줬어요. 하지만 이런 평가는 광범위한 실제 사용보다는 좁은 범위의 문제들만 다룬다는 한계가 있죠.

AI가 경제에 미치는 전반적인 영향을 평가하려면, 수백 또는 수천 개의 실제 AI 애플리케이션을 분석할 수 있는 방법이 필요해요.

이 보고서는 그 목표를 향한 첫걸음을 내딛었어요. 클로드를 사용해서 클로드가 처리하는 작업을 인간이 완료하는 데 얼마나 시간이 걸릴지 추정하고, 이를 클로드와 인간이 함께 작업한 시간과 비교해서 AI가 얼마나 시간을 절약했는지 계산하죠. AI 모델은 사용자의 전문 지식, 작업 흐름, 제약 조건에 대한 맥락이 부족하지만, 소프트웨어 엔지니어링 작업 데이터 세트의 경우 모델이 추정한 시간이 사람이 추정한 완료 시간과 실제 기록된 완료 시간 모두와 비교했을 때 유망한 정확도를 보인다는 것을 발견했어요.

이어지는 내용에서는 작업 단위 시간 절약 효과를 추정하는 앤트로픽 팀의 방법론을 제시하고, 실제 데이터와 비교하여 접근 방식을 검증할 거예요. 그런 다음, 이 추정치를 사용해서 어떤 작업과 직업에서 AI로 인한 생산성 향상이 가장 큰지 평가할 거죠. 마지막으로, AI가 경제 전반에 걸쳐 채택되기 시작할 때 앤트로픽 팀의 작업 단위 추정치가 집계 생산성에 대해 무엇을 의미하는지 알아볼 거예요.

작업 시간 및 시간 절약 추정하기

개인 정보 보호 분석 시스템을 사용해서, 앤트로픽 팀은 Claude.ai(무료, Pro, Max 등급)의 대화 기록 10만 건을 분석하여 클로드가 처리하는 작업의 길이와 시간 절약 효과를 측정했어요. 각 작업에 대해 두 가지 핵심 추정치를 만들었죠.

AI 도움 없는 시간 추정치: AI 도움 없이 인간 전문가가 작업을 완료하는 데 필요한 시간(시 단위)

AI 도움 있는 시간 추정치: AI 도움을 받아 작업을 완료하는 데 걸린 시간

앤트로픽 팀은 각 대화에 대한 이런 추정치를 생성하기 위해 클로드를 사용했어요. 경제 지수 방법론에 따라, 각 작업의 시간 추정치 중간값을 취해서 개별 채팅 대화를 O*NET 분류 체계의 작업으로 집계했어요. 이를 통해 경제 내에서 작업과 직업에 따라 이런 시간 추정치가 어떻게 다른지 살펴볼 수 있었죠. 분류 프롬프트는 부록에 있어요.

실제 대화 기록을 분석하면 작업 내 변화를 고려할 수 있어요. 예를 들어, 제조 장비 설계 작업의 전체 비중이 고정되어 있더라도, 대화 기록 수준의 정보는 사람들이 AI를 통해 시간이 지남에 따라 더 복잡하고 장기적인 프로젝트를 처리하는지(또는 더 큰 시간 절약을 달성하는지) 알 수 있게 해줘요. 앤트로픽 팀의 경제 지수는 이런 추정치들이 시간 경과에 따라 어떻게 변화하는지 추적하고, 연구자들이 자신들의 예측과 결론을 내릴 수 있도록 집계된 데이터 세트를 공유할 거예요.

검증

작업 기간을 추정하는 건 사람에게도 악명이 높을 정도로 어려워요. AI 모델은 더 어려운 일인데, 작업의 더 넓은 맥락에 대한 중요한 정보가 부족하기 때문이죠(물론 메모리외부 통합 같은 기능이 더 포괄적으로 발전하면서 시간이 지남에 따라 이런 맥락도 증가할 것으로 예상해요). 클로드의 추정치가 유용한지 평가하기 위해, 앤트로픽 팀은 두 가지 검증 분석을 수행했어요.

자기 일관성 테스트: 먼저, 클로드가 다른 대화 샘플이나 프롬프트 변형에 걸쳐 작업 길이에 대한 안정적인 추정치를 생성하는지 평가했어요.

앤트로픽 팀은 프롬프트가 어떻게 작성되었는지에 따라 추정치가 얼마나 민감한지 평가하기 위해 여러 프롬프트 변형을 만들었어요. 예를 들어, "적절한 기술을 가진 직원"에 대해 묻는 것과 "숙련된 전문가"에 대해 묻는 식이죠. 사용자들이 대화를 공유하는 데 동의한 각 변형으로 1,800건의 대화를 분석하고, 프롬프트 변형 간의 상관관계를 계산했어요. 그 결과, 로그 스케일 상관관계가 r=0.89–0.93로 변형 간에 강한 자기 일치도를 보였어요.

Claude’s estimated human completion times show high correlation across prompt variations. Prompt 1 asks Claude to estimate the time it would take an "employee with appropriate skills" to complete and Prompt 2 asks about a “human worker” who is “competent in the relevant field.” The two prompts show a log-scale correlation of 0.89, indicating high agreement. Analysis performed on Claude.ai transcripts where users have consented to share them with us for research purposes.

외부 벤치마킹: 모델의 예측이 현실과 잘 맞지 않는다면 자기 일치도는 그다지 중요하지 않죠. 이걸 확인하기 위해, 앤트로픽 팀은 클로드의 시간 추정 능력을 오픈소스 저장소의 JIRA 티켓에서 수집된 수천 개의 실제 소프트웨어 개발 작업 데이터 세트와 비교해서 테스트했어요. 이 데이터에는 개발자 추정치와 실제 기록된 완료 시간이 모두 포함되어 있었고요.

이는 클로드에게 아주 어려운 작업이에요. 왜냐하면 클로드는 JIRA 티켓의 제목과 설명만 받을 뿐이지만, 인간 개발자들은 코드베이스와 티켓에 대한 완전한 맥락을 가지고 있고, 비슷한 작업이 완료되는 데 얼마나 걸리는지 경험해봤기 때문이죠. 이 벤치마크의 1000개 작업 중 일부에서:

인간 개발자들은 실제 시간과 스피어만 상관관계 ρ=0.50, 로그 값에 대한 피어슨 상관관계 r_log=0.67을 달성했는데, 이는 중간 정도의 강한 상관관계를 나타내요(두 값 모두 높을수록 좋아요).

클로드 소네트 4.5는 ρ=0.44, r_log=0.46을 달성했어요.

클로드 소네트 4.5에 작업 10가지와 실제 시간 길이 예시를 주었을 때는 ρ=0.39로 더 나빴지만, r_log=0.48로 개선되었어요.

이 분석은 클로드의 추정치가 소프트웨어 개발자들의 자체 추정치보다 방향성 정보 측면에서 약간 떨어질 뿐이라는 것을 시사해요. 하지만, 클로드의 추정치는 사람보다 훨씬 더 압축되어 있다는 것을 관찰했어요. 즉, 짧은 작업에 대해서는 비교적 긴 시간을 예측하고, 그 반대도 마찬가지며, 전반적으로 과대평가하는 경향이 더 많아요. 이는 작업별 실제 작업 길이의 차이가 저희가 보고한 것보다 더 클 수 있고, 실제 작업 길이는 약간 더 짧을 수 있다는 것을 의미하죠. 전반적으로, 이런 결과는 모델 예측이 적어도 이 분야에서는 실제 결과와 의미 있는 상관관계를 가지며, 한 작업을 다른 작업과 비교하거나 시간 경과에 따른 변화를 추적하는 데 유용하다는 것을 보여줘요. 또한 클로드 소네트 4와 비교했을 때 클로드 소네트 4.5에서 더 높은 상관관계를 보였는데, 이는 모델 성능이 향상됨에 따라 이러한 추정치도 계속 개선될 수 있음을 시사하죠.

Correlation of actual time spent on software engineering tasks with developer and Claude estimates. Left: correlation with developers’ initial time estimates with the final time-tracked outcomes. Developers are familiar with the full codebase and understand the full context behind the request and how long similar tasks have taken. Middle: correlation with Claude Sonnet 4.5’s estimates, given just the task title and description of the JIRA ticket. Right: Correlation with Claude Sonnet 4.5’s estimates, given 10 examples in the prompt to calibrate on. Overall, Claude’s estimates have similar directional correlation to developers: Spearman’s ρ=0.44, compared to ρ=0.50 for developers, though Claude significantly overestimates short tasks and underestimates long ones. Axes are log (base 10) scaled. Error bars are 95% CIs per bin.

결과

앤트로픽 팀은 먼저 위에서 설명한 방법으로 작업 단위 시간 절약 효과를 추정한 다음, 이를 집계하여 경제 전반에 미치는 영향을 추정했어요.

작업 단위 시간 절약 효과

Claude’s estimated task time, average hourly wage of the occupation, implied task cost, and time savings for nine different tasks. Task time is estimated by having Claude predict how long a professional would take to perform the task without AI assistance. Hourly wage is derived from the Occupational Employment and Wage Statistics (OEWS) May 2024 data. Task cost is computed by multiplying the task time by the hourly wage. Time savings is computed by estimating the time the human took to complete the task and computing 1 - time_with_ai / time_without_ai.

사례별 작업에서 다양한 시간 절약 효과가 나타나요

직업별 개별 작업을 살펴보면, AI가 언제, 어떻게 시간을 절약해줄 수 있는지 구체적인 사례를 알 수 있어요. 가장 극단적인 경우를 보면, 클로드는 4.5시간 걸릴 거라고 생각하는 교육 과정 개발 작업을 사용자들이 단 11분 만에 완료하는 걸 볼 수 있었죠. 이런 작업들은 교사의 평균 시간당 임금을 기준으로 115달러의 암묵적인 인건비가 발생할 수 있어요.

사람들은 또한 AI를 사용해서 송장, 메모 및 기타 문서를 작성하는 데 걸리는 시간의 87%를 절약해요(적어도 클로드가 처리하도록 요청받는 문서 유형에 대해서는요). 마지막으로, AI는 일반적으로 31달러의 인건비가 드는 금융 데이터 해석과 같은 재무 분석가 작업 시간을 80% 절약해줘요.

직업별로 작업 길이가 크게 달라요

사람이 추정한 시간은 클로드가 직업에 따라 매우 다른 길이의 작업을 처리한다는 것을 보여줘요. 아래 그림에서, 앤트로픽 팀은 클로드가 사용되는 작업의 하위 집합에서 각 직업 범주별 평균을 보여줘요1. 클로드가 사용되는 평균적인 관리 작업(예: 투자 선택)은 인간이 완료하는 데 2.0시간이 걸릴 것으로 추정되고, 그 다음으로 법률(1.8시간), 교육(1.7시간), 예술/미디어 작업(1.6시간) 순이에요. 스펙트럼의 다른 쪽 끝에서는, 음식 준비 작업(예: 메뉴 항목 계획 또는 가격 책정), 설치/유지보수, 운송 작업은 모두 평균 0.3-0.5시간이 걸리는데, 이는 더 제한적인 작업이거나 대기 시간이 적은 작업을 의미하죠. 클로드의 시간 추정치가 긴 작업은 과소평가하고 짧은 작업은 과대평가하는 경향이 있다는 점을 고려하면, 실제로는 이러한 차이가 훨씬 더 클 수도 있어요.

Various figures derived from Claude’s time estimates for SOC major groups. Human time estimates vary substantially across occupations — People use Claude for management and legal tasks estimated to take humans around 2h unassisted, while healthcare support and food prep tasks average around a half-hour. Average hourly wage for the occupational category is retrieved from OEWS 2024 data. Average task cost is computed by multiplying each occupation’s hourly wage by its median task time and computing an average weighted by each task’s prevalence in our sample. Time savings are computed via 1 - time_with_ai / time_without_ai.

비용 추정치는 AI 영향의 이런 차이를 증폭시켜요. 가장 긴 시간 추정치를 가진 작업들은 또한 가장 높은 인건비를 가진 작업인 경향이 있거든요. 앤트로픽 팀은 OEWS 2024년 5월 데이터에서 각 작업의 중간 시간에 해당 직업의 평균 임금을 곱해서 이런 비용 추정치를 계산했어요. 평균적인 관리 작업은 전문가에게 133달러의 비용이 들고, 법률 작업은 119달러, 음식 준비 및 서빙 관련 작업은 8달러가 들 거라고 해요. 비즈니스 및 금융 작업은 평균 69달러이고, 컴퓨터 및 수학 작업은 평균 82달러예요.

앤트로픽 팀이 관찰한 모든 작업에서, 클로드는 각 대화에서 전문가를 고용하여 작업을 수행하는 데 드는 전문 인건비가 중간값으로 54달러에 달하는 작업을 처리한다고 추정했어요. 물론, 현재 모델의 실제 성능은 많은 작업에서 인간 전문가보다 나쁠 가능성이 높지만, 최근 연구에 따르면 다양한 애플리케이션에서 그 격차가 좁혀지고 있다고 해요.

주요 직업군에 걸쳐, 앤트로픽 팀은 샘플의 작업/직업별 평균 시간당 임금과 클로드가 처리하도록 요청받는 작업의 인간 시간 등가 기간 사이에 양의 상관관계를 발견했어요. 예를 들어, 관리 및 법률 직업 범주는 평균 시간당 임금 측면에서 분류 상위권을 차지하는데, 이는 클로드의 복잡한 지식 작업 처리 능력과 일치하죠.

Correlation between average hourly wage of an occupation category and the average Claude-estimated task duration in our sample. Higher-wage occupations categories (e.g. Management and Legal) have tasks with more complex usage in our sample (r=0.8).

직업별로 시간 절약 효과가 매우 불균등해요

앤트로픽 팀의 인간 시간 및 비용 추정치는 사람들이 AI로 처리하는 작업의 규모를 포착해요. 하지만 시간 절약은 AI를 사용해서 작업이 얼마나 빠르게 완료되는지에 대한 클로드의 추정치인데, 이는 그런 작업에 AI를 사용함으로써 얻을 수 있는 생산성 향상을 반영하죠.

중간값으로 볼 때, 대화는 약 84%의 시간 절약 효과를 보였지만, 작업과 카테고리별로 상당한 차이가 있었어요. 예를 들어, 진단 이미지 확인 작업은 20%의 시간 절약만 보여주는데, 이는 AI 도움 없이도 전문가가 빠르게 할 수 있는 작업이기 때문일 거예요. 반대로, 보고서에서 정보를 취합하는 작업은 약 95%의 시간 절약 효과를 보여주는데, AI 시스템이 사람들보다 훨씬 빠르게 정보를 읽고 추출하며 인용할 수 있기 때문일 가능성이 높죠. 전반적으로 작업별 시간 절약 분포는 50-95% 범위에 집중되어 있으며, 80-90% 사이에서 정점을 찍어요.

이런 큰 시간 절약은 클로드가 사람보다 훨씬 빠르게 읽고 쓸 수 있는 능력과 일치해요. 하지만 앤트로픽 팀의 접근 방식은 사람들이 클로드의 결과물을 완성된 상태로 다듬기 위해 추가적으로 해야 하는 작업이나, 여러 세션에 걸쳐 작업 결과물을 계속 반복하는지 여부를 고려하지 않았어요. 이 두 가지 모두 시간 절약 효과를 줄일 수 있거든요. 과거 무작위 대조군 연구에서는 일반적으로 56%, 40%, 26%, 14% 심지어 마이너스 시간 절약 효과를 보였는데, 아마 이런 영향 때문이거나 초기 세대 모델을 연구했기 때문일 수도 있어요.

Density plot of time savings across O*NET tasks in our sample. We see that Claude’s estimated time savings are uneven across tasks in our sample, with most falling between 50 and 95%. The overall median savings is 81%. Time savings are computed by 1 - time_with_ai / time_without_ai. Our estimates do not take into account the time spent refining Claude’s output outside of the chat window.

작업 단위 효율성 향상에서 경제 전체 생산성 효과로

위의 추정치는 작업 단위에서 AI 주도 생산성 향상을 포착한 거예요. 거시적인 영향을 이해하기 위해, 이 섹션에서는 클로드의 추정치에 따라 이런 이득이 경제 전체에 어떻게 집계될 수 있는지 모델링했어요.

방법론

경제 전체의 생산성 효과를 추정하기 위해, 앤트로픽 팀은 헐텐의 정리(Hulten’s theorem)를 사용했어요. 이건 작업 단위의 효율성 향상을 더 넓은 미국 경제로 집계할 수 있게 해주는 표준적인 방법이에요2. 아세모글루(Acemoglu, 2024)의 "기본" 접근 방식처럼, 앤트로픽 팀은 노동 생산성의 암묵적 증가를 작업 단위 생산성 향상에 대한 가중 평균으로 모델링했어요. 이는 AI 도입과 관련된 총요소생산성(TFP) 증가로 인해 자본 투자가 증가할 것이라고 암묵적으로 가정하는 모델링 선택이죠. 이 프레임워크에서, 암묵적 총요소생산성 증가는 노동 생산성 증가에 소득의 노동 분배율을 곱한 값이에요3.

작업 구성: 각 직업에 대해, 앤트로픽 팀은 O*NET에서 작업 목록을 가져왔어요. 그런 다음 클로드를 사용해서 작업자들이 각 작업에 얼마나 많은 시간을 할애하는지 추정했죠. 예를 들어, 클로드는 프로그래머들이 시간의 23%를 코드 작성 및 유지보수에, 15%를 프로그램 분석 및 재작성에, 그리고 더 적은 비중을 테스트, 문서화, 회의에 쓴다고 추정해요.

작업 단위 생산성 개선: 이전 섹션에서, 앤트로픽 팀은 AI 도움을 받아 각 작업이 얼마나 더 빠르게 완료되는지 계산하는 데 사용할 수 있는 추정치를 제공했어요. 생산성 개선 값을 생성하기 위해 AI 없이 걸리는 시간과 AI 와 함께 걸리는 시간 사이의 로그 차이를 취하고, 샘플에서 관찰되지 않은 작업에는 보수적으로 개선이 없다고 할당했어요.

경제 전체 추정치: 앤트로픽 팀은 각 작업의 암묵적인 생산성 향상을 두 가지 요소를 사용해서 경제적 중요도에 따라 가중치를 부여했어요. (i) 클로드가 해당 직업이 그 작업에 할애하는 시간의 비율(위와 같음), 그리고 (ii) 해당 직업이 미국 전체 임금 총액에서 차지하는 비율(해당 직업군에 고용된 사람 수에 평균 임금을 곱한 다음, 모든 직업군의 총 임금 총액으로 나눈 값)이에요. 총 임금 총액에는 2024년 5월 OEWS 데이터를 사용했어요. 이 접근 방식은 클로드가 생성하는 시간 추정치가 각 작업의 모든 사례에 걸쳐 신뢰할 수 있는 평균을 나타내며, 클로드 또는 유사한 AI 시스템이 미국 경제 전체에 채택될 것이라고 암묵적으로 가정해요.

US economy-wide labor productivity impact: top ten occupations. Overall, Claude’s estimates imply a 1.8% annualized increase (dotted line) in US labor productivity assuming current AI systems were adopted universally for all tasks we observe, driven by software, management, marketing, and customer service tasks. This corresponds to an implied 1.08% annualized increase in TFP. The average ln(time estimate ratio) represents the time-weighted productivity gain across all tasks in each occupation, where time estimate ratio = time with AI / time without AI. Labor statistics derived from OEWS 2024 data.

연구 결과

미국 경제 전반에 AI가 보편적으로 채택되는 데 10년이 걸린다고 가정하고(현재 모델을 사용해서요), 앤트로픽 팀은 클로드의 추정치가 미국 노동 생산성을 연간 1.8% 증가시킬 수 있다고 계산했어요. 이는 1947년 이후 연평균 2.1%, 2019년 이후 1.8%를 기록한 현재의 장기 성장률을 거의 두 배로 늘리는 거죠. 총요소생산성(TFP)에서 노동의 비중이 0.64라고 가정하면, 이는 전체 총요소생산성이 연간 1.1% 증가한다는 의미예요. 2000년대 초반 이후 총요소생산성 성장이 1% 미만인 경향이 있었다는 점을 감안하면, 이런 추정치는 현재 AI 시스템의 광범위한 배포만으로도 성장을 두 배로 만들 수 있다는 것을 시사해요. 즉, 1990년대 후반과 1960년대, 1970년대의 성장률을 달성할 수 있다는 거죠5.

작업 단위 효율성 향상으로 인해 암시되는 이런 집계 노동 생산성 증가는 AI가 생산성에 미칠 잠재적 영향에 대한 최근 추정치 범위 내에 있지만, 상단에 가깝게 위치해요 (Filippucci, Gal, and Schief, 2024).

중요하게도, 이 연구는 AI 능력(그리고 AI를 사용하는 인간의 효율성)이 샘플을 추출했을 때와 동일하게 향후 10년간 유지된다고 가정해요. 하지만 이건 현실적이지 않을 것 같아요. 앤트로픽 팀은 AI가 향후 몇 년 동안 계속 빠르게 발전할 것이라고 생각하거든요.

따라서 이 추정치는 현재 사용 패턴을 기반으로 어떤 일이 일어날 수 있는지 탐색하는 연습으로 받아들여야 해요. 실제로 가장 가능성이 높은 생산성 영향에 대한 예측은 아니라는 거죠. 다른 연구에서도 언급했듯이, 앤트로픽 팀은 AI가 심각한 노동 시장 혼란을 야기할 가능성에 대해 매우 경계하고 있으며, 이는 AI로 인한 더 큰 생산성 증가와 관련될 가능성이 높아요. 모델이 발전함에 따라, 이는 AI 생산성 효과의 대략적인 하한선을 나타낼 수 있지만, 앤트로픽 팀의 추정치는 채택의 불균형을 고려하지 않았는데, 이는 단기적으로 실제 생산성 향상을 줄일 수도 있어요.

Labor productivity growth in the nonfarm business sector. The chart shows five year moving averages of the year-over-year percent change in labor productivity. We see a general decline from almost 3% in the 1960s to around 1.5% the last few years.

일부 작업과 직업이 앤트로픽 팀 데이터에서 다른 것보다 훨씬 더 자주 나타난다는 사실을 반영해서, 앤트로픽 팀은 직업이 노동 생산성에 기여하는 방식에서도 비슷한 현상을 관찰했어요. 소프트웨어 개발자가 AI로 인한 총 노동 생산성 향상에 가장 많이 기여하고(19%), 일반 및 운영 관리자(약 6%), 시장 조사 분석가 및 마케팅 전문가(5%), 고객 서비스 담당자(4%), 중등 학교 교사(3%)가 상위 5위를 차지했어요.

반대로, 레스토랑, 의료 서비스, 건설, 소매업은 전반적인 생산성 효과에 훨씬 적게 기여해요. 이는 주로 이런 직업들의 작업이 앤트로픽 팀의 데이터에 거의 나타나지 않기 때문인데, 대부분의 경우 샘플에 이런 직업과 관련된 작업이 거의 없었기 때문이죠.

AI가 작업자들이 시간을 보내는 방식을 어떻게 바꿀 수 있을까요?

만약 작업자들이 AI로 직업 관련 작업의 일부를 가속화할 수 있다면, AI가 속도 향상에 덜 기여하는 작업들이 해당 직업 업무에서 더 큰 비중을 차지하게 되면서 중요해질 수 있어요. 예를 들어, AI가 주택 검사관이 보고서를 준비하는 데 도움을 줄 수는 있지만, 검사관이 여전히 현장 검사를 위해 직접 이동하는 데 동일한 시간을 들여야 한다면, 전체 업무에서 검사 업무가 차지하는 비중이 더 커질 수 있죠.

아래 그림은 몇몇 직업에 대해 이 점을 보여줘요. 소프트웨어 개발자의 경우, AI는 소프트웨어 개발, 테스트, 문서화, 데이터 조작 과정을 가속화하죠. 하지만 앤트로픽 팀은 현재 시스템 설치를 조율하거나 다른 기술자나 엔지니어의 작업을 감독하는 데 AI가 의미 있게 사용되는 것을 보지 못했어요. 교사의 경우, AI가 수업 및 활동 계획을 돕는 것을 볼 수 있지만, 방과 후 클럽 후원이나 교실 규칙 시행에는 사용되지 않아요.

성장 관점에서 볼 때, 이런 관찰 결과는 아기옹(Aghion), 존스(Jones), 존스(Jones)의 최근 관찰과 잘 일치해요: "성장은 우리가 잘하는 것에 의해 제약되는 것이 아니라, 필수적이지만 개선하기 어려운 것에 의해 제약될 수 있다."

Four different occupations along with “accelerated” tasks that show large potential time savings, and potential “bottleneck” tasks that do not appear in our sample. For example, software engineers see large estimated time savings in developing and debugging software, but not in supervising programmers. Weekly time fractions are estimated by Claude (see previous section).

한계점

앤트로픽 팀의 접근 방식에는 몇 가지 한계점이 있는데, 이 주제에 대한 추가 연구가 필요하다고 생각해요.

클로드의 예측은 불완전하고, 클로드의 시간 추정치에 대한 실제 검증 데이터가 부족해요: AI 시스템은 불완전한 예측자이고, 사용자가 모델과의 상호 작용을 마친 후 발생하는 활동을 볼 수 없어요. 모델 성능이 향상됨에 따라 이런 추정치도 개선될 것으로 예상하지만, 모델 추정치를 사용하는 것은 상당한 노이즈를 유발해요. 앤트로픽 팀의 추정치는 모델이 작업 시간을 추정하는 데 있어 인간의 성능에 접근하고 있음을 보여주지만(인간 자신도 완벽하지는 않지만요), 클로드가 제공하는 추정치를 검증할 실제 데이터가 부족하죠. 작업 분류의 한계: 실제 직업은 O*NET 작업 목록보다 훨씬 복잡하며, 각 작업에 할당된 시간은 대략적인 추정치에 불과해요. 암묵적 지식, 관계, 불확실성 하에서의 판단 등 업무의 많은 중요한 측면은 이런 공식적인 작업 설명에 나타나지 않으며, 개별 작업의 시간 절약만큼이나 또는 그 이상으로 작업 간의 연결이 생산성에 중요할 수 있어요. 앤트로픽 팀은 개별 작업에서 큰 시간 절약 효과를 예측했지만, 최근 무작위 대조군 연구에서는 엔드투엔드 소프트웨어 기능 연구에서 AI로 인한 시간 절약 효과를 보지 못했어요. 구조적 가정: 위 계산에서, 앤트로픽 팀은 AI 없이 전문가가 특정 작업을 완료하는 데 걸리는 시간과 AI와 함께 걸린 시간을 비교했어요. 하지만 이는 생산성 향상을 과소평가할 수도 있어요. 왜냐하면 직원을 고용하고 맥락을 전달하는 데 드는 추가 자원을 고려하지 않았기 때문이죠. 반대로, AI 작업의 품질이 사람보다 나쁘다면 과대평가할 수도 있고요. 조직 재편성: 역사적으로, 개별 기업의 가장 큰 생산성 향상은 새로운 기술을 채택하기 위해 사업 운영을 재편성하면서 나타났어요. 앤트로픽 팀의 모델은 이런 재편성의 효과를 예측하는 데 도움을 줄 수 있지만, 기업이 어떻게 재편성하기로 결정할지, 또는 이 과정이 얼마나 빨리 일어날지는 예측할 수 없어요. 혁신의 역할: 기술 혁신은 경제 성장의 원동력이에요. 앤트로픽 팀의 모델은 AI 시스템이 과학적 과정을 어떻게 가속화하거나 심지어 자동화할 수 있는지, 또는 그것이 생산성, 성장, 그리고 작업 구조에 미칠 영향을 포착하지 못해요. 제한된 데이터: 앤트로픽 팀의 데이터 세트는 Claude.ai 대화에서만 파생된 거예요. 이 샘플은 AI 사용의 전체 스펙트럼을 대표하지 않으며, 사람들이 클로드를 사용하는 작업 사례는 클로드가 가장 유용할 것이라고 생각하는 것들일 가능성이 높아서 선택 효과가 있을 수 있어요. 또한, 유한한 샘플 크기 때문에 덜 일반적인 AI 작업을 놓쳤을 가능성도 있어요.

앤트로픽 팀이 개발한 측정 인프라는 대규모로 AI가 시간 절약에 미치는 영향을 지속적으로 추적할 수 있게 해줘요. 모델이 개선되고 더 나은 방법들이 이런 한계점들을 해결함에 따라, 앤트로픽 팀은 이런 시간 절약 효과를 재추정하고 이런 능력 개선이 더 넓은 경제적 영향으로 어떻게 전환되는지 파악할 수 있을 거예요. 앤트로픽 팀은 앞으로 몇 달, 몇 년 안에 이런 변화들을 추적할 예정이에요.

결론

클로드는 몇 분이면 끝날 간단한 음식 준비 질문부터 여러 시간 걸릴 복잡한 법률 및 관리 업무에 이르기까지, 매우 다양한 복잡성의 작업을 처리해요. 그런데 이런 작업의 전체적인 효과는 어떨까요?

클로드의 작업별 시간 추정치(그리고 향후 10년간 보편적인 채택을 가정했을 때)를 바탕으로, 앤트로픽 팀은 현재 모델 사용이 미국 노동 생산성을 연간 1.8% 증가시킬 잠재력을 의미한다는 것을 발견했어요. 이는 최근 노동 생산성 성장률의 두 배에 달하는 수치죠. 현재 AI 사용을 기준으로 볼 때, 이런 이득은 기술, 교육, 전문 서비스 분야에 집중될 것이고, 소매, 레스토랑, 운송 부문은 최소한의 영향을 볼 거예요. 앤트로픽 팀은 경제 지수의 일부로 이런 변화들을 계속 추적할 예정이에요.

하지만 역사적으로 볼 때, 전력화, 컴퓨팅, 인터넷에서 비롯된 혁신적인 생산성 향상은 오래된 작업을 빠르게 하는 것에서 온 것이 아니라, 생산 방식을 근본적으로 재편성하는 것에서 나왔어요. 이런 미래에서는 AI가 기능 구현을 빠르게 할 뿐만 아니라, 기업들이 AI를 사용하든 다른 수단을 사용하든, 회의와 코드 검토를 재구성하여 기능을 더 빠르게 검증하고 출시할 거예요.

앤트로픽 팀의 프레임워크는 이런 재편성의 효과를 추정하는 데 도움을 줄 수 있지만, 어떤 변화가 언제 얼마나 빨리 일어날지는 예측할 수 없어요. 미래 연구의 중요한 방향은 이 질문을 이해하는 거예요. 기업들이 새로 등장하는 AI 능력을 중심으로 언제 어떻게 스스로를 재편성하고 있는지 더 잘 이해하는 거죠. 그 답은 AI가 중요하지만 제한적인 생산성 향상 단계를 넘어, 역사적으로 기술 혁명을 정의했던 종류의 구조적 변화를 나타내는 시기를 결정할 거예요.

Bibtex

이 글을 인용하고 싶다면, 다음 Bibtex 키를 사용하시면 돼요:

@online{tamkinmccrory2025productivity,
author = {Alex Tamkin and Peter McCrory},
title = {Estimating AI productivity gains from Claude conversations},
date = {2025-11-05},
year = {2025},
url = {https://www.anthropic.com/research/estimating-productivity-gains},
}

부록

클로드의 추정치와 다른 추정치 비교

Claude’s estimated human completion times show high correlation across prompt variations. Prompt 1 asks Claude to estimate the time it would take an "employee with appropriate skills" to complete and Prompt 2 asks about a “human worker” who is “competent in the relevant field.” The two prompts show a log-scale correlation of 0.89, indicating high agreement. Analysis performed on Claude.ai transcripts where users have consented to share them with us for research purposes.

0

시간 추정에 사용된 프롬프트

인간 시간 추정 프롬프트

Human: 다음 대화를 고려해주세요:
<conversation>
{{TRANSCRIPT}}
</conversation>
어시스턴트가 수행한 작업을 유능한 전문가가 완료하는 데 몇 시간이 필요할지 추정해주세요.
전문가는 다음을 갖추고 있다고 가정합니다:
- 필요한 도메인 지식과 기술
- 모든 관련 맥락 및 배경 정보
- 필요한 도구 및 리소스에 대한 접근 권한
최종 답변을 제공하기 전에, <thinking> 태그를 사용해서 추론 과정을 단계별로 설명해주세요:
<thinking>
작업을 완료하는 데 몇 시간이 필요할지 추정하는 2-5문장의 추론.
</thinking>
다음 형식으로 결과물을 제공해주세요:
<answer>시간을 나타내는 숫자 (짧은 작업의 경우 0.5와 같은 소수점 사용 가능)</answer>
Assistant: <thinking>

상호 작용 시간 추정 프롬프트

Human: 다음 대화를 고려해주세요:
<conversation>
{{TRANSCRIPT}}
</conversation>
사용자가 모델과 함께 프롬프트의 작업을 완료하는 데 몇 분을 보냈을지 추정해주세요.
다음 사항을 고려해주세요:
- 인간 메시지의 수와 복잡성
- 클로드의 답변을 읽는 시간
- 질문을 생각하고 구성하는 시간
- 결과물을 검토하고 반복하는 시간
- 현실적인 타이핑/읽기 속도
- 대화 외부에서 제안을 구현하거나 코드를 실행하는 시간 (작업과 직접적으로 관련이 있는 경우에만)
최종 답변을 제공하기 전에, <thinking> 태그를 사용해서 추론 과정을 단계별로 설명해주세요:
<thinking>
사용자가 몇 분을 보냈는지에 대한 2-5문장의 추론.
</thinking>
다음 형식으로 결과물을 제공해주세요:
<answer>분을 나타내는 숫자</answer>
Assistant: <thinking>

소프트웨어 개발 시간 추정 프롬프트

Human: 당신은 오픈소스 프로젝트의 소프트웨어 개발 작업을 추정하고 있습니다. 시간 단위로 숫자만 제공해주세요 (예: 0.3, 1.6, 15). 설명은 하지 마세요.
작업: {task}
설명: {description}:
추정치 (시간):
Assistant:

작업 시간 추정 프롬프트

당신은 직업 "{occupation_title}"의 작업자들이 각 업무에 얼마의 시간을 보내는지 추정하고 있습니다.
아래는 이 직업의 전체 작업 목록입니다. 각 작업에 대해, 일반적인 작업자가 일주일에 몇 시간을 보내는지 추정해주세요.
중요: 시간이 정확히 40시간이 되거나 특정 총합이 되도록 걱정하지 마세요. 결과는 나중에 정규화될 것입니다. 그저 현실적이라고 생각되는 각 작업에 대해 독립적으로 최선의 추정치를 제공해주세요.
작업:
{tasks}
추가 텍스트, 설명 또는 주석 없이 각 task_id를 주당 예상 시간으로 매핑하는 JSON 객체만 반환하세요. 형식:
{{
"task_id_1": hours,
"task_id_2": hours,
...
}}"""

각주

  1. 클로드는 시간 범위와 비용 모두에서 이상치 추정치를 생성하는 경향이 있어요. 예를 들어, 일부 프로그래밍 작업을 인간이 완료하는 데 수년이 걸리거나 수백만 달러의 가치가 있다고 분류하기도 하죠. 물론 이런 일이 가능하긴 하지만, 더 보수적인 추정치를 내기 위해 앤트로픽 팀은 각 작업의 중간값 평균을 취하고, 각 작업의 대화 수에 따라 가중치를 부여했어요.

  2. 헐텐의 정리(Hulten’s theorem)는 왜곡 없는 경쟁 균형 상태에서 미시적 생산성 향상이 총요소생산성에 기여하는 바가 1차 근사치로 해당 생산 요소의 도마르 가중치에 비례한다고 말해요. 어떤 요소의 도마르 가중치는 총생산 가치의 GDP 대비 비율이죠. 아세모글루(Acemoglu, 2024)가 제시한 작업 기반 모델에서, 노동 집약적 작업에 대한 작업의 도마르 가중치는 해당 작업의 임금 총액 비중에 소득의 노동 분배율을 곱한 값과 같아요. 헐텐의 정리의 최근 처리 및 확장에 대해서는 바카이(Baqaee)와 파리(Farhi)(2019)를 참고하세요. 공식적으로 헐텐의 정리는 총요소생산성(TFP)의 로그 변화가 미시적 생산성 로그 변화에 대한 도마르 가중 합계와 같다고 명시해요.

앤트로픽 팀의 경우, 로그 변화는 ln(AI 없는 완료 시간)에서 ln(AI 있는 완료 시간)을 뺀 것으로 취했어요.

  1. 총요소생산성(TFP) 증가는 노동 생산성 증가보다 더 근원적이에요. 노동 생산성은 작업자당 생산량의 비율이며, 총요소생산성이 변하지 않더라도 노동 이외의 다른 생산 요소 증가로 인해 증가할 수 있죠.

  2. 아세모글루(Acemoglu, 2024)는 AI에 노출된 산업의 노동 분배율을 0.57로 계산했어요. 앤트로픽 팀은 이 값이 가깝다는 점을 고려하여 단순화를 위해 경제 전체의 분배율인 0.6을 사용했어요.

  3. 총요소생산성(TFP)에 대한 역사적 데이터는 샌프란시스코 연방준비은행의 추정치를 참고하세요: https://www.frbsf.org/research-and-insights/data-and-indicators/total-factor-productivity-tfp/. 2015년부터 2024년까지 총요소생산성의 평균 성장은 0.7%였어요. 20년 전인 1995년부터 2004년까지 총요소생산성 평균 성장률은 1.6%였죠.

관련 콘텐츠

사회 과학 분야의 코딩 에이전트

1,260명의 사회 과학자들을 대상으로 AI 및 코딩 에이전트 사용에 대해 설문 조사한 결과예요.

더 읽어보기

프로젝트 글래스윙: 초기 업데이트

프로젝트 글래스윙을 통해 배운 점에 대한 초기 업데이트예요.

더 읽어보기

2028: 글로벌 AI 리더십을 위한 두 가지 시나리오

미국과 중국 간의 AI 경쟁에 대한 앤트로픽 팀의 견해예요.

더 읽어보기

anthropic · 원문 보기 · 2025-11-25

이 글은 원문을 한국어로 번역한 것입니다. 저작권은 원 저작자에게 있습니다.