Codex로 자기 개선형 세무 에이전트 구축하기

2026-05-27

요약

Thrive Holdings와 OpenAI가 전문 회계사의 도메인 지식과 Codex의 에이전틱 기능을 결합해 세무 신고를 자동화하는 Tax AI를 만들었고, 이 시스템은 생산 데이터를 기반으로 스스로 개선됩니다.

인사이트

세 가지 핵심 요소: 실무자 피드백, 생산 추적 데이터, Codex 기반 개선 루프를 통해 에이전트가 지속적으로 자가 개선됨
생산 추적 데이터를 활용해 실무자의 수정 내역을 구조화된 평가 데이터로 변환, Codex가 직접 버그를 찾고 수정하도록 함
임대 부동산 예시에서 6주 만에 정밀도와 재현율 90% 달성, 이후 다른 복잡한 스케줄로 확장 가능해짐

왜 중요한가

기존에는 엔지니어가 수동으로 버그를 찾고 수정해야 했지만, 이 접근법은 실무자의 일상적인 작업을 피드백 신호로 전환해 에이전트가 스스로 학습하고 개선하게 합니다. 이는 세무뿐 아니라 회계, IT 헬프데스크 등 다양한 도메인으로 확장 가능한 패러다임입니다.

#AI #자율시스템 #세무

Codex로 자기 개선형 세무 에이전트 구축하기

Thrive Holdings와 OpenAI가 크레이트(영국 회계법인) 회계사를 위해 실무자 전문성과 Codex 기반 루프를 융합해 Tax AI를 공동 개발한 방법

실제 시스템은 연구실에서와는 다르게 동작하고, 배포 전에 예측하기 어려운 방식으로 고장납니다. 팀들은 보통 출시 후에야 그런 실패를 발견하고, 몇 주를 들여 에지 케이스를 검사하고 프롬프트를 조정하며, 생산 피드백을 지속 가능한 제품 개선으로 전환합니다. 피드백 루프는 수동적이고 느리며, 엔지니어가 개선할 때만 진전이 있습니다. 하지만 오늘날, 신중하게 설계된 평가 인프라, 실무자와 실제 환경에 대한 직접 접근, 그리고 Codex의 최첨단 에이전틱 기능을 활용하면, 스스로 개선하는 에이전트를 구축할 수 있습니다.

이 글에서는 Codex를 사용해 이런 유형의 에이전트를 어떻게 구축했는지 자세히 설명합니다. 지난 6개월 동안, OpenAI의 선행 배치 엔지니어와 연구자, 그리고 Thrive Holdings의 엔지니어들은 Crete의 30개 이상 회계 법인 네트워크를 위해 Tax AI를 공동 구축했고, 이를 통해 점점 더 복잡해지는 세무 신고서 작성을 지원했습니다. 엔지니어가 모든 실패를 찾아 수정하는 대신, Tax AI는 Codex를 사용해 생산 사용을 구조화된 신호로 전환하고, 그 신호가 자율적인 개선을 추진합니다.

Crete의 실무자들은 매 시즌 수만 건의 세무 신고서를 준비하는데, 이 과정에서 수백만 개의 기반 문서를 처리해야 합니다. 중간~고난이도 신고의 경우, 데이터 입력만으로도 신고서당 8시간이 걸릴 수 있고, 여기에는 지저분한 데이터 소스, 전년도 문서, 수동 추출 및 계산이 포함됩니다. 그들은 세무 준비가 세금 시즌 가장 바쁜 시기에 주요 병목 지점이라고 지적했습니다.

이 문제를 해결하기 위해, Tax AI는 이번 세금 시즌 파일럿에 참여한 Crete 회계 법인들에서 7,000건의 세무 신고서를 처리했습니다. 이 시스템은 1040 및 1041 세무 신고서 준비의 시간 소모적인 과정 중 상당 부분을 자동화했지만, 효율성 향상보다 더 흥미로운 점은 시스템 자체가 3개월 전 처음 배포된 버전보다 측정 가능하게 더 좋아졌다는 것입니다.

측정 가능한 자기 개선

Tax AI에서 실무자는 소스 파일과 클라이언트별 메모를 업로드합니다. 그러면 Tax AI가 세무 엔진 제출물을 생성하고, 검토 준비가 완료됩니다. 실무자의 세무 준비 시간을 약 1/3 절약하고, 최대 97% 정확도로 신고서를 작성하며, 처리량을 약 50% 증가시켜 클라이언트와 보낼 시간을 더 확보해줍니다.

이 개선을 정량화하기 위해, Tax AI가 나중에 수정이 필요 없이 신고서를 얼마나 정확하게 완료할 수 있는지 측정합니다. 필드 완성률 75%, 90%, 100%에 도달한 신고서 비율을 확인하여 정확도를 측정합니다. 출시 당시에는 신고서의 4분의 1만이 75% 필드 완성률에 도달했지만, 6주 이내에 86%가 그 기준을 달성했습니다. 시스템은 90% 및 100% 필드 완성률 수준에서 더 빠른 성장을 보였습니다. 이러한 임계값은 각 신고서에 얼마나 많은 실무자 후속 작업이 필요한지에 대한 실용적인 시각을 제공합니다.

초기에는 Tax AI가 W-2와 1099 같은 간단한 작업을 처리했습니다. 시즌이 진행되면서 K-1, 스케줄, 더 어려운 에지 케이스가 포함된 더 복잡한 신고서로 이동했습니다. 각 새로운 기능은 이전보다 신고서당 더 많은 시간을 절약해주었는데, 그 이유는 맡은 작업이 더 어렵고 수동으로 더 시간이 많이 걸렸기 때문입니다. 오늘날에도 지속적인 진전이 계속되고 있습니다.

다음으로, 우리 팀이 어떻게 Tax AI를 자기 개선형으로 공동 엔지니어링했는지, 세 가지 핵심 기둥에 의존하여 설명하겠습니다: 1) 전문 실무자 피드백, 2) 생산 추적(입력부터 최종 출력까지의 구조화된 이력), 3) 맞춤형 평가를 기반으로 한 Codex 기반 반복 루프로, 지속적이고 빠른 제품 개발을 가능하게 합니다. 우리의 경험이 실무자 전문성이 전체 시스템과 이를 통해 흐르는 데이터의 품질을 형성하는 데 핵심인 다른 도메인의 빌더들에게 유용하길 바랍니다.

Tax AI가 더 복잡한 신고서로 확장됨에 따라, 75%, 90%, 그리고 완전 완성에 도달한 점수화된 신고서의 비율이 세금 시즌 내내 계속 상승했습니다.

문제

세무 준비의 더 어려운 부분(K-1, 임대 부동산 스케줄, 그리고 여러 소스 파일에서 값을 조정해야 하는 세금 양식)으로 밀고 나가면서, 실제 과제는 제품이 복잡한 생산 실패를 가시적이고 이해 가능하며 실행 가능하게 만들 수 있는지 여부라는 것이 분명해졌습니다.

제품 초기에는 대부분의 수정이 수동이었습니다. 실무자가 시스템 오류를 수정할 수 있었지만, 제품은 전체 맥락을 포착하지 못했습니다: 신고 전에 변경된 값은 실제 추출 누락, 매핑 문제, 제품 지원 부족, 또는 예상된 워크플로우 노이즈를 반영할 수 있었습니다. 이러한 경우를 분류하려면 여전히 엔지니어링 팀의 후속 작업이 필요했습니다. 엔지니어가 코딩 에이전트를 사용할 수는 있었지만, 시스템이 개선 루프 내에서 AI를 의미 있게 사용하도록 설계되지 않았습니다. 우리는 올바른 언덕을 식별할 신호가 없었습니다.

우리의 접근법: 세 부분으로 구성된 루프

이것이 우리가 시스템을 세 가지 기둥으로 설계하게 된 이유입니다:

실무자와 가까이 있기: 작업을 수행하는 사람들이 제품이 학습하는 방향을 정해야 합니다. 그들의 직관과 이해는 어떤 오류가 중요한지 드러내고, 워크플로우의 어떤 부분을 다음에 집중할 가치가 있는지 알려줍니다.
생산이 증거를 생성하도록 제품 구축하기: 제품은 입력과 출력 이상을 캡처해야 합니다. 소스 자료부터 추출된 필드와 출처, 다운스트림 제출 및 전문가 수정까지의 전체 경로를 캡처해야 합니다.
Codex 기반 개선 루프 만들기: 생산 문제가 가시화되고 구조화되면, 그것들은 조사 결과, 맞춤형 평가, 범위가 지정된 엔지니어링 작업이 될 수 있습니다. 그러면 Codex가 조사, 변경 제안, 대상 평가 및 회귀 평가에 대한 검증을 돕고, 순수 수동 반복 주기보다 더 빠르게 제품을 발전시킬 수 있습니다.

아래 임대 부동산 예시는 이 루프가 실제로 어떻게 작동하는지 보여주며, 실무자 수정이 어떻게 구조화된 조사 결과가 되고, 평가 대상이 되고, 마지막으로 Codex 범위의 엔지니어링 작업이 되는지 안내합니다.

임대 부동산 예시

임대 부동산 소득은 개인 세무 신고서의 Schedule E에 보고됩니다. 엔지니어링 관점에서 추출 작업은 설명하기는 간단하지만 잘 수행하기는 어렵습니다. 시스템은 지저분한 소스 자료(손글씨 메모, 이메일, 스프레드시트 및 기타 클라이언트 파일)를 읽고, 세무 엔진에 자신 있게 매핑할 수 있는 임대 부동산 필드를 추출하며, 실무자가 결과를 승인하거나 수정할 수 있는 충분한 증거를 보존해야 합니다. 아래 간소화된 예시는 소스 파일과 추출된 출력이 어떻게 보일 수 있는지 보여줍니다.

임대 부동산 소스 패키지가 인용된 필드로 정규화된 후, 다운스트림 세무 엔진 개념에 매핑됩니다.

1. 실무자 수정이 실패를 드러냄

에이전트가 예측한 값과 제출된 세무 신고서의 실제 값 간의 차이는 실제 추출 누락을 반영할 수 있지만, 실무자 선호도, 세무 엔진에서 이전 연도 신고서에서 이월된 값, 또는 신고 워크플로우의 다른 곳에서 도입되거나 변경된 값일 수도 있습니다. 실무자들이 우리가 이러한 경우를 식별하여, 어떤 조치가 실무자 수정을 필요로 하거나 제출을 차단하는지 파악할 수 있도록 도왔습니다.

이러한 수정을 세부적으로 볼 수 있었기 때문에, 우리는 검토 프로세스를 최종적인 사후 실패 단계에서 지속적인 학습 주기로 전환했습니다. 워크플로우를 설계하여 전문가의 행동을 구조화된 데이터로 캡처했습니다. 이제 모든 개입은 Tax AI가 제안한 것, 실무자가 수정한 것, 그리고 최종적으로 제출된 신고서에 들어간 것을 정확히 기록함으로써 제품의 개선 루프에 공급됩니다.

2. 제품 추적이 수정을 평가로 전환

임대 부동산과 같은 복잡한 워크플로우의 경우, 시스템은 소스 파일과 제출된 신고서 사이에서 발생하는 일을 보존해야 합니다. 그 경로를 따라 문서가 정리되고, 분할되고, 분류됩니다. 임대 부동산 필드가 소스 자료에 대한 인용과 함께 추출되고, 그 값들이 세무 엔진에 매핑되며, 실무자가 여전히 신고 전에 수정할 수 있습니다. 이러한 제품 수준의 추적은 실패가 발생한 위치를 조사하는 것을 가능하게 합니다. 실무자 수정을 유용한 평가 대상으로 전환하기 위해, 시스템은 세 단계로 처리합니다:

차이 캡처: Tax AI의 출력이 제출된 신고서와 비교되어 필드 수준 검토 행을 생성하며, 여기에는 예상 값, 예측 값, 차이가 실행 가능한지 여부가 포함됩니다.
관련 실패 그룹화: 유사한 검토 행이 그룹화되어 반복되는 제품 실패와 예상 워크플로우 노이즈를 분리합니다. 예를 들어, 반복되는 실무자 수정은 Tax AI가 종종 공정 임대 일수 필드를 놓치거나, "기타 비용"을 잘못 처리하거나, 동일한 소스 패키지에서 여러 임대 부동산을 혼동한다는 것을 보여줄 수 있습니다.
반복 패턴을 평가 대상으로 전환: 검토되고 측정되면, 반복되는 조사 결과는 Codex가 개선할 명확한 평가 대상이 됩니다.

임대 부동산 검토 행은 반복되는 제품 실패와 예상 노이즈를 분리한 후, 실행 가능한 사례를 Codex가 오를 언덕으로 삼을 평가 대상으로 전환합니다.

3. 조사 결과가 Codex가 오를 언덕이 됨

세 번째 기둥은 이러한 새로운 평가에 대해 행동할 수 있는 엔지니어링 루프를 만드는 것입니다. 이것이 Codex가 중심이 되는 곳입니다.

평가 파이프라인이 Tax AI가 일관되게 "공정 임대 일수" 필드를 놓치고, 실무자가 이를 꾸준히 채우는 것을 플래그한다고 가정해 보겠습니다. 이 조사 결과는 이미 대상 평가 세트로 패키징되었고, 대표적인 소스 패키지와 예상 출력이 있기 때문에, Codex는 제품 스캐폴드 내에서 직접 근본 원인을 조사할 수 있습니다.

Codex는 단순히 품질이 낮은 최종 출력만으로 작업하지 않습니다. 추적, 평가, 저장소 및 스킬을 함께 검사합니다:

파이프라인 조사: 소스 패키지, 추출 스키마, 매퍼 동작, 코드 경로를 검사하여 문제가 지원되지 않는 필드인지, 누락된 추출 패턴인지, 소스 선택 문제인지, 매퍼 갭인지, 또는 평가자 문제인지 확인합니다.
대상 수정 구현: 추출 스키마 확장, 임대 부동산 문서에 대한 소스 선택 개선, 세무 엔진 매퍼 업데이트, 또는 예상 워크플로우 노이즈가 실패로 계산되는 경우 평가자 개선.
검증 및 제안: 대상 평가를 재실행하고, 더 넓은 회귀 테스트 스위트를 실행하며, 엔지니어링 검토를 위한 후보 풀 리퀘스트를 표면화합니다.
루프 닫기: 반복되는 실무자 수정을 측정 가능한 엔지니어링 작업으로 전환합니다. 증거가 모호하거나 안전하게 자동화할 수 없는 경우, 해당 사례는 루프를 통해 강제로 진행되는 대신 제품 팀으로 다시 라우팅됩니다.

종단간 자기 개선 루프: 생산 추적이 반복되는 필드 수준 수정을 표면화하고, 이것이 Codex가 추적, 평가, 저장소 및 스킬과 함께 검사할 수 있는 실패 신호가 됩니다. 실행 가능한 패턴은 경계가 있는 평가와 후보 제품 변경이 되고, 모호한 사례는 검토를 위해 엔지니어에게 다시 라우팅됩니다. 각각의 출시된 개선은 다음 주기를 위한 새로운 생산 증거를 만듭니다.

이 루프를 구축하기 위해 Codex를 사용하는 방법

임대 부동산 예시는 더 넓은 재사용 가능한 패턴을 상징합니다: 생산 아티팩트와 추적을 사용하여 에이전트의 역량을 개선하는 것입니다. 생산 데이터, 소스 추적, 예상 세무 엔진 출력, 관련 코드 예제 및 평가 명령을 입력 세트로 검토된 조사 결과가 주어지면, Codex는 몇 주 및 몇 달에 걸쳐 성능과 정확도를 실질적으로 개선할 수 있습니다. 이는 Harness Engineering 및 Symphony에 대한 우리의 작업에서 설명된 원칙을 기반으로 하며, 여기서는 작업을 Codex가 이해할 수 있게 만드는 방법, 범위가 지정된 컨텍스트와 도구를 제공하는 방법, 그리고 검증과 인간 검토를 환경의 일부로 유지하는 방법을 안내합니다.

그 증거가 자동으로 Codex 작업이 되는 것은 아닙니다. 실무자 수정은 추출 누락, 매핑 문제, 지원되지 않는 제품 동작, 세무 판단, 또는 예상 워크플로우 노이즈를 반영할 수 있습니다. 반복되는 차이가 검토되고 실행 가능한 조사 결과로 그룹화된 후에야 시스템이 이를 명확한 성공 조건이 있는 경계가 있는 작업으로 전환합니다.

우리는 이 자동화를 제품의 경계가 있는 계층에 적용합니다. 이 계층은 추출을 수행하고 소스 문서를 세무 워크플로우에 매핑합니다. 엔지니어는 아키텍처, 제품 결정 및 출시에 대한 책임을 유지합니다. 실무자는 이미 수행 중인 작업(추출된 값 수정, 신고서 검토, 최종 제출 승인)을 통해 개선 루프를 조정합니다.

Codex의 경우, 결과는 모호한 알림이 아니라 증거, 편집 가능한 제품 표면, 명시적 검증 게이트가 있는 범위가 지정된 엔지니어링 작업입니다. 대표적인 임대 부동산 작업의 컨텍스트는 다음과 같이 요약될 수 있습니다:

경계가 있는 Codex 작업 환경은 쓰기 가능한 작업 트리[1]를 읽기 전용 생산 컨텍스트[5]와 분리합니다. 작업 트리에는 Codex가 검사하거나 수정할 수 있는 범위가 지정된 제품 표면[2], 성공을 정의하는 대상 및 회귀 평가[3], 작업 실행 방법과 이전 결정을 존중하는 방법을 인코딩하는 재사용 가능한 스킬/문서[4]가 포함됩니다. 읽기 전용 컨텍스트는 생산 추적, 소스 문서, Tax AI 예측, 최종 완성된 신고서 및 세무 엔진 필드 문서를 제공하므로, Codex가 기저 증거를 변형하지 않고 실패를 조사할 수 있습니다.

새로운 도메인으로 확장

동일한 루프는 임대 부동산 외에도 적용됩니다. 임대 부동산은 90% 정밀도와 재현율에 도달하는 데 약 6주와 상당한 엔지니어링 감독이 필요했지만, 그 작업은 재사용 가능한 추상화, 검토 아티팩트, 평가 규칙 및 구현 패턴을 생성하여 Schedule C 및 Schedule A와 같은 유사하게 복잡한 스케줄을 지원하는 것을 더 쉽게 만들었습니다.

Tax AI는 자기 개선형 에이전트를 구축하는 경로를 입증합니다. 실무자는 서비스를 제공함으로써 고가치 피드백 신호를 생성합니다. 제품 워크플로우는 이러한 신호를 구조화된 증거로 보존합니다. 평가 기반 엔지니어링 시스템은 개선 사항이 생산에 도달하기 전에 검증하고, 에이전트 기반 루프는 시스템을 지속적인 자기 개선 흐름 상태로 유지합니다.

Thrive Holdings의 구조는 우리가 특정 산업에서 이 환경을 복제할 수 있게 합니다. Holdings는 소유자이자 운영자이므로, 우리의 결합된 엔지니어링 팀은 Crete와 같은 기업 내부에서 실무자 및 생산 데이터와 직접 협력할 수 있으며, 벤더가 아닌 파트너로서 일합니다. 이는 기술, 제품 및 서비스가 모두 한 지붕 아래 있게 하여, 우리가 더 빠르게 움직이고 탁월한 제품을 구축할 수 있게 합니다.

작년에 세무 준비에 180시간을 보낸 한 선임 회계사는 올해는 15시간만 보냈습니다. 그녀는 그 시간 중 일부를 모든 클라이언트에게 전화를 걸어 신고서를 설명하는 데 사용했는데, 이는 1년 전에는 불가능했던 높은 수준의 고객 서비스입니다. 남은 시간은 새 클라이언트를 받고 새로운 서비스 상품으로 확장하는 데 사용했습니다.

함께, 우리 팀은 이제 Tax AI의 동일한 세 부분 설계를 Thrive Holdings 전반의 다른 도메인(예: 부기 및 감사와 같은 회계 워크플로우, IT 헬프데스크 자동화와 같은 운영 워크플로우)에서 워크플로우를 구축하기 위한 청사진으로 사용하고 있습니다. 도메인과 산업을 넘어, 자기 개선형 에이전트의 더 넓은 약속은 유효합니다. 최고의 에이전트는 사람들이 지시하여 시간이 지남에 따라 더 유능하고, 더 신뢰받으며, 더 가치 있게 학습하는 것입니다.

이 프로젝트에 참여한 OpenAI 팀에 대해 더 알아보려면 연락하세요.