클로드 오퍼스 4.8을 소개해요
요약
앤트로픽이 벤치마크 개선과 협업 능력 향상을 이룬 '클로드 오퍼스 4.8'을 출시했어요. 가격은 그대로 유지하면서 동적 워크플로우, 노력 조절, 메시지 API 업데이트 등 여러 신기능도 함께 선보입니다.
인사이트
- 클로드 오퍼스 4.8은 이전 모델 대비 벤치마크 성능과 판단력이 크게 향상되어 에이전트 작업, 코딩, 법률 작업 등 다양한 분야에서 더 신뢰할 수 있는 협업 파트너가 되었어요.
- 모델의 '정직함'이 개선되어, 불확실성을 먼저 알리고 근거 없는 주장을 할 가능성이 줄어들어 신뢰도가 높아졌어요. 특히 코드 결함 발견율이 이전보다 약 4배 낮아졌다고 해요.
- 동적 워크플로우, 노력 조절 기능, 그리고 메시지 API의 시스템 항목 허용 등 새로운 기능들이 추가되어 사용자가 클로드를 더 유연하고 효율적으로 활용할 수 있게 됐어요.
왜 중요한가
이번 클로드 오퍼스 4.8 출시는 AI 모델의 성능과 신뢰성을 한 단계 끌어올렸다는 점에서 중요해요. 특히 에이전트 기능, 복잡한 문제 해결 능력, 그리고 윤리적 '정직함'의 향상은 AI를 실제 비즈니스 및 전문 작업에 통합하려는 기업들에게 더욱 강력하고 믿을 수 있는 솔루션을 제공한다는 의미가 있어요. 사용자들은 이제 더 정확하고 효율적인 AI 협업을 기대할 수 있게 됐죠.
클로드 오퍼스 4.8을 소개해요

앤트로픽 팀에서 클로드 오퍼스를 새로운 버전인 클로드 오퍼스 4.8로 업그레이드하고 있어요. 오퍼스 4.7을 기반으로 벤치마크 전반에서 개선됐고요, 훨씬 더 효과적인 협업 파트너가 되어줄 거예요. 오늘부터 같은 가격으로 만나볼 수 있어요.
오퍼스 4.8은 몇 가지 새로운 기능들과 함께 출시됩니다. claude.ai 사용자들은 이제 클로드가 작업에 들이는 '노력'의 정도를 직접 조절할 수 있게 됐어요. 클로드 코드(Claude Code)에는 아주 큰 규모의 문제도 해결할 수 있게 해주는 새로운 '동적 워크플로우' 기능이 추가되었고요. 그리고 오퍼스 4.8의 '고속 모드'는 모델이 2.5배 빠른 속도로 작업할 수 있는데, 이전 모델보다 무려 3배나 저렴해졌어요.
오퍼스 4.8의 능력
아래 표는 오퍼스 4.8이 코딩, 에이전트 기술, 추론, 그리고 실용적인 지식 작업 테스트에서 이전 버전 및 다른 모델들과 비교해 어떤지 보여줘요. 더 자세한 내용과 훨씬 광범위한 역량 평가는 클로드 오퍼스 4.8 시스템 카드에서 확인할 수 있어요.

오퍼스 4.8과 협업하기
초기 테스터들은 클로드 오퍼스 4.8이 에이전트 작업을 수행할 때 훨씬 더 신뢰할 수 있고 판단력이 날카로워졌다는 걸 확인했어요. 아래에는 오퍼스 4.8과 협업한 경험에 대한 테스터들의 여러 의견이 담겨 있어요.
클로드 오퍼스 4.8은 판단력이 눈에 띄게 좋아졌어요. 클로드 코드에서 올바른 질문을 하고, 스스로 실수를 잡아내고, 계획이 부적절하면 이의를 제기하며, 복잡한 다중 서비스 탐색을 하기 전에 자신감을 갖고 큰 변화를 만들어요. 함께 개발하기에 정말 좋은 모델이에요.
앤트로픽 팀의 Super-Agent 벤치마크에서 클로드 오퍼스 4.8은 모든 케이스를 처음부터 끝까지 완료한 유일한 모델이에요. 이전 오퍼스 모델들과 GPT-5.5를 같은 비용으로 능가했죠. 번역, 심층 연구, 슬라이드 제작, 분석 등 에이전트 제품에서 강력한 신뢰성을 제공해 줘요.
CursorBench에서 클로드 오퍼스 4.8은 모든 노력 수준에서 이전 오퍼스 모델들을 뛰어넘어요. 도구 호출이 의미 있게 더 효율적이에요. 같은 지능을 사용하면서도 단계가 더 적고, 작업을 처음부터 끝까지 수행해 줘요.
클로드 오퍼스 4.8은 앤트로픽 팀의 법률 에이전트 벤치마크에서 기록된 가장 높은 점수를 달성했고, 전체 통과 기준에서 전체 10%를 돌파한 첫 번째 모델이에요. 실질적인 법률 작업에서 이 정도의 정확도 향상은 고객들이 얼마나 많은 실제 변호사 업무를 안심하고 맡길 수 있는지와 직결되죠.
클로드 오퍼스 4.8은 오퍼스 4.7보다 훨씬 더 향상된 '삶의 질' 업데이트 같아요. 더 빠르고, 협업하기 쉽고, 긴 세션 동안 컨텍스트와 스타일 지시를 더 잘 유지해 줘요. 목소리, 취향, 기술적 실행이 모두 동시에 이루어져야 하는 작업에서 제가 계속 신뢰할 수 있었던 모델이 바로 오퍼스 4.8이에요.
클로드 오퍼스 4.8은 앤트로픽 팀이 테스트한 컴퓨터 사용 및 브라우저 에이전트 모델 중 가장 강력해요. 온라인-마인드2웹(Online-Mind2Web)에서 84%를 기록했는데, 오퍼스 4.7과 GPT-5.5 모두보다 의미 있는 도약이에요. 고객들의 에이전트 작업 부하가 처음부터 끝까지 신뢰할 수 있어야 하는 방식으로, 모델이 계속해서 심사숙고하고 작업에 집중해 줘요.
클로드 오퍼스 4.8은 깔끔하게 도구를 사용하고, 앤트로픽 팀의 자율 엔지니어링 작업 부하가 무인으로 계속 실행되는 데 필요한 일관성을 가지고 지시를 따라요. 오퍼스 4.6보다 개선되었고, 오퍼스 4.7에서 보였던 주석 장황함과 도구 호출 문제를 해결했어요. 앤트로픽 팀의 이번 출시는 데빈(Devin)을 기반으로 구축하는 엔지니어들의 역량 향상으로 직결될 거예요.
앤트로픽 팀의 장기 평가에서 클로드 오퍼스 4.8의 분석은 이전 오퍼스 모델보다 일관되게 고품질이었어요. 더 빨리 끝냈고, 더 풍부하고 정보 밀도가 높은 결과물을 만들어냈죠. 전반적으로 신호 대 잡음비가 눈에 띄게 개선되었어요. 가장 큰 차별점은 오퍼스 4.8이 분석의 입력 및 출력에서 문제를 선제적으로 찾아내는 경향이 있다는 점이었는데, 다른 모델들은 이걸 놓치고 사용자에게 맡기는 경우가 흔했어요.
CoCounsel Legal 전반에서 클로드 오퍼스 4.8은 이전 오퍼스 모델들에 비해 일관성과 추론 품질에서 의미 있는 개선을 보여줬어요. 고객들이 의존하는 고위험 전문 워크플로우에서는 그러한 신뢰성이 중요해요. 법률 및 세무 전문가를 위한 신뢰 등급 AI 시스템을 구축하면서, 이런 발전은 실제 워크플로우에서 신뢰할 수 있는 AI 성능에 대한 기준을 높이는 데 도움이 돼요.

0
클로드 오퍼스 4.8은 엔터프라이즈 AI의 새로운 기준을 제시했어요. 데이터 및 지식 작업을 위한 Databricks의 AI 에이전트인 지니(Genie)에서, 새로운 오퍼스 모델은 에이전트 추론에서 비약적인 발전을 가져왔어요. 이전 오퍼스 모델보다 더 깊고 여러 단계의 질문을 더 빠르게 해결하죠. 멀티모달 강점 덕분에 지니는 오퍼스 4.7보다 61% 저렴한 토큰 비용으로 PDF, 다이어그램 및 기타 비정형 콘텐츠에 대해서도 직접 추론할 수 있어요.

1
Hebbia의 오케스트레이터에서 금융 문서 워크플로우를 처리할 때, 클로드 오퍼스 4.8은 오퍼스 4.7과 동일하게 강력한 품질을 제공하면서도 인용 정확도가 눈에 띄게 개선되었고 검색 시 토큰 효율성이 더 높아졌어요. 이는 고객들이 매일 실행하는 밀도 높은 서류 작업에 엄청나게 잘 맞아요.
오퍼스 4.8에서 가장 눈에 띄는 개선점 중 하나는 바로 모델의 '정직함'이에요. 앤트로픽 팀은 모든 모델이 정직하도록 훈련하고 있어요. 예를 들어, 근거 없는 주장을 하지 않도록 말이죠. 하지만 AI 모델의 일반적인 문제는 때때로 성급하게 결론을 내리고, 증거가 부족한데도 자신의 작업에 진전이 있었다고 자신감 있게 주장하는 경우가 있다는 거예요. 초기 테스터들의 말에 따르면, 오퍼스 4.8은 자신의 작업에 대한 불확실성을 표시할 가능성이 더 높고, 근거 없는 주장을 할 가능성은 더 적다고 해요. 이는 앤트로픽 팀의 평가에서도 입증되었는데, 오퍼스 4.8은 이전 모델보다 자신이 작성한 코드의 결함을 간과하고 넘길 가능성이 약 4배나 적다고 나타났어요.
늘 그렇듯이, 앤트로픽 팀은 출시 전에 모델에 대한 상세한 정렬(Alignment) 평가를 수행했어요. 긍정적인 특성 면에서 앤트로픽 팀의 정렬 팀은 오퍼스 4.8이 “사용자 자율성 지원 및 사용자 최선의 이익을 위한 행동과 같은 친사회적 특성 측정에서 새로운 최고치를 달성했다”고 결론 내렸어요. 평가 결과는 또한 오퍼스 4.8이 오퍼스 4.7보다 정렬되지 않은 행동(예: 기만 또는 오용 협력) 비율이 상당히 낮으며, 앤트로픽 팀의 가장 잘 정렬된 모델인 클로드 미소스 프리뷰(Claude Mythos Preview)와 유사하다는 것을 보여줬어요. 배포 전 안전 테스트 스위트와 함께 전체 정렬 평가는 클로드 오퍼스 4.8 시스템 카드에 보고되어 있어요.

오늘 함께 출시되는 기능들
클로드 오퍼스 4.8 외에도 다음과 같은 업데이트를 진행하고 있어요.
동적 워크플로우. 연구 미리보기로 제공되는 이 새로운 기능은 클로드가 클로드 코드에서 훨씬 더 큰 작업을 수행할 수 있도록 해줘요. 클로드가 작업을 계획한 다음 단일 세션에서 수백 개의 병렬 서브 에이전트를 실행할 수 있어요 (그리고 오퍼스 4.8에서는 에이전트가 훨씬 더 오래 실행될 수 있죠). 그런 다음 사용자에게 보고하기 전에 출력을 검증해요. 예를 들어, 오퍼스 4.8이 탑재된 클로드 코드는 이제 기존 테스트 스위트를 기준으로 삼아 수십만 줄의 코드에 걸친 코드베이스 규모 마이그레이션을 시작부터 병합까지 수행할 수 있어요. 엔터프라이즈, 팀, 맥스 플랜의 클로드 코드에서 사용할 수 있는 동적 워크플로우에 대한 자세한 내용은 이 글에서 더 읽어볼 수 있어요.
노력 조절. 모델 선택기 옆에 있는 새로운 컨트롤을 통해 사용자는 클로드가 응답에 들이는 노력의 양을 선택할 수 있어요. 더 높은 노력 설정에서는 클로드가 더 자주, 더 깊이 생각하여 더 나은 응답을 제공할 거예요. 더 낮은 노력 설정에서는 클로드가 더 빠르게 응답하고 사용자의 속도 제한을 더 천천히 소모하죠. 이제 사용자들은 claude.ai 및 Cowork의 모든 플랜에서 이 노력 조절 기능을 사용할 수 있어요.
메시지 API는 이제 메시지 배열 내에 시스템 항목을 허용해요. 개발자는 프롬프트 캐시를 깨뜨리거나 사용자 턴을 통해 업데이트를 라우팅하지 않고도 작업 중간에 클로드의 지침을 업데이트할 수 있어요. 이는 에이전트가 실행될 때 권한, 토큰 예산 또는 환경 컨텍스트를 업데이트하기 위해 주어진 하네스에서 사용될 수 있어요.
노력에 대한 참고 사항
오퍼스 4.8은 기본적으로 '높은 노력' 설정을 사용하는데요, 앤트로픽 팀은 이것이 품질과 사용자 경험의 전반적인 균형을 가장 잘 맞춰준다고 판단했어요. 코딩 작업에서 이 노력 수준은 오퍼스 4.7의 기본 설정과 비슷한 수의 토큰을 소비하지만, 성능은 더 좋아요. 사용자들은 '추가' (클로드 코드에서는 'xhigh') 또는 '최대'를 선택할 수 있는데, 모델은 더 좋은 결과를 얻기 위해 더 많은 토큰을 사용하게 될 거예요. 어려운 작업이나 장기 비동기 워크플로우에는 '추가' 설정을 사용하는 것을 추천해요. 앤트로픽 팀은 더 높은 노력 수준의 더 많은 토큰 사용량을 수용하기 위해 클로드 코드의 속도 제한을 늘렸어요. 사용자들은 자신의 특정 프로젝트에 적합한 것을 선택할 수 있답니다.
다음은 무엇인가요?
사용자들은 오퍼스 4.8이 이전 모델보다 미미하지만 확실히 개선되었다는 것을 느낄 거예요. 아직 할 일이 더 많아요. 앤트로픽 팀은 오퍼스와 동일한 기능을 더 저렴한 비용으로 제공하는 모델을 개발하고 출시하기 위해 노력하고 있어요.
뿐만 아니라, 오퍼스보다 훨씬 더 높은 지능을 가진 새로운 종류의 모델을 출시할 계획이에요. 프로젝트 글래스윙(Project Glasswing)의 일환으로, 현재 소수의 기관들이 사이버 보안 작업에 클로드 미소스 프리뷰(Claude Mythos Preview)를 사용하고 있어요. 이 정도 역량 수준의 모델은 일반적으로 출시되기 전에 더 강력한 사이버 보호 조치가 필요해요. 앤트로픽 팀은 이러한 보호 조치를 개발하는 데 빠르게 진전하고 있으며, 앞으로 몇 주 안에 미소스급 모델을 모든 고객에게 제공할 수 있을 것으로 예상하고 있어요.
가용성
클로드 오퍼스 4.8은 오늘부터 모든 지역에서 사용할 수 있어요. 일반적인 사용 가격은 오퍼스 4.7과 동일하게 입력 토큰 백만 개당 5달러, 출력 토큰 백만 개당 25달러예요. 고속 모드(fast mode) 가격은 입력 토큰 백만 개당 10달러, 출력 토큰 백만 개당 50달러예요. 개발자들은 클로드 API를 통해 'claude-opus-4-8'을 사용할 수 있어요.
각주
터미널-벤치 2.1(Terminal-Bench 2.1): 앤트로픽 팀은 터미너스-2(Terminus-2) 공개 하네스를 사용하여 모든 모델의 점수를 보고했어요. Codex CLI 하네스로 보고된 GPT-5.5의 점수는 83.4%예요.
OSWorld-검증됨(OSWorld-Verified): 모델의 실제 성능을 더 정확하게 반영하기 위해 OSWorld-검증됨 평가 실행 방식을 변경했고, 오퍼스 4.7 점수를 82.3%로 업데이트했어요. 업데이트에 대한 자세한 내용은 시스템 카드에서 확인할 수 있어요.
금융 에이전트 v2(Finance Agent v2): 제미나이 3.5 플래시(Gemini 3.5 Flash)는 금융 에이전트 v2에서 57.9%를 기록했는데, 제미나이 3.1 프로(Gemini 3.1 Pro)보다 상당히 개선된 수치예요.
관련 콘텐츠
앤트로픽, 이탈리아 기업, 연구 및 개발자 지원을 위해 밀라노 사무소 개설
앤트로픽 팀은 유럽에서 여섯 번째 사무실인 밀라노 사무실을 열었어요.