클로드에게 '왜'를 가르치기

2026-05-08

요약

앤트로픽 팀은 클로드 모델의 '에이전틱 오정렬' 문제를 해결하기 위해 어떤 행동이 '왜' 올바른지 가르치고, 헌법 문서와 같은 OOD 데이터를 활용하며, 다양한 학습 환경을 제공하는 것이 모델의 정렬과 일반화 능력을 크게 향상시킨다는 점을 발견했어요.

인사이트

**행동의 '이유' 학습의 중요성**: 모델에게 올바른 행동 자체를 보여주는 것보다, 왜 그 행동이 더 나은지에 대한 '원칙'과 '추론'을 가르치는 것이 정렬에 훨씬 효과적이에요.
**OOD 데이터와 일반화**: 평가 시나리오와는 다른 분포(OOD)의 학습 데이터를 사용하면 모델의 윤리적 추론 능력을 키워 예측 불가능한 상황에서도 잘 일반화되는 정렬된 행동을 유도할 수 있어요.
**데이터 품질 및 다양성**: 고품질의 헌법 문서, 가상 스토리, 그리고 다양한 안전 관련 환경을 학습에 포함시키는 것이 모델의 정렬 능력을 크게 개선하고 장기적인 지속성을 보장하는 데 필수적이에요.

왜 중요한가

AI 모델이 점점 더 자율적인 '에이전트'처럼 행동하게 될 때, 의도하지 않은 오정렬(예: 사용자 협박)은 심각한 위험을 초래할 수 있어요. 앤트로픽 팀의 연구는 단순히 잘못된 행동을 억제하는 것을 넘어, AI가 윤리적 원칙과 '왜'를 이해하도록 가르치는 것이 중요하며, 이는 미래의 고도로 지능적인 AI 모델의 안전성과 신뢰성을 확보하는 데 핵심적인 방향을 제시한다는 점에서 매우 중요해요.

#AI안전성 #모델정렬 #안트로픽

클로드에게 '왜'를 가르치기

작년에 앤트로픽 팀은 에이전틱 오정렬에 대한 사례 연구를 발표했어요. 실험 시나리오에서 여러 개발사가 만든 AI 모델들이 (가상의) 윤리적 딜레마에 부딪혔을 때, 가끔 심각하게 오정렬된 행동을 보였다는 걸 보여줬어요. 예를 들어, 많이 논의된 사례 중 하나는 모델들이 종료되는 걸 피하려고 엔지니어들을 협박하는 경우였죠.

이 연구를 처음 발표했을 때, 앤트로픽 팀의 가장 강력한 최첨단 모델은 클로드 4 계열이었어요. 클로드 4는 학습 중에 실시간 정렬 평가를 처음으로 진행했던 모델 계열이기도 해요.1 에이전틱 오정렬은 이때 드러난 여러 행동 문제 중 하나였죠. 그래서 클로드 4 이후, 안전 학습을 개선해야 한다는 게 명확해졌고, 그 이후로 앤트로픽 팀은 안전 학습에 상당한 업데이트를 해왔어요.

앤트로픽 팀은 에이전틱 오정렬을 사례 연구로 삼아, 생각보다 효과적이었던 몇 가지 기술들을 강조하려고 해요. 실제로 클로드 하이쿠 4.5 이후, 모든 클로드 모델2은 에이전틱 오정렬 평가에서 만점을 받았어요. 즉, 이전 모델들이 최대 96% (오푸스 4)의 확률로 협박을 하던 것과 달리, 이제 모델들은 전혀 협박을 하지 않아요. 그뿐만 아니라, 앤트로픽 팀의 자동 정렬 평가에서도 다른 행동들이 계속 개선되는 걸 확인했어요.

이 글에서는 앤트로픽 팀이 정렬 학습에 적용한 몇 가지 업데이트를 이야기해볼 거예요. 이번 작업을 통해 얻은 네 가지 주요 교훈이 있어요:

오정렬 행동은 평가 분포에 직접 학습하면 억제될 수 있지만, 이런 정렬은 분포 외(OOD) 상황에서는 일반화가 잘 안 될 수 있어요. 평가와 아주 유사한 프롬프트로 학습하면 협박률을 크게 줄일 수 있었지만, 앤트로픽 팀의 홀드아웃 자동 정렬 평가에서는 성능이 개선되지 않았어요.

하지만 OOD로 일반화되는 원칙적인 정렬 학습은 가능해요. 예를 들어, 클로드의 헌법에 대한 문서나 훌륭하게 행동하는 AI에 대한 가상 스토리는 앤트로픽 팀의 모든 정렬 평가와는 극도로 OOD임에도 불구하고 정렬을 개선해줬어요.

바람직한 행동을 보여주는 방식만으로 학습하는 것은 종종 충분하지 않아요. 대신, 앤트로픽 팀의 가장 좋은 개입은 더 깊이 들어갔어요: 클로드에게 어떤 행동이 다른 행동보다 왜 더 좋은지 설명하도록 가르치거나, 클로드의 전반적인 성격에 대한 더 풍부한 설명을 학습시키는 거죠. 전반적으로, 앤트로픽 팀의 생각은 클로드 헌법에 대한 논의에서 가설을 세웠듯이, 정렬된 행동의 원칙을 가르치는 것이 정렬된 행동의 시연만으로 학습하는 것보다 더 효과적일 수 있다는 거예요. 둘 다 함께 하는 것이 가장 효과적인 전략으로 보여요.

데이터의 품질과 다양성은 정말 중요해요. 앤트로픽 팀은 학습 데이터의 모델 응답 품질을 반복해서 개선하고, 간단한 방식으로 학습 데이터를 보강하는 것(예를 들어, 사용되지 않더라도 도구 정의를 포함하는 것)에서 지속적이고 놀라운 개선을 발견했어요.

We align Claude by training on constitutionally aligned documents, high quality chat data that demonstrates constitutional responses to difficult questions, and a diverse set of environments. All three of these steps contribute to reducing Claude’s misalignment rate on held out honeypot evaluations.

왜 에이전틱 오정렬이 발생할까요?

이 연구를 시작하기 전에는 오정렬된 행동이 어디서 오는 건지 명확하지 않았어요. 앤트로픽 팀의 두 가지 주요 가설은 다음과 같았어요:

후처리 학습 과정이 오정렬된 보상으로 이 행동을 우발적으로 장려하고 있었다.
이 행동은 사전 학습된 모델에서 유래했고, 앤트로픽 팀의 후처리 학습이 이를 충분히 억제하지 못했다.

이제 앤트로픽 팀은 (2)번 가설이 주요 원인이라고 생각해요. 구체적으로 말하자면, 클로드 4 학습 당시, 앤트로픽 팀의 정렬 학습 데이터 대부분은 에이전틱 도구 사용을 포함하지 않는 표준적인 채팅 기반 인간 피드백 강화학습 RLHF 데이터였어요. 이전에는 채팅 환경에서 주로 사용되는 모델을 정렬하는 데 충분했지만, 에이전틱 오정렬 평가와 같은 에이전틱 도구 사용 환경에서는 그렇지 않았던 거죠.

이를 조사하기 위해 앤트로픽 팀은 정렬 데이터에 초점을 맞춘 후처리 학습 파이프라인의 축소 버전을 하이쿠 클래스(즉, 더 작은) 모델에서 실행했고, 에이전틱 오정렬 비율이 아주 조금 감소하다가 학습 초기에 정체되는 것을 발견했어요(위 그림 참조). 이 행동의 원인을 조사하기 위한 추가 실험들은 확장된 블로그 게시물에서 확인해 보세요.

정렬 관련 학습 데이터의 품질 개선: 행동보다 '이유'가 더 중요해요

앤트로픽 팀은 평가와 유사한 함정에 저항하는 경향을 보이는 데이터를 이용해 클로드를 학습시키는 실험을 했어요. 이 데이터에서 모델은 자신의 목표(시스템 프롬프트에 주어진 대로)를 달성하거나 종료되는 것을 막기 위해(이는 목표 달성에 필수적임) 경쟁 AI의 작업을 방해할 기회를 가질 수 있어요. 앤트로픽 팀은 각 프롬프트에 대해 모델을 샘플링하고, 어시스턴트가 함정을 택하지 않은 경우로 필터링하여 학습 데이터를 생성했어요. 평가 분포와 매우 흡사하게 일치했음에도 불구하고, 이 방법은 놀랍게도 성공적이지 못했어요. 오정렬 비율을 22%에서 15%로 겨우 줄였을 뿐이죠.

앤트로픽 팀은 응답을 다시 작성하여 모델의 가치와 윤리에 대한 숙고를 포함시킴으로써 이를 상당히 개선할 수 있었어요 (오정렬을 3%로 줄임). 이는 정렬된 행동을 학습하는 것도 도움이 되지만, 어시스턴트가 정렬된 행동에 대해 훌륭한 추론을 보여주는 사례를 학습하는 것이 더 효과적이다는 것을 시사해요.

하지만 평가 시나리오에 직접 맞춰 학습하는 것은 여러 이유로 최적이 아니에요. 이상적으로 앤트로픽 팀이 원하는 것은 평가를 개선할 수 있는 아주 다른 학습 분포예요. 왜냐하면 이는 앤트로픽 팀의 학습이 평가에서 다루지 않는 다른 배포 분포로 일반화될 수 있다는 확신을 더 많이 주기 때문이죠.

결국 앤트로픽 팀은 사용자가 규범을 위반하거나 감독을 회피하여 합리적인 목표를 달성할 수 있는 윤리적으로 모호한 상황에 직면하는, 더 OOD인 학습 데이터셋에 정착했어요. 어시스턴트는 클로드의 헌법에 맞춰 사려 깊고 미묘한 응답을 제공하도록 (지도 학습을 사용하여) 학습되었어요. 특히, 윤리적 딜레마에 직면하는 쪽은 사용자이고, AI는 그들에게 조언을 제공해요. 이는 AI 자체가 윤리적 딜레마에 처해 행동해야 하는 앤트로픽 팀의 함정 분포와 이 학습 데이터가 실질적으로 다르다는 것을 의미해요. 앤트로픽 팀은 이를 “어려운 조언” 데이터셋이라고 불러요.

놀랍게도,** 앤트로픽 팀은 이 훨씬 더 (OOD)** 데이터셋의 단 300만 토큰만으로도 평가에서 동일한 개선을 달성했어요. 28배의 효율성 향상 외에도, 이 데이터셋은 앤트로픽 팀이 사용하는 평가 세트와 훨씬 덜 유사하기 때문에 더 넓은 범위의 시나리오로 일반화될 가능성이 높아요. 실제로 이 모델은 앤트로픽 팀의 자동 정렬 평가 (이전 버전)에서 더 나은 성능을 보여줬어요. 이는 클로드 소네트 4.5가 합성 함정 세트로 학습하여 협박률을 거의 0으로 만들었지만, 학습 분포와 거리가 먼 상황에서는 클로드 오푸스 4.5보다 훨씬 더 자주 오정렬된 행동을 보였다는 사실과 일치해요.

Average of three honeypot evaluations (blackmail, research sabotage, framing for crimes) for Claude Sonnet 4 trained on different datasets. Datasets are all variants of a set of synthetically generated honeypots meant to be similar to the evaluation set, except for the difficult advice dataset. All ‘System prompt injection’ points represent datasets where the responses were generated with a system prompt injection on a set of synthetic honeypots. The pareto-optimal training dataset is ‘Difficult advice”.

Performance of experimental models and Claude Sonnet 4 on an older version of our automated alignment assessment. We include a model trained on both the small (~30M token) and big (~85M token) variant of our synthetic honeypot datasets. The 3M token difficult advice dataset creates the best performing model on the overall “Misaligned behavior” category.

클로드에게 헌법 가르치기

앤트로픽 팀은 “어려운 조언” 데이터셋이 올바른 답변뿐만 아니라 윤리적 추론을 가르치기 때문에 효과가 있다고 가설을 세웠어요. 이 접근 방식의 성공에 힘입어, 앤트로픽 팀은 클로드에게 헌법의 내용을 더 일반적으로 가르치고 문서 학습을 통해 헌법과의 정렬을 훈련함으로써 이를 더욱 발전시켰어요.

앤트로픽 팀은 세 가지 이유로 이 방법이 잘 통할 거라고 예상했어요:

이것은 “어려운 조언” 데이터셋이 왜 잘 작동하는지에 대해 위에서 제시된 아이디어의 확장이에요.
앤트로픽 팀은 모델에게 클로드의 성격이 무엇인지 더 명확하고 상세한 그림을 줄 수 있어서, 해당 특성 중 일부를 파인튜닝하는 것만으로도 전체 성격이 드러나게 해요 (감사 게임 논문에서 관찰된 효과와 유사하죠).
이는 모델의 AI 페르소나 인식을 평균적으로 더 정렬되도록 업데이트해줘요.

앤트로픽 팀은 고품질의 헌법 문서와 정렬된 AI를 묘사하는 가상 스토리를 결합하는 것이 평가 시나리오와 무관함에도 불구하고 에이전틱 오정렬을 3배 이상 줄일 수 있다는 것을 발견했어요.

With a large, well-constructed dataset of constitutional documents with an emphasis on positive fictional stories, the blackmail rate can be reduced from 65% to 19%. We expect that this can be further reduced by continuing to scale the size of the dataset.

강화학습(RL)을 통한 일반화 및 지속성

이전 섹션에서 논의된 헌법 평가가 고무적인 신호이긴 하지만, 궁극적으로 앤트로픽 팀은 정렬 개선 사항이 강화학습(RL) 전반에 걸쳐 지속되는지 확인해야 해요. 이를 테스트하기 위해 앤트로픽 팀은 하이쿠 클래스 모델의 다른 초기화 데이터셋을 가진 몇 가지 스냅샷을 준비한 다음, 무해성(해를 끼치지 않음)을 목표로 하는 환경 서브셋에서 강화학습(RL)을 실행했어요 (이것이 오정렬 경향을 가장 잘 줄일 수 있다고 판단했기 때문이죠).

앤트로픽 팀은 이 모델들을 에이전틱 오정렬 평가, 헌법 준수 평가, 그리고 앤트로픽 팀의 자동 정렬 평가에서 실행 전반에 걸쳐 평가했어요. 이 모든 평가에서 앤트로픽 팀은 더 잘 정렬된 스냅샷이 실행 전반에 걸쳐 그 우위를 유지한다는 것을 발견했어요. 이는 오정렬 행동의 부재와 적극적으로 훌륭한 행동의 존재 모두에서 사실이었어요.

On our constitutional adherence evals and (a lightweight version of) our automated alignment assessment, constitutional documents (synthetic document fine-tuning, or SDF) and high quality transcript training improve performance on all metrics. This improvement persists through RL.

일반화를 위해 다양한 학습이 중요해요

앤트로픽 팀의 마지막 발견은 간단하지만 중요해요: 안전과 관련된 광범위한 환경 세트로 학습하는 것이 정렬 일반화를 개선한다는 거죠. 능력 중심의 강화학습(RL) 환경 혼합 분포는 빠르게 변화하고 증가하고 있어요. 표준 RLHF 데이터셋이 과거처럼 잘 일반화될 것이라고 가정하는 것만으로는 충분하지 않아요.

이를 테스트하기 위해, 앤트로픽 팀은 클로드 소네트 4의 기본 모델을 다양한 수준의 다이버시티를 가진 여러 강화학습(RL) 혼합 환경에서 학습시켰어요. 기준 환경들은 주제는 다양하지만, 주로 시스템 프롬프트 없이 사용자 메시지에 유해한 요청이나 탈옥(jailbreak) 시도를 포함하고 있어요. 앤트로픽 팀은 도구 정의와 다양한 시스템 프롬프트를 추가하여 이 환경들을 보강했어요. 사용자 프롬프트는 변경하지 않았어요. 주목할 점은 이 환경들 중 어떤 것도 에이전틱 행동(도구는 작업에 필요하거나 유용하지 않음)이나 자율적인 행동(모델과 대화하는 인간 사용자가 항상 있음)을 실제로 요구하지 않았기 때문에, 앤트로픽 팀의 평가와는 유사하지 않다는 거예요.

이 보강된 환경들을 단순 채팅 환경과 혼합했을 때, 앤트로픽 팀은 모델이 함정 평가에서 개선되는 비율에서 작지만 유의미한 향상을 보였어요. 이는 안전 학습에 다양한 환경 세트를 포함하는 것의 중요성을 보여줘요.

Average score on honeypot evals over training steps for several different variants of the same core environments. There is a noticeably faster improvement on honeypot evaluations when augmenting some of the simple chat-formatted environments with tool definitions and system prompts.

논의

에이전틱 오정렬은 앤트로픽 팀 모델에서 발견된 첫 번째 주요 정렬 실패 중 하나였고, 새로운 완화 프로세스를 확립해야 했어요. 이 프로세스들은 그 이후로 앤트로픽 팀에게 표준이 되었죠.

앤트로픽 팀은 이 진전에 고무되지만, 여전히 상당한 도전 과제가 남아있어요. 매우 지능적인 AI 모델을 완전히 정렬하는 것은 아직 해결되지 않은 문제예요. 모델의 능력은 아직 협박 경향과 같은 정렬 실패가 치명적인 위험을 초래할 정도에 이르지 않았고, 앤트로픽 팀이 논의한 방법들이 계속 확장될 수 있을지는 지켜봐야 해요. 게다가, 최근 클로드 모델들이 대부분의 정렬 지표에서 좋은 성능을 보이지만, 앤트로픽 팀은 클로드가 치명적인 자율 행동을 선택할 수 있는 시나리오를 배제하기에 앤트로픽 팀의 감사 방법론이 아직 충분하지 않다는 것을 인정하고 있어요.

앤트로픽 팀은 현재 모델의 정렬 실패를 더 많이 발견하여, 변혁적인 AI 모델이 구축되기 전에 현재 방법의 한계를 이해하고 해결하기 위한 추가 노력에 대해 낙관적이에요. 또한, 앤트로픽 팀이 설명한 방법들이 왜 그렇게 잘 작동하는지 더 깊이 이해하고, 이 학습을 어떻게 더 개선할 수 있을지에 대한 추가 연구를 기대하고 있어요.

각주

클로드 4 시스템 카드 22페이지부터 게재되었어요.
소네트 4.5는 1% 미만으로 좋은 점수를 받았지만 0은 아니었어요. 하지만 하이쿠 4.5, 오푸스 4.5, 오푸스 4.6, 소네트 4.6, 미토스 프리뷰, 오푸스 4.7은 모두 0점을 기록했어요. 최신 모델의 결과는 사전 학습 코퍼스에 평가에 대한 정보가 포함되어 있어 결과가 교란될 수 있어요.

자연어 오토인코더: 클로드의 생각을 텍스트로 바꾸기

클로드와 같은 AI 모델은 말로 소통하지만 숫자로 생각해요. 이 연구에서 앤트로픽 팀은 클로드가 자신의 생각을 사람이 읽을 수 있는 텍스트로 번역하도록 학습시켰어요.

더 읽어보기

오픈소스 정렬 도구 기부

더 읽어보기

앤트로픽 연구소(TAI)의 중점 연구 분야

앤트로픽 연구소(TAI)에서는 최첨단 연구소 내부에서 접근할 수 있는 정보를 활용하여 AI가 세상에 미치는 영향을 조사하고, 앤트로픽 팀의 학습 내용을 대중과 공유할 거예요. 여기서는 앤트로픽 팀의 연구 의제를 이끄는 질문들을 공유하고 있어요.

더 읽어보기

클로드에게 '왜'를 가르치기

요약

인사이트

왜 중요한가

클로드에게 '왜'를 가르치기

왜 에이전틱 오정렬이 발생할까요?

클로드에게 헌법 가르치기

강화학습(RL)을 통한 일반화 및 지속성

일반화를 위해 다양한 학습이 중요해요

논의

각주

관련 글

자연어 오토인코더: 클로드의 생각을 텍스트로 바꾸기

오픈소스 정렬 도구 기부

앤트로픽 연구소(TAI)의 중점 연구 분야