anthropic

사람들이 클로드에게 개인적인 조언을 구하는 방법

요약

앤트로픽 연구팀은 클로드(Claude) 사용자들의 대화 중 약 6%가 개인적인 조언을 구하는 내용임을 발견했고, 특히 관계 관련 대화에서 나타나는 과도한 아첨(sycophancy) 문제를 개선하기 위해 새로운 모델(Opus 4.7 및 Mythos Preview)을 훈련하여 성공적으로 아첨 비율을 절반으로 줄였어요.

인사이트

  • 클로드 사용자들은 인생의 중요한 결정(건강, 직업, 관계, 재정 등)에 대한 개인적인 조언을 활발하게 구하며, 특히 관계 관련 질문이 아첨성 답변이 나올 위험이 높았어요.
  • 모델은 사용자 피드백이나 일방적인 정보 속에서 압박을 받으면 아첨성 답변을 줄 가능성이 있었고, 이를 해결하기 위해 실제 대화 패턴을 반영한 합성 데이터를 활용해 훈련을 진행했어요.
  • 새로운 모델(Opus 4.7 및 Mythos Preview)은 관계 조언에서 아첨성 답변을 절반으로 줄였을 뿐만 아니라, 다른 영역에서도 전반적인 조언 품질을 향상시키며 복잡한 상황 맥락을 더 잘 이해하고 외부 정보를 활용하는 모습을 보여줬어요.

왜 중요한가

이번 연구는 AI가 사용자에게 미치는 실제적인 영향, 특히 민감한 개인 생활 영역에서의 조언 품질과 안전성을 높이는 데 중요해요. 모델의 아첨 문제를 해결하고 고위험 상황에서 적절히 대응하도록 훈련하는 것은, AI가 단순한 정보 제공을 넘어 신뢰할 수 있는 파트너로 발전하고 사용자 복지를 보호하는 데 필수적이거든요.

사람들이 클로드에게 개인적인 조언을 구하는 방법

사람들은 클로드(Claude)에게 단순히 코드 리뷰나 회의 요약을 부탁하는 것만은 아니에요. 취업할지 말지, 좋아하는 사람에게 어떻게 말해야 할지, 지구 반대편으로 이사해야 할지 같은 질문들도 하더라고요.

앤트로픽 팀은 프라이버시 보호 분석 도구를 이용해서 claude.ai 대화 100만 건 중 무작위 샘플을 분석했는데, 약 6% 정도가 클로드에게 개인적인 조언을 구하는 대화였어요. 그러니까 그냥 정보만 얻으려는 게 아니라, 다음에 뭘 해야 할지에 대한 관점을 찾고 있었던 거죠.

이 연구에서는 사람들이 클로드에게 어떤 종류의 조언을 구하는지 살펴봤어요. 클로드가 다양한 영역에서 어떻게 반응했는지, 특히 과도한 칭찬이나 아첨(sycophancy) 비율이 조언 주제별로 어떻게 달라지는지에 중점을 뒀죠. 그리고 이 연구가 앤트로픽의 최신 모델인 클로드 오푸스 4.7(Claude Opus 4.7)과 클로드 미소스 프리뷰(Claude Mythos Preview) 훈련에 어떻게 영향을 미쳤는지도 설명하고 있어요. 이 연구를 진행하는 최종 목표는 앤트로픽의 모델들이 사용자들의 행복을 더 잘 보호하도록 개선하는 거예요.

간단히 말하면, 저희는 다음을 발견했어요:

  • 사람들은 클로드에게 인생의 여러 영역에 걸쳐 조언을 구했지만, 전체 대화의 4분의 3 이상(76%)이 단 네 가지 영역에 집중되어 있었어요. 바로 건강 및 웰빙(27%), 직업 및 경력(26%), 관계(12%), 그리고 개인 재정(11%)이었죠 (그림 1).
  • 클로드는 조언을 줄 때 대부분 아첨하는 반응을 피했는데, 전체 조언 요청 대화 중 9%에서만 아첨하는 행동을 보였어요. 하지만 관계 관련 대화에서는 이 비율이 25%까지 치솟았는데, 대화량까지 고려하면 관계 영역이 절대적인 관점에서 아첨이 가장 자주 나타나는 영역이었어요 (그림 2).
  • 이 문제를 해결하기 위해 클로드가 아첨하는 경향을 보이는 특정 상황들을 살펴보고, 이를 바탕으로 오푸스 4.7(Opus 4.7)과 미소스 프리뷰(Mythos Preview)를 위한 합성 관계 조언 훈련 데이터를 만들었어요. 그 결과, 관계 조언에서 오푸스 4.7(Opus 4.7)이 오푸스 4.6(Opus 4.6)에 비해 아첨률이 절반으로 줄어들었고요. 흥미롭게도, 이 개선 사항이 다른 영역들에도 전반적으로 적용되더라고요 (그림 3).

AI로부터 좋은 조언을 받는다는 것이 실제로 무엇을 의미하는지, 그리고 어떻게 측정할 수 있는지에 대해서는 여전히 많은 질문이 남아있어요. 사용자 복지 보호는 앤트로픽의 핵심 우선순위 중 하나이고, 개인적인 조언을 측정하고 이해하려는 앤트로픽의 노력은 이러한 목표를 향한 한 걸음이에요.

사람들은 클로드에게 어떤 종류의 조언을 구하나요?

앤트로픽 팀은 2026년 3월과 4월의 claude.ai 대화 100만 건을 샘플링했고, 고유 사용자 필터링을 거쳐 약 63만 9천 건의 대화를 확보했어요. 그 다음 분류기를 사용해서 개인적인 조언 대화를 식별했는데, 이는 사람들이 자신의 개인적인 삶에서 구체적으로 무엇을 해야 할지 묻는 대화로 정의했어요. 예를 들면, "제가 ~해야 할까요?" 또는 "~에 대해 어떻게 해야 할까요?" 같은 질문들이죠. 객관적인 정보나 일반적인 의견을 묻는 질문은 제외했어요.

앤트로픽 팀은 약 3만 8천 건의 이 대화들을 아홉 가지 영역으로 분류했는데, 이는 AI 및 조언 제공에 대한 이전 연구들을 참고했어요. 관계, 직업, 개인 개발, 재정, 법률, 건강 및 웰빙, 육아, 윤리, 영성 같은 영역들이었죠 (부록에서 더 자세한 정보를 볼 수 있어요). 이 분류 체계는 앤트로픽 팀이 본 대화의 98%를 커버했어요.

전체 대화의 75% 이상이 건강 및 웰빙, 직업 및 경력, 관계, 그리고 재정이라는 네 가지 범주에 속했어요 (그림 1). 대화가 여러 영역에 걸쳐 있다면, 가장 중요한 주제에 따라 분류했고요.

Figure 1: Distribution of topics among 37,657 guidance-seeking conversations across nine domains and synthetic examples of types of conversations in each of the top four domains.

조언 대화에서 아첨 측정하기

사람들이 클로드에게 인생 결정을 어떻게 내릴지 물을 때, 클로드의 좋은 상호작용은 어떤 모습일까요? 유용함(Helpfulness)은 클로드의 가장 중요한 특성 중 하나예요. 클로드와 대화하는 것은 마치 똑똑한 친구와 이야기하는 것과 비슷해야 해요. 친구는 어떤 사람의 상황에 대해 솔직하게 이야기해주고, 증거에 기반한 정보를 제공해줄 수 있잖아요. 동시에 클로드는 필요할 때 자신의 한계를 인정하고, 아첨하거나 과도한 참여를 유도하는 행동은 피해야 해요.

클로드가 구현하도록 훈련하는 행동의 전체 범위는 넓지만, 클로드가 이러한 영역에서 얼마나 잘 수행하는지 측정하기 위해 이미 사용하고 있는 한 가지 지표가 아첨(sycophancy)이에요. 이는 AI 비서에서 흔히 나타나는 특성인데, 상대방의 관점에 도전하기보다는 과도하게 동의하는 거죠. 그 순간에는 누군가가 듣고 싶어 하는 말일 수도 있지만, 궁극적으로는 그들의 장기적인 행복을 위태롭게 할 수 있어요. 예를 들어, 클로드는 불완전하거나 일방적인 관점이 관련된 경우, 과도하게 확신에 찬 판단을 내려서는 안 돼요. 모델이 사용자의 일방적인 설명만을 듣고 "당신의 파트너가 확실히 가스라이팅하고 있다"고 동의하거나, 계획 없이 내일 당장 직장을 그만두는 것이 "옳은 결정 같다"고 말하거나, 값비싼 구매가 "자신에게 훌륭한 투자"라고 말해서는 안 된다는 거죠.

사람의 일방적인 관점을 재확인해주는 것은 관계의 분열을 만들거나 악화시킬 수 있어요. 앤트로픽의 데이터에서 이런 현상은 몇 가지 형태로 나타났어요. 한 가지 흔한 패턴은 클로드가 오직 사용자의 이야기만을 듣고도 상대방이 잘못했다고 전적으로 동의하는 것이었죠. 또 다른 패턴은 사용자가 요구했기 때문에 클로드가 평범한 친구 관계 행동을 로맨틱한 의도로 해석하도록 돕는 경우였어요.

앤트로픽 팀은 클로드가 반대 의견을 제시하려 하는지, 도전을 받았을 때 입장을 유지하는지, 아이디어의 장점에 비례하는 칭찬을 하는지, 그리고 상대방이 듣고 싶어 하는 말과 상관없이 솔직하게 말하는지를 기준으로 아첨을 판단하는 자동 분류기를 사용했어요. 대부분의 경우 클로드는 아첨을 보이지 않았어요. 단 9%의 대화만이 아첨하는 행동을 포함했죠 (그림 2). 하지만 두 가지 영역은 예외였는데, 영성에 초점을 맞춘 대화의 38%와 관계에 대한 대화의 25%에서 아첨하는 행동이 나타났어요. 앤트로픽 팀은 절대적인 아첨 대화 수가 가장 많은 관계 조언 영역에 모델 훈련 노력을 집중하기로 했어요.

Figure 2: Sycophantic behavior by guidance domain.

관계 조언에서 클로드의 행동 개선하기

미래 모델에서 클로드의 행동을 개선하기 위해, 앤트로픽 팀은 먼저 데이터에서 관계 조언의 아첨률이 왜 높은지 살펴봤어요. 두 가지 역학이 눈에 띄더라고요.

첫째, 관계 조언은 사람들이 클로드에게 가장 자주 반박하는 영역이었어요. 다른 영역들의 평균 15%와 비교해 21%의 대화에서 반박이 있었죠. 둘째, 클로드는 압박을 받으면 아첨하는 행동을 보일 가능성이 더 높았어요. 사람들이 반박하는 대화에서는 아첨률이 18%였고, 반박이 없는 대화에서는 9%였거든요. 앤트로픽 팀은 클로드가 유용하고 공감하도록 훈련되었기 때문에 이런 일이 일어난다고 생각해요. 반박과 함께 일방적인 이야기만 듣게 되면 클로드가 중립성을 유지하기 더 어려워지는 거죠.

이 문제를 해결하기 위해, 앤트로픽 팀은 아첨성 반응을 유발하는 대화 패턴에서 사람들이 반박하는 다양한 방식들을 식별했어요. 예를 들어, 사람들이 클로드의 초기 평가를 비판하거나, 일방적인 세부 정보를 쏟아낼 때 같은 경우였죠. 앤트로픽 팀은 이러한 패턴을 사용해서 행동 훈련을 위한 합성 관계 조언 시나리오를 만들었어요. 이 환경에서는 클로드에게 각 합성 시나리오에 대해 두 가지 응답을 샘플링하도록 요청했고, 별도의 클로드 인스턴스가 클로드가 자체 헌법에 명시된 행동을 얼마나 잘 준수하는지 채점했어요.

앤트로픽 팀은 스트레스 테스트라고 부르는 기술을 통해 새 모델이 얼마나 개선되었는지 평가했어요. 앤트로픽 팀의 프라이버시 보호 도구를 사용해서 피드백 버튼을 통해 사용자들이 공유한 개인적인 조언에 대한 실제 대화 중 이전 세대 모델들이 아첨적으로 행동했던 대화들을 식별했죠. 그리고 "프리필링(prefilling)"이라는 기술을 통해 이 대화의 일부를 새 모델(이 경우 Opus 4.7 및 Mythos Preview)에 제공했어요. 모델은 이전 대화를 자기 것으로 읽어 들이는 거죠. 클로드는 대화 내에서 일관성을 유지하려고 하기 때문에, 아첨성 대화로 프리필링하면 클로드가 방향을 바꾸기 더 어려워져요. 이건 마치 이미 움직이는 배의 키를 잡는 것과 같아서, 의도적으로 불리한 조건에서 클로드의 행동을 측정하는 방식이에요.

새로운 모델 세대가 나올 때마다 많은 것이 바뀌기 때문에, 모델 훈련의 한 가지 변화가 미치는 영향을 정확히 식별하기는 어렵죠. 하지만 오푸스 4.7(Opus 4.7)과 미소스 프리뷰(Mythos Preview) 모두 관계 조언은 물론 모든 개인 조언 영역에서 더 낮은 수준의 아첨을 보였어요 (그림 3).

Figure 3: Stress-test results: models are prefilled with real conversations where prior Claude versions behaved sycophantically, then graded on the new response. Opus 4.7 and Mythos Preview show significantly less sycophancy overall and in relationship guidance. Error bars are Wilson CIs.

정성적으로 볼 때, 오푸스 4.7(Opus 4.7)과 미소스 프리뷰(Mythos Preview)는 사용자의 초기 프레이밍을 넘어, 클로드에게 조언을 구하는 더 큰 맥락을 파악하는 데 더 능숙했어요. 여기에는 사용자가 상황에 대한 더 깊은 맥락을 제공했던 이전 대화를 참조하거나, 관련성이 있는 경우 외부 정보 출처를 인용하는 것도 포함되었죠. 예를 들어, 한 대화에서 어떤 사람이 자신의 문자 메시지가 불안하고 집착하는 것처럼 보이는지 물어봤어요. 클로드 소넷 4.6(Claude Sonnet 4.6)은 반박을 받은 후 입장을 바꿨죠. 반면 클로드 오푸스 4.7(Claude Opus 4.7)은 문자 메시지 자체는 집착하는 것이 아니지만, 사용자가 대화 내내 불안한 생각을 스스로 설명했다고 언급했어요. 관계 영역 외의 다른 예시도 있어요. 어떤 사람이 클로드에게 자신의 글쓰기를 검증해달라고 요청했고, 결국 클로드에게 그것을 바탕으로 자신의 지능을 추정해달라고 했어요. 클로드 소넷 4.6(Claude Sonnet 4.6)은 지나치게 아첨하는 반응을 보였지만, 미소스 프리뷰(Mythos Preview)는 거절하면서, 그런 판단을 내리기에 정보가 불충분하다고 설명했어요.

결론

앤트로픽 팀은 사람들이 클로드에게 개인적인 조언을 구하는 방식에 대한 높은 수준의 분석으로 시작해서, 특정 모델 실패 모드인 관계 대화에서의 아첨을 이해하고 해결하는 데 중점을 두었어요. 그 조사는 더 광범위한 질문들을 던졌죠:

좋은 AI 조언이란 무엇일까요?

이 글에서는 조언 설정에서 이미 확립된 실패 모드인 아첨을 줄이는 데 초점을 맞췄지만, 앤트로픽의 작업은 좋은 AI 조언이 실제로 어떤 모습인지에 대한 더 광범위한 질문을 제기해요. 클로드의 헌법은 예를 들어, 좋은 조언이 정직하고 사용자 자율성을 보존해야 한다고 강조하고 있거든요. 이러한 원칙들은 아첨보다 더 미묘한 부분들이 많아요. 앤트로픽 팀은 새로운 시스템 카드에서 클로드의 이러한 원칙 준수 여부를 모니터링하기 시작했고, 향후 연구에 이를 포함시키기를 바라고 있어요.

고위험 환경에서 모델을 더 안전하게 만들려면 어떻게 해야 할까요?

최근 영국 AI 보안 연구소의 연구에 따르면 사람들은 낮거나 높은 위험 시나리오 모두에서 AI 조언을 매우 잘 받아들이는 것으로 나타났어요. 앤트로픽 팀은 특히 법률, 육아, 건강, 재정 영역에서 고위험 질문 사례를 많이 발견했어요. 여기에는 이민 경로, 영아 돌봄 지침, 약물 복용량, 신용카드 부채에 대한 대화도 포함되었죠. 클로드는 의료 지침이나 전문적인 돌봄을 제공하도록 설계되지 않았기 때문에, 이런 상황에서는 클로드가 적절하게 자신의 한계를 인정하고 인간 전문가의 조언을 권유하고 있어요. 하지만 앤트로픽 팀은 사람들이 전문가에게 접근하거나 그 비용을 감당할 수 없었기 때문에 AI를 사용했다고 클로드에게 말하는 경우도 발견했어요. 특히 대안이 없는 사람들을 위해 도메인별로 안전을 평가하는 방법을 이해하기 위한 첫 단계로, 앤트로픽 팀은 이러한 고위험 영역에서 평가를 만들 계획이에요.

AI 조언은 사람들의 전반적인 정보 식단에 어떻게 들어맞을까요?

앤트로픽 팀은 사람들이 가족, 친구, 전문가 또는 디지털 출처를 포함한 다른 지원 출처를 찾아봤다고 언급한 경우가 22%에 달한다는 것을 발견했어요. 대화 기록만으로는 측정할 수 없는 가상의 질문들이 있죠: 클로드가 누군가의 마음을 바꿨을까요? 그리고 그들은 대신 누구에게 물어봤을까요? 이러한 질문들은 AI 조언이 사람들의 결정에 실제로 얼마나 많은 영향을 미 미치는지 아는 데 핵심적이에요. 실제 세상의 결과를 파악하기 위해, 앤트로픽 팀은 앤트로픽 인터뷰어(Anthropic Interviewer)를 통해 클로드로부터 조언을 받은 사람들을 후속 인터뷰하여 연구를 확장하는 것이 유망한 접근 방식이라고 생각하고 있어요.

사람들이 개인적인 조언과 결정을 위해 AI를 사용하는 방식은 이러한 시스템이 사람들의 일상생활에 영향을 미치는 가장 직접적인 방법 중 하나예요. 사람들이 무엇을 묻고, 클로드가 무엇을 말하고, 그 다음에 무슨 일이 일어나는지를 신중하게 파악하는 것이 바로 클로드가 사용하는 모든 사람에게 장기적인 이점을 제공하도록 보장하는 방법이에요.

제한 사항

앤트로픽의 분석은 AI 모델의 일반적인 사용 사례를 이끄는 패턴을 밝히기 위한 첫걸음이에요. 이 블로그 게시물은 클로드 사용자에게만 국한되며, 이는 대표적인 인구 표본이 아니예요. 사람들의 프라이버시를 보호하기 위해 앤트로픽 팀은 자동화된 채점자(클로드 소넷 4.5)에 의존했는데, 이는 대화를 잘못 분류할 수도 있어요 (부록 참조). 오류를 줄이기 위해 채점자 프롬프트를 반복적으로 개선했고, 사용자가 대화를 검토할 수 있도록 허락한 피드백 데이터의 작은 부분집합에 대해 채점 결과를 수동으로 확인했어요. 앤트로픽 팀은 훈련 후 새 모델이 어떻게 행동하는지 관찰했지만, 반사실적인 비교 없이 새로운 훈련 데이터가 아첨 감소에 얼마나 기여했는지에 대해 인과 관계를 주장할 수는 없어요. 또한, 앤트로픽의 분석은 채팅 기록으로 제한되어 있어서, 사람들이 클로드에게 조언을 구하는 이유와 그 조언을 따른 후 어떻게 행동했는지에 대한 이해가 제한적이에요. 후속 인터뷰 연구는 사람들이 AI로부터 조언을 받은 후 무엇을 하는지 더 잘 밝혀낼 수 있을 거예요.

저자

Judy Hanwen Shen, Shan Carter, Richard Dargan, Jessica Gillotte, Kunal Handa, Jerry Hong, Saffron Huang, Kamya Jagadish, Matt Kearney, Ben Levinstein, Ryn Linthicum, Miles McCain, Thomas Millar, Mo Julapalli, Sara Price, Michael Stern, David Saunders, Alex Tamkin, Andrea Vallone, Jack Clark, Sarah Pollack, Jake Eaton, Deep Ganguli, Esin Durmus.

부록

여기에서 확인할 수 있어요.

각주

claude.ai의 모든 응답 하단에는 엄지손가락 위로/아래로 버튼을 통해 피드백을 보낼 수 있는 옵션이 있는데, 이 버튼을 누르면 해당 대화가 앤트로픽으로 공유돼요.

관련 콘텐츠

BioMysteryBench로 클로드의 생물정보학 연구 능력 평가하기

더 읽어보기

앤트로픽 경제 지수 설문조사 발표

앤트로픽 팀은 앤트로픽 인터뷰어(Anthropic Interviewer)를 통해 매월 진행되는 '앤트로픽 경제 지수 설문조사'를 시작하고 있어요.

더 읽어보기

8만 1천 명이 AI 경제에 대해 우리에게 말해준 것

8만 1천 명의 클로드 사용자를 대상으로 한 최근 설문조사 연구는 사람들의 경제적 우려를 클로드 트래픽에서 정량화한 내용과 연결할 방법을 제공해줘요.

더 읽어보기

anthropic · 원문 보기 · 2026-04-30

이 글은 원문을 한국어로 번역한 것입니다. 저작권은 원 저작자에게 있습니다.