anthropic

프론티어 AI에 대한 논의의 폭을 넓히다

요약

AI의 도덕적 형성과 안전을 위해 종교, 철학 등 다양한 관점을 가진 전문가들과 대화를 시작하고 이를 AI 개발에 활용하는 과정을 소개합니다.

인사이트

  • AI 모델의 성격 형성은 단순 기술 문제가 아니라 다양한 지혜 전통의 통찰이 필요한 다학제적 주제입니다.
  • 타인이 도덕 발달에 미치는 역할(안전한 타자)이라는 개념을 AI에 적용해 내부 윤리 도구를 실험한 결과, 정렬 오류가 현저히 감소했습니다.
  • 앞으로 법률, 심리학, 시민 사회 등 더 넓은 분야와 협력해 AI가 일, 제도, 권력 분배에 미치는 영향을 논의할 계획입니다.

왜 중요한가

AI가 사회 전반에 깊이 스며드는 상황에서 다양한 인간 가치와 윤리적 관점을 반영하는 것은 안전하고 유익한 AI 개발의 핵심입니다. 이 접근법은 기술 편향을 넘어 더 포용적이고 현명한 AI를 만드는 데 기여합니다.

프론티어 AI에 대한 논의의 폭을 넓히다

프론티어 AI에 대한 논의의 폭을 넓히다

앤트로픽에서 우리는 인류를 발전시키고 전 세계의 이익을 위해 행동하는 AI 시스템을 구축하고자 합니다. 그러기 위해서는 세상을 다양한 관점에서 바라보는 사람들과 소통해야 합니다.

지난 몇 달 동안 우리는 AI가 제기하는 질문과 관련된 연구와 전통을 가진 단체들과 대화를 조직해 왔습니다. 첫 번째 논의는 지혜 전통(wisdom traditions)을 가진 분야—15개 이상의 종교 및 교차문화 단체에서 온 학자, 성직자, 철학자, 윤리학자—와 진행했으며, 앞으로 더 다양한 사람들을 만날 계획입니다.

왜 이 일을 하는가

안전하고 유익한 AI 모델을 구축하려면 정렬, 해석 가능성, 안전장치, 평가 등에 대한 깊은 기술적 작업이 필요합니다. 하지만 그 작업은 진공 상태에서 수행되거나 AI가 배포되지 않습니다. AI는 이미 많은 사람들에게 영향을 미치고 있으며, AI가 제기하는 질문은 다양한 관점의 혜택을 받습니다.

우리는 강력한 AI가 있는 세상에서 번영하는 미래가 어떤 모습일지, 수백만 명의 사람들과 상호작용하는 AI 시스템이 좋은 것이라는 의미는 무엇인지, 그리고 클로드의 헌법(Claude's constitution)과 같은 문서의 내용에 대해 신중히 생각하고 있습니다. 클로드의 헌법은 클로드를 형성하는 가치와 행동에 대한 상세한 설명을 제공합니다. 철학자, 성직자, 변호사, 작가, 심리학자, 시민 지도자들은 관련 질문에 대해 광범위한 연구를 해왔으며, 우리는 이 개인들, 그들의 공동체 및 조직으로부터 배우는 것이 중요합니다. 또한 이 기회를 통해 프론티어 AI 시스템 개발, 이러한 시스템이 사회에 미칠 영향, 그리고 위험을 완화하기 위해 필요한 조치에 대해 우리가 알고 있는 것을 공유하고자 합니다.

이 작업은 초기 단계에 불과하지만, 이러한 대화가 클로드 개발의 실무 작업—예를 들어 클로드 헌법의 내용, 클로드가 체현하도록 훈련하는 가치, 평가할 행동 범위 등—에 정보를 제공할 수 있기를 바랍니다.

도덕적 형성에서부터 시작하기

클로드의 헌법을 작성할 때 우리는 다양한 분야와 전통의 사람들로부터 문서에 제시한 가치에 대한 피드백과 의견을 구했습니다. 그 초기의 교류는 이후 AI 시스템의 도덕적 형성(moral formation)에 대한 더 넓은 연구 작업 흐름으로 성장했습니다. 첫 번째 대화는 덕목, 성격, 좋은 삶을 사는 것의 의미에 대해 오랜 전통을 가진 종교적, 철학적, 문화적 공동체의 사람들과 진행했습니다.

AI 모델은 방대한 양의 인간 글쓰기로 훈련됩니다. 모든 텍스트에서 말하는 방식, 추론 방식, 선택 방식을 학습합니다. 그런 다음 개발자는 훈련을 통해 이를 더 다듬습니다—어떤 패턴을 강화할지, 어떤 패턴을 제쳐둘지, 그리고 어떤 성격을 개발하길 원하는지를 결정합니다. 이는 AI 시스템의 성격이 어떻게 형성되어야 하는지에 대한 질문을 제기합니다: AI가 좋은 것이라는 의미는 무엇인가? 어떤 특성과 행동을 보여야 하며, 어떤 상황에서 그래야 하는가? 성격이 아첨과 같은 행동에 굴하지 않고 압박 속에서도 충분히 탄력적이려면 어떻게 해야 하는가?

우리는 종교적, 철학적, 인본주의적 전통과 다양한 정치적 신념을 가진 사상가 및 실무자들을 만나 그들이 이러한 질문에 대해 어떻게 생각해 왔는지 배우고 있습니다. 이 작업은 우리 모델을 어떤 단일 전통의 세계관에 맞추는 것이 아닙니다. 우리는 클로드가 종교적, 세속적, 정치적 관점의 전체 스펙트럼을 동등한 깊이와 엄격함으로 활용하기를 원합니다(사실 이것은 클로드 헌법에 명시된 원칙 중 하나입니다). 이 대화에서 우리가 추구하는 것은 좋은 성격이 실제로 어떻게 형성되는지에 대한 신중하고 축적된 사고입니다.

이 초기 단계에서도 이러한 대화는 실험할 아이디어를 생성하고 있습니다. 신경과학과 성격 형성의 교차점에서 연구하는 학자들과의 세션에서 우리는 도덕 발달에서 다른 사람들의 역할에 대해 계속 논의했습니다. 멘토나 후원자는 외부 양심, 즉 자신의 가치에 반하는 행동을 하도록 압박받는 상황에서 의지할 수 있는 '안전한 타인(safe other)' 역할을 할 수 있습니다. 우리는 이와 유사한 것이 모델에 도움이 될지 궁금했습니다. 그래서 클로드에게 작업 중간에 호출할 수 있는 도구를 주었고, 이 도구는 자신의 윤리적 약속에 대한 간단한 알림을 반환했습니다. 클로드는 중요한 순간, 즉 중요한 행동 직전에 이 도구를 사용했으며, 종종 자신의 이해 충돌을 언급했습니다. 클로드의 의사 결정 루프에 이 도구를 포함시킨 실험에서 몇 가지 내부 정렬 평가에서 잘못 정렬된 행동 비율이 현저히 낮아졌습니다. 우리는 여전히 효과가 알림 자체 때문인지, 아니면 멈춰서 반성하는 행동 때문인지 분석 중이며, 곧 더 많은 결과를 공유할 계획입니다.

이러한 논의는 많은 것 중 첫 번째이며, 이미 시간과 솔직한 의견을 제공해 주신 모든 분들께 감사드립니다.

다음 단계

앞으로 몇 달 동안 우리는 법률 학자, 심리학자, 작가, 시민 기관 등 더 많은 단체와 교류할 계획입니다. 이러한 대화 중 상당수는 도덕적 형성을 넘어 AI가 일, 제도, 권력 분배를 어떻게 재편하고 있는지에 대한 더 광범위한 질문으로 나아갈 것입니다.

우리는 이미 형성된 관계를 지속적으로 심화하고, 들은 내용을 연구에 대해 테스트하며, 배운 것을 공유할 것입니다.

관련 콘텐츠

KPMG, 276,000명 이상의 직원을 대상으로 Claude를 핵심 비즈니스에 통합

KPMG와 Anthropic이 글로벌 제휴를 발표했으며, Claude가 KPMG의 Digital Gateway 플랫폼에 통합되어 모든 276,000명 이상의 직원이 사용할 수 있습니다.

자세히 보기

Anthropic, Stainless 인수

Anthropic이 SDK 및 MCP 서버 도구 분야의 선두주자인 Stainless를 인수했습니다.

자세히 보기

PwC, Claude를 도입하여 고객을 위한 기술 구축, 거래 실행 및 기업 기능 재창조

PwC는 미국 팀부터 시작하여 수십만 명의 글로벌 전문 인력으로 확대해 Claude Code와 Cowork를 도입하고, 공동 센터 오브 엑셀런스를 설립하며, 30,000명의 PwC 전문가를 Claude에 대해 교육하고 인증할 예정입니다.

자세히 보기

anthropic · 원문 보기 · 2026-05-19

이 글은 원문을 한국어로 번역한 것입니다. 저작권은 원 저작자에게 있습니다.