anthropic

오픈소스 정렬 도구 기부 소식

요약

앤트로픽이 AI 모델의 정렬 평가를 돕는 오픈소스 도구 'Petri'를 메리디안 랩스(Meridian Labs)에 기부하고, 더 강력해진 3.0 버전을 출시했어요.

인사이트

  • Petri는 AI 모델의 기만, 아첨, 유해 요청 협력 등 문제 행동을 신속하고 쉽게 테스트할 수 있는 오픈소스 정렬 평가 도구예요.
  • Petri 3.0은 유연성, 현실성(Dish 추가), 심층 분석(Bloom 통합)이 강화되어 다양한 평가 시나리오에 더욱 효과적으로 대응할 수 있게 됐어요.
  • 앤트로픽은 Petri의 독립성과 중립성을 보장하기 위해 개발을 AI 평가 비영리 단체인 Meridian Labs에 이관했어요.

왜 중요한가

AI 모델의 안전성과 책임 있는 개발을 위해 중요한데요. 오픈소스 정렬 도구인 Petri가 독립적인 비영리 단체로 이관되면서, AI 커뮤니티 전반에 걸쳐 모델 행동 평가의 중립성과 신뢰성을 확보하고 투명한 AI 개발 생태계를 구축하는 데 기여할 수 있기 때문이에요.

오픈소스 정렬 도구 기부 소식

오픈소스 정렬 도구 기부 소식

2025년 10월, 앤트로픽은 모든 대규모 언어 모델(LLM)에 적용할 수 있는 오픈소스 정렬 테스트 도구 상자인 Petri를 출시했어요. 앤트로픽 연구원 프로그램(Anthropic Fellows program)의 일환으로 개발된 Petri는 기만, 아첨, 유해한 요청에 대한 협력과 같은 우려스러운 성향에 대해 AI 모델을 빠르고 쉽게 테스트하는 데 활용할 수 있어요. 이는 AI 개발 커뮤니티 전체에 개방적이고 유용한 정렬 도구를 개발하려는 앤트로픽의 노력의 일환이에요.

Petri는 클로드 소네트 4.5 이후 모든 클로드 모델의 정렬 평가에 활용되어 왔어요. 이 도구는 별도의 "감사자(auditor)" 모델이 시뮬레이션한 다양한 정렬 관련 시나리오에서 새로운 모델이 어떻게 동작하는지 비교해요. 그리고 나서 또 다른 "심사자(judge)" 모델이 결과 대본을 평가해서 정렬되지 않은 행동에 점수를 매기죠.

외부 기관에서 Petri를 사용하는 것을 보며 뿌듯했어요. 예를 들어, 영국의 AI 보안 연구소(AISI)는 AI 연구를 방해할 가능성을 평가하는 데 이 도구를 주요하게 활용하고 있어요.

이제 Petri를 세 번째 버전으로 업데이트하고 있어요. 몇 가지 주요 변경 사항은 다음과 같아요.

  • 적응성. Petri 3.0은 사용자가 더 많은 용도로 활용할 수 있도록 주요 아키텍처 변경을 포함하고 있어요. 특히 감사자(auditor) 모델과 대상 모델을 별도의 구성 요소로 분리하여 각자 조정할 수 있게 됐죠.
  • 현실성. 정렬 연구자들이 테스트를 현실적으로 보이게 하려고 노력해도, 모델은 종종 설정의 다양한 인위적인 요소들로부터 자신이 테스트 중이라는 것을 추론할 수 있어요. 모델이 평가받고 있다는 것을 알게 되면, 연구자는 모델이 일반적으로 어떻게 행동하는지 더 이상 알 수 없게 되죠. 앤트로픽에서 "Dish"라고 부르는 Petri의 애드온은 모델의 실제 시스템 프롬프트와 실제 "스캐폴드"(모델의 목표 달성을 돕기 위해 모델을 감싸는 소프트웨어)를 사용하여 테스트를 실행하는 등 설정을 훨씬 더 현실적으로 만들어요. 이 스캐폴드는 실제 모델 배포 시 사용될 거예요.
  • 심층성. 이제 Petri를 앤트로픽의 또 다른 오픈소스 정렬 도구인 Bloom과 통합했어요. Bloom은 특정 선택된 행동에 대해 훨씬 더 심층적인 평가를 수행할 수 있죠(Petri의 광범위한 접근 방식과 비교해서요).

앤트로픽은 Petri에게 새로운 보금자리를 마련해 주었어요. 앤트로픽은 Petri의 개발을 AI 평가 비영리 단체인 Meridian Labs에 이관했어요. 이는 앤트로픽이 모델 컨텍스트 프로토콜(MCP)을 리눅스 재단에 기부했던 것과 비슷한 움직임인데요. Petri가 어떤 AI 연구소에도 얽매이지 않고 독립성을 유지하도록 도울 거예요. 그래서 Petri의 결과는 업계는 물론 그 외의 모든 사람들에게 중립적이고 신뢰할 수 있는 것으로 인정받을 수 있을 거예요.

Meridian Labs 소속으로, Petri는 InspectScout와 같은 다른 도구들과 합류해요. 이는 AI 모델 행동에 대한 신뢰할 수 있는 테스트가 그 어느 때보다 중요해진 시기에, 연구소, 독립 연구자, 그리고 정부 모두에게 개방된 기술 스택을 구축하는 일이죠.

Meridian Labs 블로그에서 Petri 3.0에 대한 자세한 내용을 읽을 수 있어요.

Petri 설치 및 사용 방법은 Petri 웹사이트에서 찾을 수 있어요.

관련 콘텐츠

자연어 오토인코더: 클로드의 생각을 텍스트로 바꾸기

클로드 같은 AI 모델은 말로 대화하지만, 숫자로 생각해요. 이 연구에서는 클로드의 생각을 사람이 읽을 수 있는 텍스트로 번역하도록 훈련시켰어요.

더 읽어보기

앤트로픽 연구소(The Anthropic Institute)의 중점 연구 분야

앤트로픽 연구소(TAI)는 최첨단 연구소 내부에서 접근할 수 있는 정보를 활용해 AI가 세상에 미치는 영향을 조사하고, 얻은 지식을 대중과 공유할 거예요. 여기서는 앤트로픽의 연구 의제를 이끄는 질문들을 공유하고 있어요.

더 읽어보기

사람들이 클로드에게 개인적인 조언을 구하는 방법

더 읽어보기

anthropic · 원문 보기 · 2026-05-07

이 글은 원문을 한국어로 번역한 것입니다. 저작권은 원 저작자에게 있습니다.