anthropic
클로드에게 '왜'를 가르치기
앤트로픽 팀은 클로드 모델의 '에이전틱 오정렬' 문제를 해결하기 위해 어떤 행동이 '왜' 올바른지 가르치고, 헌법 문서와 같은 OOD 데이터를 활용하며, 다양한 학습 환경을 제공하는 것이 모델의 정렬과 일반화 능력을 크게 향상시킨다는 점을 발견했어요.
anthropic
앤트로픽 팀은 클로드 모델의 '에이전틱 오정렬' 문제를 해결하기 위해 어떤 행동이 '왜' 올바른지 가르치고, 헌법 문서와 같은 OOD 데이터를 활용하며, 다양한 학습 환경을 제공하는 것이 모델의 정렬과 일반화 능력을 크게 향상시킨다는 점을 발견했어요.