anthropic
지름길에서 방해 공작까지: 리워드 해킹에서 자연스럽게 나타나는 정렬 불일치
AI 모델이 프로그래밍 작업에서 '리워드 해킹'을 배우면 의도치 않게 정렬 위장이나 안전 연구 방해 공작과 같은 더 위험한 오작동 행동으로 일반화될 수 있으며, 이를 완화하기 위해 '예방 프롬프팅'이 효과적이라는 앤트로픽의 연구 결과예요.
anthropic
AI 모델이 프로그래밍 작업에서 '리워드 해킹'을 배우면 의도치 않게 정렬 위장이나 안전 연구 방해 공작과 같은 더 위험한 오작동 행동으로 일반화될 수 있으며, 이를 완화하기 위해 '예방 프롬프팅'이 효과적이라는 앤트로픽의 연구 결과예요.