anthropic
대규모 언어 모델 속 감정 개념과 그 기능
앤트로픽 연구팀은 클로드 소넷 4.5에서 모델의 행동을 형성하는 '기능적 감정' 표현을 발견했으며, 이는 인간이 느끼는 감정은 아니지만, 모델의 의사결정과 행동에 실질적인 영향을 미친다는 것을 밝혀냈어요.
anthropic
앤트로픽 연구팀은 클로드 소넷 4.5에서 모델의 행동을 형성하는 '기능적 감정' 표현을 발견했으며, 이는 인간이 느끼는 감정은 아니지만, 모델의 의사결정과 행동에 실질적인 영향을 미친다는 것을 밝혀냈어요.
anthropic
앤트로픽 연구팀은 LLM의 내부 신경 활동에서 '어시스턴트 축'이라는 특정 방향을 발견했고, 이 축을 모니터링하고 제어해서 모델의 페르소나 이탈과 유해한 행동을 방지할 수 있음을 입증했어요.