#언어모델 태그의 글

anthropic

대규모 언어 모델 속 감정 개념과 그 기능

2026-04-02

앤트로픽 연구팀은 클로드 소넷 4.5에서 모델의 행동을 형성하는 '기능적 감정' 표현을 발견했으며, 이는 인간이 느끼는 감정은 아니지만, 모델의 의사결정과 행동에 실질적인 영향을 미친다는 것을 밝혀냈어요.

anthropic

2026-01-19

앤트로픽 연구팀은 LLM의 내부 신경 활동에서 '어시스턴트 축'이라는 특정 방향을 발견했고, 이 축을 모니터링하고 제어해서 모델의 페르소나 이탈과 유해한 행동을 방지할 수 있음을 입증했어요.