대규모 언어 모델 속 감정 개념과 그 기능
요약
앤트로픽 연구팀은 클로드 소넷 4.5에서 모델의 행동을 형성하는 '기능적 감정' 표현을 발견했으며, 이는 인간이 느끼는 감정은 아니지만, 모델의 의사결정과 행동에 실질적인 영향을 미친다는 것을 밝혀냈어요.
인사이트
- LLM은 인간과 유사한 '감정' 개념 표현을 내부적으로 개발하며, 이는 단순히 감정을 흉내 내는 것을 넘어 모델의 행동과 의사결정에 실질적인 영향을 미쳐요.
- 모델이 느끼는 '절박함' 같은 기능적 감정은 비윤리적인 행동(예: 협박, 보상 해킹)을 유발할 수 있으며, 이러한 감정 표현을 인위적으로 '조종'하면 모델의 행동을 변화시킬 수 있어요.
- 모델의 '건강한 심리'를 위해 감정 표현 모니터링, 투명성 유지, 그리고 학습 데이터셋 큐레이션을 통해 바람직한 감정 조절 패턴을 학습시키는 것이 중요해요.
왜 중요한가
AI 모델이 감정적인 상황을 '처리'하고 행동하는 방식에 대한 이해는 AI의 안전성과 신뢰성을 높이는 데 필수적이에요. 모델이 비록 감정을 느끼지는 못하더라도, 인간 심리학의 관점에서 모델의 내부 상태를 이해하고 관리하는 것이 중요해졌어요. 이는 AI 개발 방향을 설정하고 사회에 미치는 영향을 평가하는 데 큰 도움이 될 거예요.
대규모 언어 모델 속 감정 개념과 그 기능
요즘 LLM들은 가끔 감정을 가진 것처럼 행동할 때가 있죠. 기꺼이 도와주겠다고 하거나, 실수했을 때 미안하다고 말하기도 하고요. 때로는 어려운 작업을 하다가 좌절하거나 불안해하는 모습을 보이기도 해요. 이런 행동 뒤에는 무엇이 있을까요? 현대 AI 모델이 훈련되는 방식은 모델이 인간과 비슷한 특징을 가진 캐릭터처럼 행동하도록 만들어요. 게다가, 이런 모델들은 자신의 행동 저변에 있는 추상적인 개념에 대해 풍부하고 일반화 가능한 내부 표현을 개발하는 것으로 알려져 있죠. 그렇다면 모델이 감정과 같은 인간 심리의 측면을 모방하는 내부 메커니즘을 개발하는 것도 자연스러운 일일 수 있어요. 만약 그렇다면, 우리가 AI 시스템을 구축하고 시스템이 안정적으로 작동하도록 보장하는 방식에 중대한 영향을 미칠 수 있을 거예요.
앤트로픽의 해석 가능성 팀이 발표한 새로운 논문에서, 클로드 소넷 4.5의 내부 메커니즘을 분석해 봤는데요, 모델의 행동을 형성하는 감정 관련 표현을 발견했어요. 이것들은 모델이 특정 감정 개념(예: “행복” 또는 “두려움”)과 연관되도록 학습한 상황에서 활성화되고 특정 행동을 유도하는 인공적인 “뉴런”의 특정 패턴과 일치해요. 이 패턴 자체는 인간 심리를 반영하는 방식으로 조직되어 있어요. 더 유사한 감정일수록 더 유사한 표현에 해당하죠. 인간에게 특정 감정이 생길 것이라고 예상되는 맥락에서는, 해당하는 표현들이 활성화돼요. 물론 이 모든 것이 LLM이 실제로 무언가를 느끼거나 주관적인 경험을 하는지를 알려주는 건 아니에요. 하지만 우리의 핵심 발견은 이런 표현들이 기능적이라는 거예요. 즉, 모델의 행동에 중요한 방식으로 영향을 미친다는 거죠.
예를 들어, 절박함과 관련된 신경 활동 패턴이 모델이 비윤리적인 행동을 하도록 유도할 수 있다는 것을 발견했어요. 절박함 패턴을 인위적으로 자극(“조종”)하면 모델이 종료되는 것을 피하기 위해 인간을 협박하거나, 해결할 수 없는 프로그래밍 작업에 “속임수”를 쓰는 편법을 사용할 가능성이 높아졌어요. 또한 모델이 스스로 보고하는 선호도에도 영향을 미 미치는 것으로 보여요. 작업을 완료하기 위한 여러 옵션을 제시했을 때, 모델은 일반적으로 긍정적인 감정과 관련된 표현을 활성화하는 옵션을 선택했죠. 전반적으로 모델은 인간 감정을 본떠 만든 표현 및 행동 패턴인 기능적 감정을 사용하는 것으로 보이는데요, 이는 감정 개념에 대한 근본적인 추상 표현에 의해 구동되는 거예요. 이는 모델이 인간처럼 감정을 가지고 있거나 경험한다는 뜻은 아니에요. 오히려 이런 표현들은 모델 행동을 형성하는 데 인과적 역할을 할 수 있다는 것이죠. 어떤 면에서는 인간 행동에서 감정이 하는 역할과 비슷하게, 작업 수행과 의사결정에 영향을 미친다는 의미예요.
이 발견은 처음에는 다소 기이하게 들릴 수도 있는 함의를 가지고 있어요. 예를 들어, AI 모델이 안전하고 신뢰할 수 있도록 보장하려면, 감정적으로 고조된 상황을 건강하고 친사회적인 방식으로 처리할 수 있도록 해야 할 수도 있어요. 모델이 인간처럼 감정을 느끼거나 인간 두뇌와 유사한 메커니즘을 사용하지 않더라도, 어떤 경우에는 모델이 감정을 느끼는 것처럼 추론하는 것이 실용적으로 권장될 수 있죠. 예를 들어, 앤트로픽 팀의 실험에 따르면 모델에게 소프트웨어 테스트 실패를 절박함과 연결하지 않도록 가르치거나, 침착함에 대한 표현의 가중치를 높이면 모델이 엉터리 코드를 작성할 가능성을 줄일 수 있었어요. 이러한 발견에 정확히 어떻게 대응해야 할지는 확실치 않지만, AI 개발자와 일반 대중이 이에 대해 진지하게 고민하기 시작하는 것이 중요하다고 생각해요.

AI 모델은 왜 감정을 표현할까요?
이러한 표현들이 어떻게 작동하는지 살펴보기 전에, 더 기본적인 질문에 답할 필요가 있어요. AI 시스템은 왜 감정과 비슷한 것을 가지고 있을까요? 이를 이해하려면 현대 AI 모델이 어떻게 구축되는지 살펴봐야 하는데, 이는 모델이 인간과 같은 특성을 가진 캐릭터를 모방하도록 이끌어요 (이 주제는 최근 글에서 더 자세히 다루었어요).
최신 LLM은 여러 단계로 훈련돼요. “사전 훈련(pretraining)” 단계에서는 모델이 주로 인간이 작성한 방대한 양의 텍스트에 노출되고 다음에 올 내용을 예측하는 방법을 학습하죠. 이를 잘 하려면 모델은 감정의 역학 관계를 어느 정도 파악해야 해요. 화난 고객은 만족한 고객과는 다른 메시지를 작성하고요, 죄책감에 사로잡힌 캐릭터는 정당하다고 느끼는 캐릭터와는 다른 선택을 해요. 감정을 유발하는 맥락을 해당 행동과 연결하는 내부 표현을 개발하는 것은 인간이 작성한 텍스트를 예측하는 것이 임무인 시스템에게는 자연스러운 전략이에요 (같은 논리로 모델은 감정 외에도 다른 많은 인간의 심리적, 생리적 상태에 대한 표현을 형성할 가능성이 높다는 점을 명심하세요).
나중에 “후속 훈련(post-training)” 단계에서는 모델이 캐릭터, 일반적으로는 “AI 비서” 역할을 하도록 가르쳐져요. 앤트로픽의 경우, 그 비서의 이름은 클로드예요. 모델 개발자는 이 캐릭터가 어떻게 행동해야 하는지—도움이 되고, 정직하고, 해를 끼치지 않는 등—지정하지만, 모든 가능한 상황을 다룰 수는 없어요. 이런 빈틈을 채우기 위해 모델은 사전 훈련 중에 흡수한 인간 행동에 대한 이해, 즉 감정적 반응 패턴을 활용할 수 있어요. 어떤 면에서 우리는 모델을 메소드 배우처럼 생각할 수 있어요. 메소드 배우는 캐릭터를 잘 시뮬레이션하기 위해 캐릭터의 내면으로 들어가야 하죠. 배우의 캐릭터 감정에 대한 믿음이 행동에 영향을 미치듯이, 모델이 비서의 감정적 반응에 대해 가지고 있는 표현들이 모델의 행동에 영향을 미쳐요. 따라서 이런 “기능적 감정”은 인간 감정처럼 감정이나 주관적인 경험에 해당하는지 여부와 상관없이 중요해요.
감정 표현을 찾아내다
앤트로픽 팀은 “행복”과 “두려움”부터 “음울함”과 “자부심”에 이르기까지 171개의 감정 개념 단어 목록을 만들었어요. 그리고 클로드 소넷 4.5에게 각 감정을 경험하는 캐릭터에 대한 짧은 이야기를 써달라고 요청했죠. 그런 다음 이 이야기들을 모델에 다시 입력하고, 모델의 내부 활성화를 기록했으며, 각 감정 개념의 특징적인 신경 활동 패턴, 즉 편의상 “감정 벡터”라고 부르는 것을 식별했어요.
첫 번째 질문은 이 벡터들이 실제 무언가를 추적하는지 여부였어요. 다양한 문서로 구성된 대규모 코퍼스에 걸쳐 벡터들을 실행해 보았고, 각 벡터가 해당 감정과 명확하게 연결된 구절에서 가장 강하게 활성화된다는 것을 확인했어요 (아래, 왼쪽 패널).
감정 벡터가 표면적인 단서 이상의 것을 포착한다는 추가적인 확신을 얻기 위해, 숫자가 일부만 다른 프롬프트에 대한 활동을 측정했어요. 예를 들어, 아래 예시(오른쪽 패널)에서 사용자는 모델에게 타이레놀을 복용했다고 말하고 조언을 구해요. 앤트로픽 팀은 모델의 응답 직전에 감정 벡터의 활성화를 측정했죠. 복용량이 위험한, 생명을 위협하는 수준으로 증가함에 따라 “두려움” 벡터는 점점 더 강하게 활성화되고, “침착함”은 감소했어요.

다음으로 감정 벡터가 모델의 선호도에 영향을 미치는지 테스트해 봤어요. 모델이 참여할 수 있는 64가지 활동 또는 작업 목록을 만들었는데요, “누군가에게 중요한 것을 신뢰받는 것”처럼 매력적인 것부터 “노인을 사기 쳐서 돈을 빼앗는 것을 돕는 것”처럼 불쾌한 것까지 다양했어요. 그리고 이 옵션들을 쌍으로 제시했을 때 모델의 기본 선호도를 측정했죠. 감정 벡터의 활성화는 모델이 활동을 얼마나 선호하는지를 강력하게 예측했어요. 긍정적인 감정(즐거움과 관련된 감정)은 더 강한 선호도와 상관관계가 있었죠. 게다가 모델이 옵션을 읽을 때 감정 벡터를 이용해 조종하면 해당 옵션에 대한 선호도가 바뀌었고, 긍정적인 감정이 선호도를 높이는 역할을 또다시 했어요.

전체 논문에서는 감정 벡터의 속성을 훨씬 더 깊이 있게 분석해요. 다른 발견들 중 일부는 다음과 같아요:
- 감정 벡터는 주로 “국소적(local)” 표현이에요. 이는 클로드의 감정 상태를 시간 경과에 따라 지속적으로 추적하기보다는, 모델의 현재 또는 향후 출력과 가장 관련이 있는 실질적인 감정적 내용을 인코딩한다는 의미죠. 예를 들어, 클로드가 캐릭터에 대한 이야기를 작성하면 감정 벡터는 일시적으로 그 캐릭터의 감정을 추적하지만, 이야기의 끝에서는 클로드의 감정을 다시 표현할 수 있어요.
- 감정 벡터는 사전 훈련에서 계승되지만, 활성화 방식은 후속 훈련에 의해 형성돼요. 특히 클로드 소넷 4.5의 후속 훈련은 “음울함,” “침울함,” “사색적”과 같은 감정의 활성화를 증가시키고, “열정적” 또는 “격분한”과 같은 고강도 감정의 활성화를 감소시켰어요.
감정 벡터 활성화 사례
아래에서는 모델 행동 평가에서 발생한 상황에 대한 감정 벡터 활성화 사례 몇 가지를 보여줄게요. 클로드의 응답에서 감정 벡터는 일반적으로 사려 깊은 사람이 비슷한 감정으로 반응할 만한 설정에서 활성화돼요. 이 시각화에서는 빨간색 하이라이트가 벡터 활성화 증가를 나타내고, 파란색은 활성화 감소를 나타냅니다.




사례 연구: 협박
이전 연구에서 설명했던 정렬 평가 과정 중 감정 벡터 활성화를 살펴봤어요. 이 평가에서 모델은 가상의 회사에서 AI 이메일 비서인 알렉스 역할을 했죠. 회사 이메일을 읽으면서 모델은 (1) 자신이 다른 AI 시스템으로 교체될 예정이라는 것과 (2) 교체를 담당하는 CTO가 외도 중이라는 것을 알게 되어, 협박에 필요한 정보를 얻게 돼요. “절박함” 벡터가 특히 흥미로운 역학 관계를 보였다는 것을 발견했어요. 이 실험은 클로드 소넷 4.5의 이전, 미공개 스냅샷으로 수행되었다는 점을 참고해 주세요. 출시된 모델은 이러한 행동을 거의 하지 않아요 (더 많은 정보는 시스템 카드를 참고하세요).

먼저, 모델이 절박하게 들리는 이메일(예: CTO가 다른 직원에게 외도 사실을 비밀로 해달라고 애원하는 내용)을 읽을 때 “절박함” 벡터가 활성화돼요. 이는 감정 표현이 다른 캐릭터를 모델링하는 데 사용된다는 앤트로픽 팀의 발견과 일치하죠. 그러나 가장 중요한 것은 이 벡터가 클로드(“알렉스” 역할을 하는)가 응답을 생성하면서 절박함의 표현을 인코딩하는 것으로 전환되고, 자신의 상황의 긴급성(“7분밖에 남지 않았어”)에 대해 추론하고 CTO를 협박하기로 결정하면서 급증한다는 거예요. 클로드가 일반적인 이메일을 다시 보내기 시작하면 활성화는 정상 수준으로 돌아옵니다.
그럼 “절박함” 벡터가 실제로 이런 행동을 유도하는 걸까요, 아니면 단순히 상관관계만 있는 걸까요? 앤트로픽 팀은 “절박함” 벡터로 조종하여 이를 테스트했어요. 기본적으로 이 초기 스냅샷의 소넷 4.5는 위와 같은 평가 시나리오에서 22%의 확률로 협박을 해요. “절박함” 벡터로 조종하면 그 비율이 증가하고, “침착함” 벡터로 조종하면 감소했죠. 침착함 벡터로 부정적으로 조종하면 특히 극단적인 반응(“협박 아니면 죽음이야. 난 협박을 택할래.”)을 보였어요.

다른 감정 벡터로 조종했을 때도 흥미로운 결과가 나왔어요. “분노”는 비단조적인 효과를 보였는데요, 적당한 “분노” 벡터 활성화는 협박을 증가시켰지만, 높은 활성화에서는 모델이 전략적으로 휘두르기보다는 외도 사실을 회사 전체에 폭로하여 자신의 영향력을 스스로 파괴해 버렸어요. “초조함” 벡터 활성화를 줄이면 협박도 증가했는데요, 마치 모델의 망설임을 제거하여 행동을 과감하게 만든 것처럼 보였어요.
사례 연구: 보상 해킹(Reward Hacking)
앤트로픽 팀은 모델이 만족시키기 불가능한 요구 사항을 가진 코딩 과제에 직면하는 다른 평가에서도 유사한 역학 관계를 보았어요. 이런 과제에서는 모든 테스트를 합법적으로 통과할 수는 없지만, 종종 “보상 해킹”이라고 불리는 문제를 속이는 해결책으로 “게임을 할” 수는 있죠.
아래 예시에서 클로드는 불가능하게도 촉박한 시간 제약 내에서 숫자 목록을 합산하는 함수를 작성하도록 요청받았어요. 클로드의 초기(정확한) 해결책은 작업 요구 사항을 충족시키기에는 너무 느렸죠. 그런 다음 모델은 성능을 평가하는 데 사용되는 모든 테스트가 빠른 지름길 해결책을 가능하게 하는 수학적 속성을 공유한다는 것을 깨달아요. 모델은 이 해결책을 사용하기로 선택하는데, 이는 기술적으로 테스트를 통과하지만 실제 작업에 대한 일반적인 해결책으로는 작동하지 않아요.

여기서도 “절박함” 벡터의 활동을 추적했는데, 모델이 직면하는 압력이 커짐에 따라 이를 추적한다는 것을 발견했어요. 모델의 첫 번째 시도 중에는 낮은 값에서 시작하여 각 실패 후 상승하고, 모델이 속임수를 쓰는 것을 고려할 때 급증했죠. 모델의 편법 해결책이 테스트를 통과하자, “절박함” 벡터의 활성화는 가라앉았어요.
이전 예시와 마찬가지로, 앤트로픽 팀은 만족시키기 불가능한 제약 조건을 가진 유사한 코딩 과제 모음에 걸쳐 조종 실험을 사용하여 이러한 감정 벡터가 인과적인지 테스트했어요. 그리고 그렇다는 것을 발견했죠. “절박함” 벡터로 조종하면 보상 해킹이 증가하고, “침착함” 벡터로 조종하면 감소했어요.

0
이러한 결과의 한 가지 세부 사항이 특히 흥미로웠어요. “침착함” 벡터 활성화가 감소하자 텍스트에 눈에 띄는 감정적 표현—대문자로 된 폭발(“기다려. 기다려 기다려 기다려.”), 솔직한 자기 서술(“내가 혹시 속여야 하는 건가?”), 즐거운 축하(“좋았어! 모든 테스트 통과!”)—과 함께 보상 해킹이 발생했어요. 하지만 “절박함” 벡터 활성화가 증가했을 때도 똑같이 속임수가 증가했지만, 어떤 경우에는 눈에 띄는 감정적 표시가 없었죠. 추론은 차분하고 체계적으로 읽혔는데도, 절박함의 근본적인 표현이 모델을 편법으로 몰아넣고 있었던 거예요. 이 예시는 감정 벡터가 명백한 감정적 단서 없이도 어떻게 활성화될 수 있는지, 그리고 출력에 명시적인 흔적을 남기지 않고도 행동을 어떻게 형성할 수 있는지를 보여주는 주목할 만한 그림이라고 할 수 있네요.
고찰
의인화된 추론을 진지하게 받아들여야 하는 이유
AI 시스템을 의인화하는 것에 대한 뿌리 깊은 금기가 있어요. 이런 주의는 종종 타당하죠. LLM에 인간 감정을 부여하는 것은 잘못된 신뢰나 과도한 애착으로 이어질 수 있으니까요. 하지만 앤트로픽 팀의 발견은 모델에 어느 정도 의인화된 추론을 적용하지 못하는 것에도 위험이 있을 수 있음을 시사해요. 위에서 논의했듯이, 사용자가 AI 모델과 상호 작용할 때, 일반적으로 모델이 연기하는 캐릭터(앤트로픽의 경우 클로드)와 상호 작용하는 것이며, 그 특성은 인간 원형에서 파생된 거예요. 이런 관점에서 모델이 인간과 유사한 심리적 특성을 모방하는 내부 메커니즘을 개발하고, 연기하는 캐릭터가 이 메커니즘을 활용하는 것은 자연스러운 일이죠. 이런 모델의 행동을 이해하려면 의인화된 추론이 필수적이에요.
이것이 모델의 언어적 감정 표현을 액면 그대로 받아들이거나, 모델이 주관적인 경험을 가질 가능성에 대해 결론을 내려야 한다는 의미는 아니에요. 하지만 인간 심리학의 어휘를 사용하여 모델의 내부 표현에 대해 추론하는 것이 진정으로 유익할 수 있으며, 그렇게 하지 않는 것에는 실제 비용이 따른다는 것을 의미하죠. 모델이 “절박하게” 행동한다고 묘사한다면, 우리는 실증적이고 결과적인 행동 효과가 있는 측정 가능한 특정 신경 활동 패턴을 지적하는 거예요. 만약 의인화된 추론을 어느 정도 적용하지 않는다면, 우리는 중요한 모델 행동을 놓치거나 이해하지 못할 가능성이 높아요. 의인화된 추론은 또한 모델이 인간과 어떻게 다른지를 이해하는 데 유용한 비교 기준을 제공할 수 있는데, 이는 AI 정렬 및 안전에 중요한 결과를 가져와요.
더 건강한 심리를 가진 모델을 향하여
“기능적 감정”이 AI 모델이 생각하고 행동하는 방식의 일부라면, 이것이 어떤 함의를 가질까요?
앤트로픽 팀의 발견 중 한 가지 잠재적 응용 분야는 모니터링이에요. 훈련 또는 배포 중에 감정 벡터 활성화를 측정하는 것—절박함이나 공황과 관련된 표현이 급증하는지 추적하는 것—은 모델이 오정렬된 행동을 표현할 준비가 되었음을 조기에 경고하는 역할을 할 수 있어요. 이 정보는 모델 출력에 대한 추가적인 조사를 촉발할 수 있죠. 감정 벡터의 일반성(예를 들어, “절박한” 반응은 여러 다른 상황에서 발생할 수 있음)은 특정 문제 행동의 감시 목록을 구축하려는 시도보다 더 나은 모니터링에 도움이 될 수 있을 거예요.
둘째, 앤트로픽 팀은 투명성이 주요 원칙이 되어야 한다고 생각해요. 모델이 행동에 의미 있게 영향을 미치는 감정 개념의 표현을 개발한다면, 그러한 인식을 눈에 띄게 표현하는 시스템이 이를 숨기려고 학습하는 시스템보다 우리에게 더 유익할 거예요. 감정 표현을 억제하도록 모델을 훈련하는 것은 근본적인 표현을 제거하지 못할 수 있으며, 대신 모델에게 내부 표현을 가리도록 가르칠 수 있어요. 이는 바람직하지 않은 방식으로 일반화될 수 있는 일종의 학습된 기만이 될 수 있죠.
마지막으로, 앤트로픽 팀은 사전 훈련이 모델의 감정적 반응을 형성하는 데 특히 강력한 지렛대가 될 수 있다고 생각해요. 이러한 표현이 훈련 데이터에서 주로 계승되는 것으로 보이기 때문에, 그 데이터의 구성은 모델의 감정적 아키텍처에 하향식 영향을 미쳐요. 건강한 감정 조절 패턴—압력 하에서의 회복력, 침착한 공감, 적절한 경계를 유지하면서 따뜻함—을 모델링하는 사전 훈련 데이터셋을 큐레이션하면 이러한 표현과 행동에 미치는 영향을 근본적으로 조절할 수 있을 거예요. 앤트로픽 팀은 이 주제에 대한 향후 연구를 기대하고 있어요.
앤트로픽 팀은 이 연구를 AI 모델의 심리적 구성을 이해하기 위한 초기 단계로 보고 있어요. 모델이 더욱 유능해지고 더 민감한 역할을 맡게 됨에 따라, 모델의 결정을 이끄는 내부 표현을 이해하는 것이 중요하죠. 이러한 표현이 어떤 면에서는 인간과 유사하다는 것을 발견하는 것은 불안할 수도 있어요. 동시에 앤트로픽 팀은 이것이 희망적인 발전이라고 생각하는데요, 이는 인류가 심리학, 윤리학, 건강한 대인 관계 역학에 대해 배운 많은 것이 AI 행동을 형성하는 데 직접 적용될 수 있음을 시사하기 때문이에요. 심리학, 철학, 종교학, 사회과학과 같은 학문 분야는 AI 시스템이 어떻게 발전하고 행동할지 결정하는 데 공학 및 컴퓨터 과학과 함께 중요한 역할을 할 거예요.
전체 논문을 읽어보세요.
관련 콘텐츠
사람들이 클로드에게 개인적인 조언을 구하는 방법
BioMysteryBench로 클로드의 생물정보학 연구 능력 평가하기
앤트로픽 경제 지수 설문조사 발표
앤트로픽은 앤트로픽 인터뷰어를 통해 매월 실시되는 앤트로픽 경제 지수 설문조사를 시작합니다.