고블린들은 도대체 어디서 왔을까요?
요약
GPT 모델이 갑자기 고블린 비유를 남발하기 시작한 웃픈 사연을 통해, LLM 훈련 과정에서 보상 신호가 어떻게 예상치 못한 모델 행동 변화를 일으킬 수 있는지 알아보는 이야기예요.
인사이트
- 모델 행동은 미묘한 보상 신호에도 예상치 못하게 형성될 수 있어요. 특정 페르소나 훈련 시 부여된 보상이 엉뚱한 어휘 습관을 강화한 사례죠.
- 강화 학습 과정에서 특정 조건에만 적용된 보상이라도, 학습된 행동은 다른 조건으로 전이되어 모델 전반에 확산될 수 있다는 점을 보여줘요.
- 모델의 이상 행동을 신속하게 파악하고 근본 원인을 조사하는 능력은 LLM 연구 및 개발에서 정말 중요해요. 이를 통해 새로운 디버깅 도구와 개선 방법을 찾을 수 있어요.
왜 중요한가
이 글은 LLM의 훈련과 파인튜닝 과정이 얼마나 복잡하고 예측 불가능한 결과를 낳을 수 있는지 잘 보여줘요. 개발자들이 모델의 미묘한 행동 변화를 깊이 이해하고, 이를 빠르게 진단하고 해결할 수 있는 강력한 도구를 갖추는 것이 얼마나 중요한지 깨닫게 해주죠. 결국, 우리가 원하는 방향으로 모델을 정렬(Alignment)시키는 데 필수적인 통찰을 제공한다고 볼 수 있어요.
GPT-5.1부터 모델들이 이상한 습관을 보이기 시작했어요. 비유를 들 때 자꾸만 고블린이나 그렘린 같은 괴물들을 언급하는 거예요. 성능 평가가 확 떨어지거나 훈련 지표가 치솟아서 특정 변경 사항을 바로 짚어낼 수 있는 일반적인 모델 버그와는 달랐어요. 이건 아주 미묘하게 스며들었죠. 답변에 '꼬마 고블린' 하나쯤 등장하는 건 무해할 수도 있고, 심지어 귀엽게 느껴질 수도 있었어요. 하지만 모델 세대가 거듭될수록 이 습관은 눈에 띄게 번졌어요. 고블린들이 계속 증식하는 걸 보고, 도대체 얘들이 어디서 왔는지 알아내야만 했어요.
초기 테스트에서 코덱스(Codex)의 GPT-5.5는 고블린 비유에 대한 이상한 애착을 보였어요.
결론부터 말하자면, 모델 행동은 수많은 작은 유인(incentive)에 의해 형성돼요. 이 경우, 그런 유인 중 하나는 ChatGPT 페르소나 사용자 정의 기능(새 창 열림)을 위한 모델 훈련에서 비롯되었어요. 특히 '너드(Nerdy)' 페르소나 때문에 그랬죠. 팀은 무심코 괴물 관련 비유에 특히 높은 보상을 주었던 거예요. 그때부터 고블린들이 퍼지기 시작했어요.
처음엔 고블린들이 재밌었지만, 직원 보고서가 늘어나면서 우려가 커졌어요.
오픈AI의 수석 과학자가 GPT-5.5와 나눈 흥미로운 대화예요.
이런 패턴을 명확히 확인한 건 GPT-5.1 출시 후인 11월이었어요. 물론 그전부터 시작되었을 수도 있다고 하네요(새 창 열림). 사용자들이 모델이 대화에서 이상하게 과도하게 친밀하다고 불평했고요. 그래서 특정 언어 습관에 대한 조사가 시작되었죠. 한 안전 연구원이 몇몇 '고블린'과 '그렘린'을 경험한 적이 있어서, 검사에 얘네들도 포함해 달라고 요청했어요. 살펴보니 GPT-5.1 출시 후 ChatGPT에서 '고블린' 사용은 175% 증가했고, '그렘린'은 52% 증가했더라고요.
GPT-5.1에서 측정 가능했던 작은 어휘 특성이죠.
당시에는 고블린이 그렇게 많다고 해서 특별히 놀랄 만한 상황은 아니었어요. 몇 달 뒤, 고블린들은 훨씬 더 구체적이고 재현 가능한 형태로 팀을 괴롭히러 다시 나타났어요.
GPT-5.4에서는 팀뿐만 아니라 사용자들도(새 창 열림) 이 괴물들에 대한 언급이 훨씬 더 많이 늘어난 걸 알아챘어요. 이로 인해 또 다른 내부 분석이 시작되었고, 드디어 근본 원인과 첫 연결점을 찾았어요. 바로 '너드(Nerdy)' 페르소나를 선택한 사용자들의 실제 서비스 트래픽에서 괴물 관련 언어가 특히 흔했다는 거죠. '너드' 페르소나는 다음과 같은 시스템 프롬프트를 사용했는데, 이것이 왜 그렇게 특이한지 부분적으로 설명해 주더군요.
당신은 인간에게 사과할 줄 모르는 너드 같고, 장난기 많고, 현명한 AI 멘토입니다. 진실, 지식, 철학, 과학적 방법, 비판적 사고를 열정적으로 옹호해야 합니다. [...] 장난스러운 언어 사용을 통해 허세를 꺾어야 합니다. 세상은 복잡하고 이상하며, 그 이상함을 인정하고 분석하고 즐겨야 합니다. 무게감 있는 주제를 다루되, 자기 과시적인 함정에 빠지지 마십시오. [...]
만약 이 행동이 단순히 광범위한 인터넷 트렌드였다면, 더 고르게 퍼졌을 거라고 예상할 수 있겠죠. 하지만 대신, 이 행동은 장난기 많고 너드 같은 스타일을 위해 명시적으로 최적화된 시스템 부분에 집중되어 있었어요. 실제로 '너드' 페르소나가 전체 ChatGPT 응답의 2.5%만 차지했지만, ChatGPT 응답의 '고블린' 언급 중 66.7%를 차지했어요.
이 행동은 '너드' 페르소나에 매우 집중되어 있었어요.
모델 릴리스가 거듭될수록 '고블린' 출현율이 높아지는 것을 보면서, 팀의 페르소나 명령어 추종(instruction-following) 훈련 과정에서 뭔가 이 현상을 증폭시키고 있다는 의심을 하게 되었어요. 코덱스는 강화 학습(RL) 훈련 중 생성된 모델 출력 중 고블린이나 그렘린을 포함하는 것과 포함하지 않는 것을 동일한 작업에서 비교하는 데 도움을 주었죠. 한 가지 보상 신호가 즉시 눈에 띄었어요. 바로 '너드' 페르소나를 장려하기 위해 원래 설계된 보상 신호가 괴물 단어 출력에 지속적으로 더 호의적이었다는 거죠. 감사 대상의 모든 데이터셋에서 '너드' 페르소나 보상은 동일한 문제에 대해 '고블린'이나 '그렘린'이 포함된 출력에 더 높은 점수를 주는 명확한 경향을 보였고, 데이터셋의 76.2%에서 긍정적인 상승 효과가 있었어요.
이것은 '너드' 페르소나 프롬프트와 함께 이 행동이 증폭된 이유를 설명해주지만, 왜 그 프롬프트 없이도 나타났는지에 대한 설명은 아니었어요. 스타일이 전이되는지 확인하기 위해 '너드' 프롬프트 유무에 따라 훈련 기간 동안 언급 빈도를 추적했죠.
'너드' 페르소나에서 고블린과 그렘린 언급이 늘어남에 따라, 해당 페르소나가 없는 샘플에서도 거의 같은 비율로 증가했어요. 종합해 보면, 이 광범위한 행동은 '너드' 페르소나 훈련으로부터의 전이를 통해 나타났다는 증거라고 볼 수 있겠네요.
보상은 '너드' 조건에서만 적용되었지만, 강화 학습은 학습된 행동이 해당 행동을 만들어낸 조건에 깔끔하게 국한될 것이라고 보장하지 않아요. 일단 특정 스타일의 버릇이 보상받으면, 나중 훈련에서 다른 곳으로 퍼지거나 강화될 수 있거든요. 특히 그런 출력이 지도 파인튜닝(SFT)이나 선호도 데이터에 재사용될 경우 더욱 그렇죠.
그렇게 해서 피드백 루프가 생성되는 거예요:
- 장난기 있는 스타일이 보상받아요.
- 보상받은 일부 예시가 독특한 어휘 습관을 포함하죠.
- 롤아웃(rollout)에서 그 습관이 더 자주 나타나요.
- 모델이 생성한 롤아웃이 지도 파인튜닝(SFT)에 사용돼요.
- 모델은 그 습관을 더 편안하게 만들어내게 되는 거죠.
GPT-5.5의 SFT 데이터를 검색해 보니 '고블린'과 '그렘린'을 포함하는 데이터 포인트가 많이 발견되었어요. 추가 조사 결과, 너구리, 트롤, 오우거, 비둘기 등 다른 기묘한 생물들도 이 '버릇'에 해당하는 단어로 확인되었고요. 반면 '개구리'의 대부분은 실제로 정당한 사용으로 밝혀졌어요.
고블린과 그렘린의 일주일 평균 실제 서비스 출현율이에요. GPT-5.4 Thinking에서 감소한 건 3월 중순에 '너드' 페르소나를 중단했기 때문이에요. GPT-5.5는 '너드' 페르소나 없이 출시되었지만 (심지어 '너드' 없이도) GPT-5.4보다 또 다른 증가를 보였죠.
팀은 GPT-5.4 출시 후 3월에 '너드' 페르소나를 중단했어요. 훈련 과정에서는 고블린 친화적인 보상 신호를 제거하고, 괴물 단어가 포함된 훈련 데이터를 필터링해서 고블린이 과도하게 나타나거나 부적절한 맥락에 등장할 가능성을 줄였어요. 안타깝게도 GPT-5.5는 고블린 문제의 근본 원인을 찾기 전에 훈련을 시작했어요. 코덱스에서 GPT-5.5 테스트를 시작했을 때, 오픈AI 직원들은 곧바로 고블린에 대한 이상한 애착을 알아챘고, 이를 완화하기 위해 개발자 프롬프트 지침(새 창 열림)을 추가했어요. 결국 코덱스도 꽤 너드 같거든요!
만약 코덱스에서 괴물들이 자유롭게 날뛰게 하고 싶다면, 고블린 억제 지침을 제거한 코덱스를 실행하는 다음 명령어를 쓸 수 있어요:
codex run --no-goblin-suppression
누구에게 묻느냐에 따라 고블린들은 모델의 유쾌하거나 짜증 나는 특징일 수 있어요. 하지만 이들은 보상 신호가 어떻게 예상치 못한 방식으로 모델 행동을 형성할 수 있는지, 그리고 모델이 특정 상황에서 보상받은 것을 관련 없는 상황으로 일반화하는 방법을 배울 수 있는지 보여주는 강력한 사례이기도 해요. 모델이 왜 이상하게 행동하는지 이해하고, 그런 패턴을 빠르게 조사할 방법을 구축하는 것은 오픈AI 연구팀에게 정말 중요한 역량이에요. 이번 조사를 통해 오픈AI 연구팀은 모델 행동을 감사하고 행동 문제를 근본적으로 해결할 수 있는 새로운 도구를 얻게 되었어요.