google-research

머신 언러닝 감사를 위한 새로운 프레임워크

요약

구글 리서치가 '정규화된 f-다이버전스 커널 테스트'라는 새로운 프레임워크를 선보였어요. 이 테스트는 모델의 '잊을 권리' 준수 여부를 훨씬 더 정확하고 효율적으로 검증해서 AI 시스템의 프라이버시와 안전성을 높여준답니다.

인사이트

  • 기존 두 표본 검정 방식은 대규모 모델에서 통계적 검정력이 떨어지고, 비용이 많이 들며, '재학습 등가성'의 근본적인 한계 때문에 오탐을 유발하는 문제가 있었어요.
  • 새로운 프레임워크는 '상대적 거리 테스트' 개념을 도입해서 언러닝된 모델이 안전하게 재학습된 모델에 더 가까운지 측정하며, f-다이버전스(카이제곱, KL, 하키 스틱 다이버전스 포함)와 커널 정규화 방법을 활용해 특정 데이터 변화를 민감하게 감지해요.
  • 이 프레임워크는 기존 방법보다 훨씬 적은 데이터 샘플과 적은 수동 튜닝만으로 프라이버시 침해를 성공적으로 감지했고, 기존 언러닝 평가 방법의 재정의를 제안하며 랜덤 레이블 기법이 가장 효과적임을 보여줬어요.

왜 중요한가

AI 모델이 방대한 양의 민감한 데이터를 처리하면서 '잊을 권리'와 같은 규제 준수, AI 안전, 그리고 모델 품질 유지는 점점 더 중요해지고 있어요. 하지만 기존 검증 방식은 대규모 모델에서는 한계가 많았죠. 이 새로운 프레임워크는 이런 문제들을 해결하고, 모델이 데이터를 안전하게 '잊었는지'를 수학적으로 정확하게 증명할 수 있는 길을 열어줘서 AI의 신뢰성을 크게 높일 수 있습니다.

머신 언러닝은 AI 시스템이 학습 데이터의 특정 부분을 '잊게' 해주는 기술이에요. 모델을 처음부터 다시 학습시키는 엄청난 비용 없이 이걸 가능하게 하죠. GDPR의 '잊힐 권리' 같은 규제 준수, AI 안전, 그리고 모델 품질을 위해서 정말 필수적인 기술이에요.

모델이 점점 더 방대하고 민감한 데이터셋을 처리하면서, 머신 언러닝 검증은 이론적인 이상에서 벗어나 개발자들이 이제 수학적으로 프라이버시를 증명해야 하는 엄격한 요구 사항이 됐어요. 하지만 감사자들은 보통 모델의 내부 작동 방식이나 원본 학습 데이터에 접근할 수 없기 때문에, 시스템에 쿼리를 날리고 출력 샘플을 분석하는 방식으로만 검증해야 해요.

데이터 과학자나 연구자들이 검증을 위해 의존하는 한 가지 방법은 두 표본 검정이에요. 이건 두 데이터 관측 세트가 완전히 다른 근본 분포에서 왔는지 판단하는 통계적 방법이죠. 예를 들어, 언러닝을 검증하기 위해 감사자는 특정 기록을 한 번도 본 적 없는 모델의 출력과, 그걸 '잊었다'고 주장하는 모델의 출력을 비교할 수 있어요. 만약 출력값이 정해진 임계치 내에서 통계적으로 다르다면, 언러닝은 실패한 거죠.

모델의 크기와 복잡성이 커지면서, 머신 언러닝 감사에 쓰이는 두 표본 검정이나 다른 통계 도구들은 구현하기 어려워지고 통계적 검정력도 잃게 돼요. 대규모 모델에 내재된 무작위 노이즈에서 실제 위반 사항을 식별하고 충분한 통계적 유의미성을 확보하려면, 감사자는 엄청나게 많은 샘플을 추출해야 해요. 이게 실제 환경에서의 테스트를 계산 비용 측면에서 매우 비싸게 만들죠.

이러한 커지는 문제에 대처하기 위해, 구글 리서치는 AISTATS 2026에서 발표된 정규화된 f-다이버전스 커널 테스트라는 새로운 프레임워크를 선보여요. 이 프레임워크는 머신러닝 모델 감사를 훨씬 더 민감하고 유연하며 정확하게 만들도록 설계됐어요. 이 테스트는 어떤 샘플 크기에서도 오탐(false positive)을 자연스럽게 제어하고, 사용 가능한 데이터 샘플 수가 증가할수록 미탐(false negative) 위험이 안정적으로 0에 수렴한다는 것을 이론적으로 증명했어요.

과제: 표준 도구가 부족한 이유

모델의 안전성을 평가하려면 보통 두 복잡한 데이터셋 사이의 거리, 즉 다이버전스를 측정해야 해요. 다양한 애플리케이션에서는 당연히 다른 '거리' 개념이 필요하죠. 최대 평균 불일치(MMD) 같은 인기 있는 표준 도구는 데이터 전반에 걸친 광범위하고 전역적인 변화(예를 들어, 모델이 다른 모델보다 일관되게 더 밝은 이미지를 생성하는 경우)를 감지하는 데 탁월하지만, 복잡한 이상 징후를 포착하는 데 필요한 특이성이 부족한 경우가 많아요. 예를 들어, 특정 인물의 데이터가 추가되어 모델이 아주 정확한 방식으로 프롬프트될 때만 특정 이상치 출력을 생성하고, 다른 모든 샘플에서는 동일한 분포를 보인다면, 기존 MMD 테스트는 이런 국소적인 변화를 완전히 놓칠 수도 있어요.

게다가 대부분의 기존 테스트 프레임워크는 연구자들이 실수를 유발할 수 있는 수동적인 선택을 하도록 강요해요. 예를 들어, 전역적 또는 국소적 변화에 가장 적합한 특정 통계량을 고르거나, 커널 대역폭정규화 파라미터 같은 복잡한 설정을 튜닝하는 일 같은 거죠.

실제로 구현하기 어려운 것 외에도, 두 표본 검정은 머신러닝 모델의 언러닝을 검증할 때 결함이 있는 방법이에요. 아래 예시를 보면 정확히 같은 데이터로 처음부터 학습된 두 모델이 어떻게 다른 분포를 생성할 수 있는지 알 수 있어요. 파란색 분포는 손상된 데이터 없이 재학습된 모델의 분포예요. 하지만 배치 크기가 달라서 재학습되었기 때문에 표준(녹색) 분포와는 다르죠. 이것이 오탐으로 이어져, 테스트된 모델이 안전하지 않다고 잘못 표시하게 돼요.

게다가, 최근 연구에 따르면 AI 모델은 현재 설정을 조금만 바꾸는 것으로는 데이터를 완벽하게 '잊을' 수 없다고 해요. 원래 학습의 모든 단계를 다시 거치지 않는 한, 삭제하기로 되어 있던 정보의 영구적인 흔적을 항상 남기게 되죠. 따라서, 표준적인 국소 언러닝 알고리즘으로는 완벽한 '재학습 등가성'을 달성하는 것이 근본적으로 불가능하며, 전통적인 두 표본 검정은 항상 '잊어야 할 데이터셋'에 대한 의존성을 찾아낼 수밖에 없어요.

프레임워크

구글 리서치는 이러한 문제를 해결하기 위해 상대적 거리 테스트를 제안해요. 이 테스트는 언러닝된 모델이 안전하게 재학습된 모델에 분포적으로 더 가까운지, 아니면 원래의 손상된 모델에 더 가까운지를 측정해요.

이 테스트는 f-다이버전스를 활용하여 감사자들이 매우 특정한 유형의 데이터 변화를 정확히 찾아낼 수 있도록 돕는 고도로 적응 가능한 통계 도구 역할을 해요. 여기에는 다음이 포함돼요:

  • 카이제곱쿨백-라이블러(KL) 다이버전스: 이는 물리 모델의 이상치처럼 데이터 내의 부드럽고 국소적인 차이를 식별하는 데 매우 효과적이에요.
  • 하키 스틱 다이버전스: 프라이버시와 언러닝에 대한 정의를 특별히 포착하는 이 다이버전스는 통계적 구분 불가능성 정도를 제어하는 파라미터와 함께 작동해요. 이는 안전 예산 이하의 사소한 차이는 무시하고, 의미 있는 프라이버시 침해가 발생했을 때만 경고를 발생시키는 허용 가능한 임계값을 효과적으로 설정하죠.

고차원 실제 데이터에서 이러한 다이버전스를 계산하는 것은 악명이 높을 정도로 어려워요. 엄청난 양의 컴퓨팅 자원 없이도 이러한 복잡한 최적화 문제를 다룰 수 있게 만들고자, 구글 리서치는 커널 정규화 방법을 사용하여 차이를 효율적으로 추정해요.

구글 리서치의 적응형 테스트 접근 방식은 샘플 분할의 필요성을 완전히 없애면서, 테스트의 신뢰성을 극대화하기 위해 최적의 다이버전스와 최적의 하이퍼파라미터 구성을 자동으로 선택해요.

실험

제안하는 테스트가 범용적이기 때문에, 구글 리서치는 광범위한 문제에 걸쳐 실험을 진행했어요. 교란된 균일 분포(합성 두 표본 벤치마크)와 물리학 데이터셋 내의 Expo1D 이상치 탐지 작업에서 프레임워크를 평가했어요. 이 분야는 머신러닝을 사용하여 입자 물리학의 표준 모델을 벗어나는 새로운 물리 현상을 탐색하는 전문 영역이에요. 고에너지 물리학 데이터를 사용한 이유는 이 분야가 세상에서 가장 정밀한 '차이 감지기'를 필요로 하기 때문이에요. 만약 이 프레임워크가 물리학 법칙을 거스르는 희귀 입자를 찾아낼 수 있다면, AI 모델의 작은 프라이버시 유출도 감지할 수 있다는 생각이었죠.

그다음 구글 리서치는 주요 초점을 차등 프라이버시 감사와 머신 언러닝 평가라는 중요하고 실제적인 애플리케이션으로 옮겼어요:

  • 프라이버시 감사: 차등 프라이버시는 보정된 노이즈를 도입하여 사용자 데이터를 보호하고, 개개인의 영향력을 제한하는 프레임워크를 제공해요. 구글 리서치는 단 하나의 기록만 다른 두 시뮬레이션 데이터셋에 걸쳐 여러 비개인 정보 메커니즘의 출력을 샘플링하여 테스트했어요. 만약 메커니즘이 진정으로 프라이빗하다면, 그 결과로 나온 두 샘플은 구별할 수 없어야 해요. 만약 결함이 있다면, 테스트는 프라이버시 위반을 경고해야 하죠.
  • 머신 언러닝 평가: 언러닝된 모델을 단순히 골드 스탠다드 모델(잊혀진 데이터 없이 처음부터 재학습된 모델)과 비교하는 결함 있는 접근 방식에 의존하는 대신, 구글 리서치는 세 가지 샘플을 사용하는 상대적 테스트를 활용했어요. 이를 선택적 시냅스 감쇠, 가지치기, 랜덤 레이블 기법을 포함한 다양한 기존 언러닝 알고리즘에 적용했어요. 이 테스트는 언러닝된 모델 분포가 안전한 골드 스탠다드 모델에 더 가까운지, 아니면 민감한 데이터를 적극적으로 기억했던 원래의 완전 학습 모델에 더 가까운지 평가했어요.

결과

구글 리서치의 프레임워크는 수동 튜닝을 현저히 줄이면서도 이전의 모든 기준선 방법들을 성공적으로 복구하거나 능가했어요.

실험 결과는 어떤 단일 테스트도 가능한 모든 시나리오에서 다른 것들을 일관되게 능가하지 않는다는 것을 보여줬어요. 대신, 다양한 f-다이버전스는 다른 유형의 국소적인 데이터 변화에 대해 '불이 들어오는' 전문화된 센서 역할을 해요. 다양한 통계량을 아우르는 통합된 접근 방식을 사용함으로써, 구글 리서치의 프레임워크는 표준 테스트가 완전히 놓쳤던 미묘한 오류와 이상 징후를 성공적으로 잡아냈어요.

프라이버시 감사에서는 하키 스틱 다이버전스 테스트가 강력하고 효과적인 도구임이 입증됐어요. 이는 순수한 차등 프라이버시의 수학적 기반과 직접적으로 일치하기 때문에, 감사자들이 허용 가능한 데이터 변화 정도를 엄격하게 제어할 수 있게 해주죠. 구글 리서치의 적응형 테스트 프레임워크는 이전 기준선 테스터들보다 훨씬 적은 데이터 샘플을 사용하고 훨씬 적은 하이퍼파라미터 튜닝으로 프라이버시 위반을 성공적으로 잡아냈어요.

한 가지 주목할 만한 사례로, 구글 리서치의 프레임워크는 특정 희소 벡터 기법 메커니즘(SVT3)에서 수천 개의 샘플만으로 위반 사항을 감지했어요. 반면, DP-Auditorium과 같은 이전에 연구된 기술들은 동일한 위반 감지율을 근사하기 위해 수백만 개의 샘플을 필요로 했죠.

이 연구 결과는 머신 언러닝을 평가하는 방법에 대한 재정의를 제안하기도 해요. 아래 표에서 볼 수 있듯이, 구글 리서치가 평가한 근사 언러닝 방법 중 어느 것도 엄격하고 표준적인 두 표본 언러닝 정의를 준수하지 못한다는 것을 관찰했어요. 두 표본 검정은 단순히 분포의 차이를 찾는 것이기 때문에, 완벽하게 안전한 재학습 모델을 언러닝 실패로 잘못 판단했던 거죠.

반대로, 구글 리서치가 제안한 상대적 세 표본 테스트는 이런 결함을 성공적으로 극복했어요. 이 테스트는 안전하게 재학습된 모델들을 '안전하다'고 정확하고 일관되게 식별했어요. 근사 언러닝 알고리즘을 평가했을 때, 랜덤 레이블 기법만이 평가를 통과했죠.

파인튜닝, 가지치기, 선택적 시냅스 감쇠와 같은 다른 인기 있는 방법들은 목표 데이터를 진정으로 잊는 데 효과적이지 않다는 것이 밝혀졌어요. 이 실험에서 구글 리서치의 주요 목표는 언러닝 알고리즘 자체를 설계하는 것보다는 언러닝 방법론을 평가하는 데 있었다는 점을 강조하고 싶어요. 따라서, 구글 리서치는 이러한 언러닝 절차의 단순화된 구현을 사용했어요. 실제 프로덕션 환경에서 언러닝 방법을 순위 매기려면 더 엄격한 설정이 필요할 거예요.

결론

구글 리서치가 새로 제안하는 프레임워크는 머신러닝 동작을 검토하는 데 훨씬 더 정밀하고 적응 가능하며 수학적으로 견고한 렌즈를 제공해요. 정규화된 f-다이버전스 커널 테스트를 활용함으로써, 연구원들과 감사자들은 이제 광범위한 문제와 복잡한 분포 변화에 걸쳐 모델이 안전하지 않게 작동하는지, 아니면 데이터를 유출하는지 통계적으로 증명할 수 있게 됐어요.

이 분야가 발전함에 따라, 구글 리서치의 실증적 관찰을 이론적으로 확립하여 다른 새로운 작업에 어떤 특정 다이버전스가 최적인지 정확히 특성화하는 것은 미래 연구를 위한 흥미로운 방향으로 남아있어요. 더 엄격한 샘플 복잡도 경계를 설정하는 것도 이러한 감사를 더욱 효율적으로 만들기 위한 핵심 초점이 될 거예요.

감사의 말씀

여기에 설명된 작업은 Antonin Schrab 및 Arthur Gretton과 공동으로 수행되었어요. Nicole Mitchell과 Eleni Triantafillou에게 통찰력 있는 피드백에 감사드리며, Kimberly Schwede에게 그래픽을, Mark Simborg에게 유용한 편집 작업을 맡아주셔서 감사드립니다.

google-research · 원문 보기 · 2026-06-10

이 글은 원문을 한국어로 번역한 것입니다. 저작권은 원 저작자에게 있습니다.