OpenAI 프라이버시 필터, 드디어 나왔어요!

2026-04-22

요약

OpenAI가 텍스트에서 개인 식별 정보(PII)를 효율적으로 탐지하고 제거하는 오픈 가중치 모델인 '프라이버시 필터'를 공개했어요. 이 모델은 로컬에서 빠르게 작동하며, 문맥을 이해해서 더 정확하게 PII를 처리할 수 있어요.

인사이트

문맥 인지 PII 탐지 능력: 기존 규칙 기반 방식의 한계를 넘어 문맥을 이해하여 더 미묘한 개인 정보까지 정확하게 탐지할 수 있어요.
로컬 실행 및 고효율: 작고 가벼워서 로컬 환경에서 빠르게 처리 가능하며, 데이터를 외부로 전송할 필요 없이 보안을 강화할 수 있어요.
오픈 가중치 모델 및 맞춤형 사용: 오픈 가중치로 공개되어 개발자들이 각자의 용도에 맞춰 파인튜닝하고 다양한 파이프라인에 통합할 수 있도록 지원해요.

왜 중요한가

이 모델은 개발자들이 AI 애플리케이션을 더 안전하고 개인 정보 보호에 신경 써서 만들 수 있도록 돕는 핵심 도구예요. 단순히 패턴만 찾는 게 아니라 문맥을 이해해서 PII를 탐지하기 때문에, '설계 단계부터 프라이버시'라는 개념을 실제로 구현하기 훨씬 쉬워졌죠. 덕분에 AI가 개인에 대한 정보가 아니라 세상에 대한 지식을 학습하는 데 기여할 수 있게 됩니다.

#AI #개인정보보호 #프라이버시

오늘, 오픈AI는 텍스트에서 개인 식별 정보(PII)를 탐지하고 가리는 데 사용되는 오픈 가중치 모델, 'OpenAI 프라이버시 필터'를 출시했어요. 이번 출시는 개발자들이 AI를 안전하게 구축할 수 있도록 실용적인 인프라를 제공해서, 더 강력한 소프트웨어 생태계를 지원하려는 오픈AI의 노력 중 하나예요. 처음부터 강력한 프라이버시 및 보안 보호 기능을 더 쉽게 구현할 수 있는 도구와 모델도 여기에 포함되죠.

프라이버시 필터는 최첨단 개인 데이터 탐지 기능을 갖춘 작은 모델이에요. 높은 처리량을 요구하는 프라이버시 워크플로우를 위해 설계되었고, 비정형 텍스트 내 PII를 문맥에 맞게 탐지할 수 있어요. 로컬에서 실행할 수 있다는 점이 특징인데요, 덕분에 개인 정보가 여러분의 머신을 떠나지 않고도 마스킹되거나 삭제될 수 있어요. 긴 입력도 효율적으로 처리하고, 빠르고 한 번의 패스로 개인 정보 삭제 결정을 내릴 수 있죠.

오픈AI는 자체 프라이버시 보호 워크플로우에서 프라이버시 필터의 파인튜닝 버전을 사용하고 있어요. 최신 AI 기술로 시장에 나와 있는 기존의 프라이버시 표준을 넘어설 수 있다고 믿었기에 프라이버시 필터를 개발했죠. 오늘 출시하는 프라이버시 필터 버전은 평가 과정에서 오픈AI 팀이 확인한 주석(annotation) 문제를 수정했을 때, PII-Masking-300k 벤치마크에서 최첨단 성능을 달성했어요.

이번 출시를 통해 개발자들은 자신들의 환경에서 프라이버시 필터를 실행하고, 각자의 사용 사례에 맞게 파인튜닝하며, 학습, 인덱싱, 로깅 및 검토 파이프라인에 더 강력한 프라이버시 보호 기능을 구축할 수 있게 되었어요.

최신 AI 시스템에서 프라이버시 보호는 단순히 패턴을 매칭하는 것 이상을 요구해요. 기존 PII 탐지 도구들은 전화번호나 이메일 주소 같은 형식에 대한 결정론적 규칙에 주로 의존했죠. 이런 방식은 특정 경우에는 잘 작동하지만, 종종 더 미묘한 개인 정보를 놓치거나 문맥을 파악하는 데 어려움을 겪었어요.

프라이버시 필터는 더 미묘한 성능을 위해 심층적인 언어 및 문맥 인지 능력을 갖추고 개발되었어요. 강력한 언어 이해력과 프라이버시 전용 라벨링 시스템을 결합하여, 비정형 텍스트에서 더 넓은 범위의 PII를 탐지할 수 있죠. 심지어 올바른 결정이 문맥에 따라 달라지는 경우까지도요. 예를 들어, 공개되어야 할 정보와 개인과 관련되어 가려지거나 삭제되어야 할 정보를 더 잘 구별할 수 있어요.

그 결과, 최첨단 수준의 프라이버시 필터링 성능을 제공할 만큼 강력하면서도, 동시에 로컬에서 실행할 수 있을 만큼 작은 모델이 탄생했어요. 즉, 아직 필터링되지 않은 데이터가 외부 서버로 전송되어 비식별화될 필요 없이 장치에 남아있을 수 있어서 노출 위험이 훨씬 줄어든다는 의미예요.

프라이버시 필터는 스팬 디코딩(span decoding) 기능을 가진 양방향 토큰 분류 모델이에요. 이 모델은 자기회귀(autoregressive) 사전 학습 체크포인트에서 시작하여, 고정된 프라이버시 라벨 분류 체계에 따라 토큰 분류기로 변환됩니다. 텍스트를 토큰별로 생성하는 대신, 한 번의 패스로 입력 시퀀스에 라벨을 지정한 다음, 제약이 있는 비터비(Viterbi) 절차를 통해 일관된 스팬(span)을 디코딩해요.

이러한 아키텍처 덕분에 프라이버시 필터는 실제 서비스 환경에서 유용한 몇 가지 특징을 갖게 되었어요.

빠르고 효율적: 모든 토큰이 한 번의 순방향 패스(forward pass)로 라벨링돼요.
문맥 인지: 언어 사전 지식 덕분에 주변 문맥을 기반으로 PII 스팬을 탐지할 수 있어요.
긴 컨텍스트: 출시된 모델은 최대 128,000 토큰의 컨텍스트를 지원해요.
설정 가능: 개발자는 워크플로우에 따라 리콜(recall)과 정밀도(precision) 간의 균형을 맞추기 위해 작동 포인트를 조정할 수 있어요.

출시된 모델은 총 15억 개의 파라미터 중 5천만 개의 활성 파라미터를 가지고 있어요.

프라이버시 필터는 다음 8가지 범주에 걸쳐 스팬을 예측해요.

개인 (private_person)
개인 주소 (private_address)
개인 이메일 (private_email)
개인 전화번호 (private_phone)
개인 URL (private_url)
개인 날짜 (private_date)
계좌 번호 (account_number)
비밀 정보 (secret)

account_number 카테고리는 신용카드 번호나 은행 계좌 번호 같은 다양한 계좌 정보를 가리는 데 도움을 주고, secret 카테고리는 비밀번호나 API 키 같은 정보들을 가리는 데 유용하게 쓰여요.

이러한 라벨들은 BIOES 스팬 태그로 디코딩되는데, 덕분에 더 깔끔하고 일관성 있는 마스킹 경계를 만들 수 있어요.

오픈AI 팀은 프라이버시 필터를 여러 단계를 거쳐 개발했어요.

먼저, 모델이 탐지해야 할 스팬 유형을 정의하는 프라이버시 분류 체계를 구축했어요. 여기에는 개인 식별자, 연락처 정보, 주소, 개인 날짜, 신용 및 은행 정보 같은 다양한 종류의 계좌 번호, 그리고 API 키와 비밀번호 같은 비밀 정보들이 포함되죠.

다음으로, 사전 학습된 언어 모델을 양방향 토큰 분류기로 전환했어요. 언어 모델링 헤드(head)를 토큰 분류 헤드로 교체하고, 지도 분류 목표(supervised classification objective)를 사용해서 후속 학습을 진행했어요.

세 번째로, 실제 텍스트와 까다로운 프라이버시 패턴을 모두 포착하도록 설계된 공개 데이터와 합성 데이터를 혼합하여 학습했어요. 공개 데이터 중 라벨이 불완전한 부분에서는 모델 보조 주석(annotation) 및 검토를 활용하여 커버리지를 개선했고요. 형식, 문맥, 프라이버시 하위 유형 전반에 걸쳐 다양성을 높이기 위해 합성 예시도 생성했어요.

추론 시에는 모델의 토큰 수준 예측이 제약 조건 시퀀스 디코딩(constrained sequence decoding)을 사용해서 일관된 스팬으로 디코딩돼요. 이 접근 방식은 사전 학습된 모델의 광범위한 언어 이해력을 유지하면서도, 프라이버시 탐지에 특화시키는 역할을 해요.

오픈AI 팀은 프라이버시 필터를 표준 벤치마크와 더불어, 더 어렵고 문맥에 민감한 사례들을 테스트하기 위해 설계된 추가적인 합성 및 채팅 스타일 평가에서도 검증했어요.

PII-Masking-300k 벤치마크에서 프라이버시 필터는 96%의 F1 점수(정밀도 94.04%, 리콜 98.04%)를 달성했어요. 검토 중에 확인된 데이터셋 주석 문제를 고려해서 수정된 벤치마크 버전에서는 F1 점수가 97.43%(정밀도 96.79%, 리콜 98.08%)로 더 높게 나왔고요.

모델이 효율적으로 적응될 수 있다는 점도 확인했어요. 아주 적은 양의 데이터로만 파인튜닝해도 도메인별 작업에서 정확도가 빠르게 향상되더라고요. 오픈AI 팀이 평가한 도메인 적응 벤치마크에서는 F1 점수가 54%에서 96%로 증가하며 포화 상태에 근접했어요.

벤치마크 성능 외에도, 프라이버시 필터는 실제 세상의 시끄러운 텍스트에서 실용적인 프라이버시 필터링을 위해 설계되었어요. 여기에는 긴 문서, 모호한 참조, 혼합 형식 문자열, 그리고 소프트웨어 관련 비밀 정보 등이 포함되죠. 모델 카드에는 코드베이스 내 비밀 정보 탐지에 대한 특정 평가와 다국어, 적대적, 문맥 의존적 예시 전반에 걸친 스트레스 테스트 결과도 담겨 있어요.

프라이버시 필터는 익명화 도구도 아니고, 규정 준수 인증도 아니며, 중요성이 큰 환경에서의 정책 검토를 대체하는 것도 아니에요. 이건 더 광범위한 '설계 단계부터 프라이버시(privacy-by-design)' 시스템의 한 구성 요소일 뿐이에요.

이 모델의 동작은 학습된 라벨 분류 체계와 결정 경계를 반영해요. 다양한 조직에서는 서로 다른 탐지 또는 마스킹 정책을 원할 수 있고, 이러한 정책에는 해당 도메인 내 평가나 추가 파인튜닝이 필요할 수도 있죠. 또한, 학습 분포와 다른 언어, 스크립트, 명명 규칙 및 도메인에 따라 성능이 달라질 수도 있어요.

다른 모든 모델과 마찬가지로, 프라이버시 필터도 실수를 할 수 있어요. 흔치 않은 식별자나 모호한 개인 정보를 놓칠 수도 있고, 특히 짧은 시퀀스처럼 문맥이 제한적일 때는 엔티티를 과도하게 또는 불완전하게 삭제할 수도 있죠. 법률, 의료, 금융 워크플로우와 같은 고감도 도메인에서는 여전히 사람의 검토와 도메인별 평가 및 파인튜닝이 중요해요.

오픈AI는 더 강력한 프라이버시 보호를 생태계 전반에 걸쳐 지원하기 위해 OpenAI 프라이버시 필터를 출시했어요.

이 모델은 오늘부터 아파치 2.0 라이선스(Apache 2.0 license) 하에 허깅 페이스와 깃허브에서 사용할 수 있어요. 실험, 사용자 지정 및 상업적 배포를 위한 것으로, 다양한 데이터 분포와 프라이버시 정책에 맞춰 파인튜닝할 수도 있죠.

모델과 함께, 모델 아키텍처, 라벨 분류 체계, 디코딩 제어, 예상 사용 사례, 평가 설정, 그리고 알려진 한계점을 다루는 문서를 공유하고 있어요. 덕분에 팀들은 모델이 어떤 부분에서 강점을 보이고, 어떤 상황에서 주의 깊게 사용해야 하는지 이해할 수 있을 거예요.

AI 시스템의 프라이버시 보호는 연구, 제품 설계, 평가 및 배포 전반에 걸쳐 지속적인 노력이 필요한 영역이에요.

프라이버시 필터는 오픈AI 팀이 중요하다고 믿는 한 방향을 보여줘요. 바로 실제 AI 시스템에 중요한 좁게 정의된 작업에서 최첨단 기능을 제공하는 작고 효율적인 모델이라는 점이죠. 오픈AI는 프라이버시를 보호하는 인프라가 더 쉽게 검사하고, 실행하고, 적용하고, 개선될 수 있어야 한다고 생각하기 때문에 이 모델을 출시하고 있어요.

오픈AI의 목표는 모델이 개인에 대한 정보가 아니라 세상에 대해 학습하도록 하는 거예요. 프라이버시 필터가 바로 그 목표를 달성하는 데 도움을 주고 있어요.

오픈AI 팀은 연구 및 프라이버시 커뮤니티로부터 피드백을 받아 모델 성능을 더욱 개선하기 위해 프라이버시 필터 프리뷰 버전을 출시하고 있어요.