오픈AI가 텍스트 속 개인정보를 탐지하고 비식별화하는 오픈소스 모델 ‘OpenAI Privacy Filter’를 공개했다.
Odaily에 따르면 이 모델은 개인 이름, 주소, 이메일, 전화번호, URL, 날짜, 계정, 키 등 8개 유형의 개인정보를 식별할 수 있으며, 개발자가 로컬 환경에서 배포하거나 미세조정할 수 있도록 허깅페이스와 깃허브에 아파치 2.0 라이선스로 공개됐다.
이 모델은 총 15억개 파라미터와 5000만개 활성 파라미터를 갖췄고, 최대 12만8000 토큰의 컨텍스트 창을 지원한다. 양방향 토큰 분류 모델 구조를 적용했으며, PII-Masking-300k 벤치마크에서 F1 점수 96%를 기록했다.
이번 공개는 개인정보 보호와 규제 대응 수요가 커지는 가운데, 민감정보 처리 자동화 도구에 대한 개발자 접근성을 높이려는 조치로 해석된다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사