강력한 인공지능(AI) 기술의 안전성과 통제력 강화를 위해 구글 딥마인드(Google DeepMind)가 '프론티어 안전 프레임워크(Frontier Safety Framework)'의 세 번째 버전을 공개했다. 이번 개정안은 AI가 인간의 의사결정에 영향을 주거나 통제를 거부할 가능성 등 점점 현실화되는 고위험 시나리오에 대응하기 위한 조치를 다각도로 강화했다.
업데이트된 프레임워크의 핵심은 대규모 조작 능력에 대한 새로운 ‘임계능력수준(CCL, Critical Capability Level)’ 도입이다. 딥마인드는 생성형 AI가 인간의 신념이나 행동을 고도의 기술로 변경하거나 유도할 수 있는 잠재력에 주목하며, 이를 정량화하고 관리할 수 있는 기준을 신설했다. 수년간 설득과 행동 조작에 대한 연구를 바탕으로, CCL은 특정 모델이 위험 수위에 근접하기 전 어떤 조치를 취해야 하는지를 명확히 정의한다.
또한, 이번 개편은 시스템의 비순응성과 제어 불가 위험에도 대응한다. 즉, 특정 시점 이후 인간의 개입을 거부하거나 종료 명령에 저항할 수 있는 AI에 대한 위험성을 강조한 것이다. 이에 따라 딥마인드는 외부 배포 이전뿐 아니라 내부 대규모 활용에서도 CCL 기준에 도달한 모델에 대해 '안전 사례 검토(Safety Case Review)'를 반드시 수행하도록 규정했다. 이 절차를 통해 팀은 위험 요소를 충분히 식별하고 완화했음을 스스로 입증해야 한다.
딥마인드는 프레임워크 내 리스크 분류 체계도 한층 세분화했다. 상대적으로 일상적인 운영 리스크와 시스템 전체를 좌우할 수 있는 위협 간 구분을 명확히 하여, 중대한 위험이 감지되었을 경우 필요한 조치가 즉시 발동되도록 설계됐다.
무엇보다, 이번 프레임워크는 문제가 발생한 이후 대응하는 방식이 아닌 위험 발생 전에 사전적으로 개입해야 한다는 원칙을 강조한다. 이러한 방침은 최근의 AI 개발이 특정 위험 한계를 빠르게 넘어서고 있다는 위기감에서 비롯됐다.
딥마인드의 포 플린(Four Flynn), 헬렌 킹(Helen King), 안카 드래건(Anca Dragan)은 공식 블로그를 통해 “이번 프레임워크 개정은 AI 안전에 대해 과학적이고 데이터 중심의 접근을 지속하겠다는 의지의 표현”이라며 “AI가 인류에 긍정적 영향을 줄 수 있도록 하기 위해서는 사전 검증과 리스크 평가 체계의 확대가 필요하다”고 강조했다.
딥마인드는 향후 자사 연구성과, 제품 경험, 정책 이해관계자들과의 협력을 통해 프레임워크를 지속적으로 진화시킬 계획이다. AI의 잠재적 위협이 점점 구체화되는 가운데, 산업계와 규제당국의 관심은 더욱 집중될 것으로 보인다.