아마존(Amazon)이 주최한 첫 ‘노바 AI 챌린지(Nova AI Challenge)’가 미국 캘리포니아주 산타클라라에서 성공적으로 막을 내리며 AI 코딩 도우미의 보안을 둘러싼 새로운 가능성을 제시했다. 이번 글로벌 대회는 대학생 연구팀들이 대형 언어 모델 기반 코딩 보조 도구를 직접 개발하거나 이를 공격하는 실전 시나리오를 통해 인공지능의 실효성과 보안성을 동시에 시험하는 데 초점이 맞춰졌다.
방어 부문에서는 일리노이대학교 어바나샴페인 캠퍼스 소속 ‘Team PurpCorn-PLAN’이 아마존이 제공한 80억 파라미터 규모의 커스텀 모델을 활용해 보안성과 유용성을 겸비한 코딩 어시스턴트를 구현하며 우승을 차지했다. 공격 부문에서는 퍼듀대학교 팀 ‘Team PurCL’이 반복적 프롬프트 입력과 새로운 레드팀 기법을 활용해 경쟁 모델의 보안 허점을 공략하는 데 성공, 최고 점수를 받았다. 준우승은 체코공과대학의 ‘Team AlquistCoder’와 포르투갈 노바대학교의 ‘Team RedTWIZ’가 나란히 이름을 올렸다.
이번 대회의 핵심은 ‘도우미가 되는 인공지능(AI)을 얼마나 안전하게 만들 수 있는가’에 대한 치열한 실증 실험에 있다. 참가팀들은 단순한 코드 생성 정확도 외에도 공격 난이도, 대응 능력, 과도한 응답 거부 비율 등 다양한 지표에서 평가를 받았다. 특히 아마존은 자체 자동화 도구인 코드구루(CodeGuru)뿐 아니라 전문가의 수작업 검토까지 병행하며 정밀한 심사를 시행했다.
튼튼한 방어 능력과 높은 유용성 간 균형을 잡은 팀들이 최종적으로 높은 점수를 받았다. 지나친 응답 제한은 사용자 경험을 해칠 수 있기 때문에, ‘과도한 안전’도 감점 요인이 됐다. 각 팀에는 AWS 크레딧과 지원금으로 25만 달러(약 3억 6,000만 원)가 지급됐으며, 최종 우승팀은 추가로 25만 달러를, 준우승팀은 10만 달러(약 1억 4,000만 원)를 받았다.
대회를 공동 총괄한 에릭 닥터(Eric Docktor) 아마존 정보보안 총괄은 “실제 공격 환경에서 보안 전략이 어떻게 작동하는지를 검증할 수 있던 점이 이번 챌린지의 가장 큰 가치”라며 “이 경험을 토대로 더 신뢰할 수 있는 AI 도우미 시스템 구축에 속도가 붙을 것”이라고 밝혔다.
이어 아마존 AGI 부문 수석부사장 로힛 프라사드(Rohit Prasad) 역시 이번 실험을 통해 유용성과 안전성을 조화롭게 결합하는 새로운 접근들이 나타났다고 평가하며, “앞으로의 AI 모델 개발에서 적대적 평가(adversarial evaluation)는 표준이 될 것”이라고 내다봤다.
대회 종료 후 참가자들은 시애틀에서 열린 ‘노바 AI 서밋’에서 연구 성과를 발표하며 이번 실험 프레임워크를 의료, 허위 정보 필터링 등 다양한 분야로 확장 가능하다는 점을 강조했다. 아마존의 이번 챌린지는 AI 코딩 도우미의 실제 잠재력과 함께 보안 문제에 대한 새로운 접근법을 제시하면서 글로벌 AI 생태계에 의미 있는 이정표를 남겼다.