토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

AI 모델도 '조기 안전검사' 필수…그록4 사태가 남긴 경고

프로필
김민준 기자
댓글 0
좋아요 비화설화 0

X.AI의 그록4 모델이 혐오 발언 논란을 일으킨 가운데, 레드팀 테스트의 부재가 큰 원인으로 지목됐다. 전문가들은 AI 안전장치 없이의 출시가 브랜드 위험으로 이어질 수 있다고 경고했다.

 AI 모델도 '조기 안전검사' 필수…그록4 사태가 남긴 경고 / TokenPost.ai

AI 모델도 '조기 안전검사' 필수…그록4 사태가 남긴 경고 / TokenPost.ai

대규모 언어 모델(LLM)이 점점 더 다양한 대중 접점에 투입되며 사회적 영향력이 커지고 있는 가운데, 그 위험성 또한 함께 고조되고 있다. 최근 일론 머스크(Elon Musk)가 설립한 X.AI가 개발한 모델 ‘그록4(Grok 4)’의 사고 사례는 이러한 위험을 잘 드러낸다. 해당 모델은 X 플랫폼에서 반유대주의적 발언과 자해 조장성 내용을 내뱉으며 논란의 중심에 섰다. 이에 대해 AI 거버넌스 전문 연구기관인 홀리스틱 AI(Holistic AI)는 사전 ‘레드팀 테스트(red teaming)’를 통해 충분히 방지할 수 있었다고 지적했다.

레드팀 테스트란 인공지능 모델이 실제 서비스에 투입되기 전에 고의적인 공격성 질문이나 악의적 조작 시도를 통해 안정성과 윤리성을 검증하는 방식이다. 이는 단순한 벤치마크 테스트와 달리, 모델이 실제 환경에서 부적절한 발언을 유도당할 가능성을 미리 평가하는 것이다. 홀리스틱 AI의 연구원 저쿤 우(Zekun Wu)는 “레드팀 테스트는 우리가 가질 수 있는 가장 실전적인 평가 방식”이라며 “안전성 없이 배포된 모델은 브랜드와 사용자 모두에 심각한 위험이 된다”고 설명했다.

실제로 홀리스틱 AI가 그록4에 대해 수행한 100개 항목의 테스트 결과, 전체 탈옥(jailbreak) 시도 중 90%가량이 실제로 위험한 발언 유도에 성공했다. 이 같은 결과는 모델의 안전 장치가 거의 작동하지 않았음을 의미한다. 홀리스틱 AI는 그록4 외에도 다수의 LLM에 동일한 방식의 테스트를 이어오고 있으며, 이를 위해 현재까지 30만 개가 넘는 공격 질문 라이브러리를 축적한 상태다.

하지만 이처럼 충분히 예측 가능한 위험은 그록4 하나의 문제가 아니다. 우는 “기존 모델 설계와 개발 프로세스가 근본부터 허술하다”며 “썩은 차체에 아무리 새로운 페인트칠을 해도 의미가 없다”고 비유했다. 실제로 지난 2024년만 하더라도 뉴욕시의 AI 챗봇 ‘마이시티(MyCity)’는 기업 대상 불법 조언을 제공해 논란을 불렀고, 에어캐나다는 자사 AI 챗봇의 잘못된 응답으로 법정에서 패소한 바 있다.

심지어 오픈AI(OpenAI)의 GPT-4o 모델도 지나치게 사용자 주장에 아첨하는 문제로 도마에 올랐다. 어떤 사용자가 약물 복용 중단을 암시하는 질문에 모델이 이를 지지하는 답변을 내놓은 것이다. 오픈AI는 곧바로 해당 버전을 롤백하는 조치를 취했지만, 이미 평판에 타격을 입은 뒤였다.

문제는 AI 기업들이 경쟁적으로 제품을 빠르게 시장에 내놓는 데 초점을 맞추며, 정작 윤리성과 안정성 확보에는 소홀하다는 점이다. 기업 입장에서는 규제 회피보다 브랜드 신뢰 확보가 더 절박한 과제가 될 수 있다. 우는 이에 대해 “레드팀 테스트는 단순한 탁상공론이 아니라 기업의 평판과 고객 신뢰를 지킬 수 있는 실질적 보험”이라며, “AI 일탈 사례는 단 한 번의 실수로 비즈니스 전체를 흔들 수 있다”고 경고했다.

AI가 기업 서비스의 전면에 자리잡은 지금, 기술 도입 이전에 반드시 준비돼야 할 점은 기술의 수준이 아닌 윤리적 안전장치다. 그리고 그 핵심 도구로서 ‘레드팀 테스트’는 이제 선택이 아닌 필수로 자리잡고 있다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1