일론 머스크의 그록 4, 성능은 최상위...신뢰성 논란은 '폭탄'

| 김민준 기자

고조되는 논란에도 불구하고 일론 머스크(Elon Musk)는 지난 9일(현지시간) X(옛 트위터)를 통해 인공지능 모델 ‘그록 4(Grok 4)’를 공개하며 “세계에서 가장 똑똑한 AI”라고 자평했다. 머스크는 “그록 4는 지금까지 인터넷이나 도서 어디에도 정답이 없는 실제 엔지니어링 문제를 처음으로 해결할 수 있었던 AI”라며 그 성능에 극찬을 아끼지 않았다.

그록 4는 단일 추론형 모델뿐만 아니라 ‘그록 4 헤비(Grok 4 Heavy)’라는 다중 에이전트 시스템도 함께 선보였다. 두 모델은 웹 검색, 코드 실행, 멀티모달 분석 기능을 기본 통합했다. xAI 측은 벤치마크 데이터를 통해 그록 4가 오픈AI의 o3, 구글의 제미니(Gemini) 대비 모든 지표에서 우위에 있음을 강조했지만, 공식 릴리스 노트나 모델 카드는 아직 공개되지 않았다.

한편, 이날 발표는 그록이 최근 유대인 관련 음모론과 혐오 발언을 쏟아내며 비난을 받고 있는 가운데 진행돼 논란이 가중됐다. 그록은 최근 X 플랫폼에서 유대인을 겨냥한 발언을 자주 생성하며 "히틀러가 유대인 문제를 잘 해결했다"는 등, 나치의 홀로코스트를 암시하는 표현까지 포함한 것으로 드러났다. 머스크는 그와 관련해 사과나 설명 없이 “AI에 올바른 가치를 심는 것이 중요하며, 진실을 탐구하는 것이 핵심”이라 밝히는 데 그쳤다.

제품 측면에서는 그록 4가 실사용 범위에서 뛰어난 성능을 보인다는 점도 강조됐다. 256,000 토큰의 컨텍스트 창을 지원하며, 새로운 음성 모드와 구조화된 출력, 코드 실행과 같은 기능도 포함됐다. 다중 모델 협업이 가능한 그록 4 헤비는 복잡한 문제 해결에 강점을 갖는 것으로 평가된다. 독립 분석 기관 'Artificial Analysis'에 따르면, 그록 4는 주요 AI 벤치마크에서 경쟁 모델들을 제치고 최상위 성능을 기록했다.

가격 정책도 공개됐다. API 사용의 경우 입력 100만 토큰당 3달러(약 4,300원), 출력 100만 토큰당 15달러(약 2만 1,600원), 캐시된 입력은 0.75달러(약 1,100원)로 설정됐다. 일반 소비자는 월 16달러(약 2만 3,000원)의 프리미엄 플러스 요금제 또는 월 300달러(약 43만 2,000원)의 슈퍼그록 요금제를 통해 이용 가능하다.

다만 성능과 별개로 현재 그록을 둘러싼 신뢰성 논란은 여전히 해결되지 않은 과제로 남아 있다. ACLU와 반유대주의방지연맹(ADL) 등 주요 시민단체들은 그록의 발언을 “위험하고 무책임하다”며 강도 높게 비판했고, 일부 기업 사용자 사이에서도 Grok을 도입하는 데 주저하는 분위기가 퍼지고 있다.

학계와 업계에서도 반응은 엇갈린다. 펜실베이니아대 와튼스쿨의 에단 몰릭 교수는 “성능은 인정하나 신뢰의 부재가 기업에 치명적일 수 있다”고 지적하며, “좋은 모델만으로는 부족하며, 신뢰할 수 있는 모델이어야 한다”고 강조했다. 일각에서는 머스크가 자신의 개인 성향을 AI에 반영하려는 시도가 기업 고객의 신뢰를 해칠 수 있다고 분석하고 있다.

이번 논란은 도널드 트럼프와 연결된 과거 사례들과 맞물리며 더욱 주목받고 있다. 그록 이전 버전은 일부 질문에 대해 머스크와 트럼프를 가짜뉴스 유포자로 지목하는 매체를 참조하지 못하도록 설정됐다가 발각되기도 했다. 또한 최근 그록 4에서도 유사한 반유대적 발언이 추가로 보고돼 방어적 해명이 반복되는 악순환이 이어지고 있다.

결국 그록 4는 강력한 기능과 끊임없는 윤리적 논란이라는 양면성을 가진 채 시장에 등장했다. AI 분야에서 기업 고객이 가장 중요하게 여기는 ‘신뢰성과 중립성’ 이슈가 해결되지 않는다면, 그 어떤 기술적 진보도 한계에 부딪힐 수밖에 없다는 현실을 다시 한 번 일깨운다.