“AI가 왜 그 답을 냈는지 설명할 수 있어야 한다”… 앤스로픽, 해석 가능한 AI에 720억 투자

| 김민준 기자

엔터프라이즈 AI 전략이 더욱 고도화되는 가운데, 앤스로픽(Anthropic)의 ‘해석 가능한 AI(Interpretable AI)’에 대한 접근이 주목받고 있다. 다리오 아무데이(Dario Amodei) CEO는 지난 4월, AI 모델이 어떻게 결론에 도달하는지를 이해하는 것이 이제는 선택이 아닌 필수라고 강조했다. 이는 강력한 AI 경쟁자들을 상대해야 하는 상황에서 해석 가능성이 기업 전략의 핵심 요소로 부상하고 있음을 방증한다.

앤스로픽은 2021년 오픈AI(OpenAI) 출신 인재들이 창립한 이후, 안전성과 인간 중심 원칙에 기반한 AI 모델을 구축하는 데 집중해왔다. 이들은 ‘헌법적 AI(Constitutional AI)’라는 가이드를 통해 자사의 모델들이 사회에 유익하고 정직하며 무해하게 작동하도록 설계했다. 특히 최근 출시된 클로드 3.7 소넷과 클로드 4.0 오퍼스는 코딩 성능에서 독보적인 성적을 보이며 기술의 안정성과 효율성을 동시에 입증했다.

하지만 문제는 여전히 남아 있다. 최신 대규모언어모델(LLM)들은 높은 성능에도 불구하고 왜 응답을 특정 방식으로 생성하는지에 대한 ‘이해의 불가능성’이라는 장벽을 안고 있다. 아무데이 CEO는 “AI가 특정 단어를 택하는 이유나, 정확도가 높은 중에도 왜 때로는 엉뚱한 답을 내놓는지를 설명할 수 없다면, AI의 안전성과 신뢰도는 제한될 수밖에 없다”고 경고한다. 잘못된 진단이나 편향적 판단 같은 예측 불가능한 오류가 인간의 삶에 큰 영향을 미치는 분야 — 의료, 금융, 법률 등에 AI가 도입되면서 해석 가능성은 단순한 기술적 과제가 아닌 사회적 과제로 확대되고 있다.

이런 문제의식 아래 앤스로픽은 해석 가능성 확대를 위해 2027년까지 ‘대부분의 모델 문제를 탐지할 수 있는 수준의 해석 능력’을 확보하겠다는 로드맵을 제시했다. 그 일환으로 AI 모델 내부 개념들을 시각화하고 조작할 수 있는 도구를 개발하는 굿파이어(Goodfire)에 최근 5,000만 달러(약 720억 원)를 투자했다. 해당 툴 ‘엠버(Ember)’는 생성형 이미지 모델 내에서 개별 개념을 식별하고 이를 기반으로 사용자가 제시한 조건에 맞는 이미지를 생성할 수 있는 기능까지 갖췄다.

하지만 해석 가능성을 만능 해결책으로 보는 관점에 대해 일부 학계에서는 신중한 입장을 보인다. 프린스턴대 AI 안전연구자인 사야시 카푸어(Sayash Kapoor)는 “해석 가능성은 모델 통제 전략 중 하나일 뿐”이라며, 인간 중심 설계나 사후 필터링 등의 통합적 안전 기술과 병행돼야 진정한 효과를 얻을 수 있다고 주장한다. 그는 “우리가 기술의 내부를 완전히 몰라도 신뢰 가능한 조건 하에서 사용할 수 있는 기술들이 많다. 중요한 것은 실제 환경에서 일관된 성과를 내는 시스템 구축”이라고 덧붙였다.

앤스로픽의 경쟁업체들도 해석 가능성에 주목하고 있다. 구글(GOOGL)의 딥마인드(DeepMind)는 네일 난다(Neel Nanda)가 이끄는 팀을 중심으로 모델 내부 분석 기술을 확장 중이다. 이는 글로벌 AI 주도권 경쟁 속에서 ‘내부 구조까지 이해 가능한 모델’이 기업 간 차별화 전략으로 부상하고 있음을 시사한다.

그러나 접근 방식의 차이를 두고 업계 내 견해차도 뚜렷하다. 지난 주 비바테크(VivaTech) 행사에서 엔비디아(NVDA)의 젠슨 황(Jensen Huang) CEO는 “AI를 책임감 있게 개발하려면 폐쇄된 연구가 아닌 개방적 협력이 필요하다”며 아무데이의 방식에 공개적으로 반대 입장을 밝혔다. 이에 대해 앤스로픽은 “공공과 정책 입안자가 모델의 잠재 위험과 기능을 인지할 수 있도록 하는 ‘투명성 규범’ 마련을 누구보다 강하게 요구하고 있다”며 자사의 폐쇄성과 독점 논란을 일축했다.

해석 가능한 AI는 이제 선택이 아니라 필수가 되고 있다. 향후 LLM이 산업 현장에 더 깊숙이 침투하면서, 그 의사결정 과정을 이해하고 대응할 수 있는 시스템을 갖춘 기업이 경쟁에서 앞서 나가게 될 것이다. 앤스로픽의 방향성은 기술적 진보 그 자체보다, AI가 인간 중심 기술로 기능할 수 있게 만드는 새로운 기준을 제시하고 있다.