앤트로픽(Anthropic PBC)이 새로운 대형언어모델(LLM) ‘클로드 미토스 5’와 ‘클로드 페이블 5’를 공개했다. 회사는 두 모델이 다양한 벤치마크에서 경쟁 모델을 앞섰다고 밝혔으며, 특히 과학 연구와 소프트웨어 개발 부문에서 성능 향상이 두드러졌다고 강조했다.
이번 모델은 지난 4월 선보인 ‘클로드 미토스 프리뷰’를 기반으로 개발됐다. 당시 해당 모델은 복잡한 사이버보안 취약점을 찾아내는 능력으로 주목받았는데, 앤트로픽은 이번에 공개한 미토스 5와 페이블 5가 그보다 더 높은 성능을 낸다고 설명했다.
두 모델은 활용 범위와 안전장치에서 차이를 둔다. 페이블 5는 일반에 폭넓게 제공되며, 사이버보안 취약점 탐색처럼 ‘고위험’ 사용 사례와 관련된 요청은 차단한다. 반면 미토스 5는 비교적 완화된 가드레일을 적용했으며, 제한된 일부 기관에만 제공된다. 접근 관리에는 미국 정부와 협력할 계획이다.
앤트로픽에 따르면 미토스 5는 클로드 시리즈 가운데 처음으로 ‘일관되게 새롭고 설득력 있는 과학 가설’을 만들어낼 수 있는 모델이다. 회사는 아직 과학적으로 완전히 규명되지 않은 분자생물학 현상을 제시하고 설명을 요청했으며, 이 과정에서 나온 일부 제안이 실제 실험으로 검증할 가치가 있을 만큼 유망했다고 밝혔다.
실제로 미토스 5가 제시한 가설 가운데 하나는 이미 실험실에서 뒷받침됐다. 앤트로픽은 이 모델이 대장균(E. coli)을 구성하는 단백질 중 하나에 대해 새로운 정보를 찾아냈다고 설명했다.
추가 내부 테스트에서는 미토스 5가 의약품 개발에 활용될 가능성이 있는 단백질 표적 14개를 찾아냈다. 이 가운데 9개는 ‘신약 설계의 강력한 후보’로 평가됐다고 회사는 전했다. 또 단백질 탐색 과정의 일부 작업 속도는 최대 10배까지 빨라졌다고 덧붙였다.
페이블 5는 고성능과 함께 안전성을 더 강하게 반영한 모델이다. 사이버보안, 생물학, 화학 관련 요청은 차단되며, 이런 프롬프트는 지난 5월 공개된 비교적 덜 진보한 모델 ‘클로드 오퍼스 4.8’로 자동 우회 처리된다.
코딩 성능도 눈에 띈다. 미토스 5와 페이블 5는 프로그래밍 벤치마크 ‘SWE-Bench Pro’에서 80.3%를 기록하며 최고 점수를 세웠다. 초기 도입 기업인 스트라이프(Stripe)는 페이블 5를 활용해 5,000만 줄 규모의 내부 소프트웨어 저장소 현대화 작업을 진행했고, 통상 두 달 걸릴 일을 하루 만에 끝냈다고 앤트로픽은 설명했다.
비기술 분야 성능도 개선됐다. 문서 검토 능력을 평가하는 ‘GDP.pdf’ 벤치마크에서는 오퍼스 4.8보다 7.3% 높은 점수를 기록했다. 법률 업무 자동화 능력을 측정하는 또 다른 벤치마크에서도 최고 기록을 세웠다.
가격 정책은 이전보다 낮아졌다. 새 모델의 이용료는 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러다. 원화 기준으로는 각각 약 1만5,305원, 7만6,525원이다. 이는 미토스 프리뷰 대비 절반 이하 수준이며, 같은 작업을 수행하는 데 필요한 프롬프트 수도 줄어 효율성까지 높였다는 게 회사 설명이다.
이번 클로드 신모델 공개는 생성형 AI 경쟁이 단순한 ‘챗봇 성능’에서 과학 연구, 개발 생산성, 법률 검토 같은 산업별 실무 역량으로 빠르게 이동하고 있음을 보여준다. 특히 미토스 5처럼 고급 연구 능력을 내세운 모델은 향후 AI 기업들의 차별화 포인트가 될 가능성이 크다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

