테스트스프라이트가 인공지능 코딩 에이전트의 ‘자체 검증’ 문제를 정면으로 겨냥했다. 코드 작성 속도는 빨라졌지만 완성도 검증은 여전히 허술하다는 지적 속에, 회사는 AI가 스스로 만든 결과물을 다시 점검할 수 있는 명령줄 도구를 오픈소스로 공개했다.
이번에 공개된 ‘테스트스프라이트 CLI’는 AI 코딩 에이전트가 작성한 기능을 단순 점검이 아닌 실제 품질보증 흐름으로 검증하도록 설계됐다. 에이전트가 특정 동작을 설명하면, 도구는 클라우드 환경에서 실제 사용자처럼 라이브 브라우저를 조작하거나 실제 애플리케이션 프로그래밍 인터페이스(API)를 호출해 테스트를 수행한다. 가짜 환경인 ‘모의 프로토콜’을 쓰지 않는 점이 핵심이다.
이 과정에서 실패가 발생하면 테스트스프라이트는 문제 구간과 인접 단계, 화면 캡처, 문서 객체 모델(DOM) 정보, 테스트 소스, 근본 원인에 대한 가설, 권장 수정안까지 한 번에 돌려준다. AI 코딩 에이전트는 이 데이터를 바탕으로 코드를 고치고 다시 실행할 수 있다. 사실상 ‘작성→검증→수정’의 반복 루프를 자동화하는 구조다.
테스트스프라이트에 따르면 최근 AI 코딩 도구는 자연어 지시만으로 앱 전체를 빠르게 만드는 수준까지 발전했지만, 그 결과물이 항상 안정적인 것은 아니다. 겉으로는 작동하는 것처럼 보여도 경계 조건에서 오류가 나거나, 새 기능을 추가한 뒤 기존 기능이 깨지는 일이 적지 않다는 설명이다.
창업자 겸 최고경영자 주윤하오(Jiao Yunhao)는 “개발자들이 가장 답답해하는 지점이 바로 이것”이라며 “AI로 새 기능을 배포하고 하나를 고치면 다른 부분이 다시 깨진다. 자사 경쟁 테스트에서 최고 성능 에이전트조차 기존에 잘 작동하던 기능의 12%를 망가뜨렸다”고 말했다. 그는 이어 “검증 도구가 메워야 할 간극이 바로 여기”라고 강조했다.
테스트스프라이트는 에이전트가 한 단계의 작업을 끝낼 때마다 수십 개의 신규 테스트를 추가해 코드베이스와 함께 테스트 범위도 넓어진다고 설명했다. 애플리케이션이 복잡해질수록 숨어 있는 오류 가능성도 커지는데, 이를 지속적으로 추적하는 ‘안전망’을 제공하겠다는 구상이다.
이번 CLI는 아파치 2.0 라이선스로 오픈소스 공개됐으며, Node.js 2.0 이상 환경에서 설치할 수 있다. 문서와 참고 자료는 깃허브에서 제공된다.
테스트스프라이트는 CLI 공개와 함께 AI 코딩 에이전트 경쟁 무대인 ‘코더컵(CoderCup)’도 출범시켰다. 여러 AI 에이전트가 같은 애플리케이션을 동일한 제한 시간 안에 만들고 배포하는 방식으로, 테스트스프라이트 CLI가 중립적인 심판 역할을 맡는다.
첫 대회에는 앤트로픽의 클로드 코드, 오픈AI의 코덱스, 구글의 안티그래비티, 문샷AI의 키미 등이 참여했다. 테스트스프라이트는 단계별 점수와 전체 결과를 코더컵 웹사이트에 공개했다.
회사 측은 기존 벤치마크가 AI 코딩 에이전트를 ‘단일 점수’로 평가하는 데 치우쳐 있지만, 실제 개발 현장에서 중요한 것은 첫 시도 성공률, 기존 기능 훼손 빈도, 자가 복구 능력 같은 세부 지표라고 짚었다.
공개된 결과를 보면 클로드 코드는 일관성에서 강점을 보였고, 코덱스와 안티그래비티는 누적 작업 시간이 100분 아래로 집계되며 가장 빠른 축에 들었다. 반면 키미는 약 350분으로 가장 느렸지만, 정확도 0.89로 가장 높은 성적을 기록했고 총비용도 가장 낮았다. 회사는 상대적으로 작은 모델이면서도 더 큰 에이전트들을 능가한 사례라고 평가했다.
눈에 띄는 대목은 ‘빠른 에이전트가 반드시 좋은 결과를 내지 않았다’는 점이다. 테스트스프라이트에 따르면 거의 모든 에이전트가 이미 끝낸 작업을 다시 망가뜨리는 문제를 드러냈다. 이는 AI 코딩 시장에서 생성 능력뿐 아니라 검증 체계의 중요성이 커지고 있음을 보여준다.
주윤하는 “코더컵은 그런 문제를 눈에 보이게 만들기 위해 만들었다”며 “축구 맞대결 형식은 흥미 요소일 뿐이고, 진짜 핵심은 그 밑의 측정 지표”라고 말했다.
AI 코딩 도구 경쟁이 ‘누가 더 빨리 만드느냐’에서 ‘누가 더 덜 망가뜨리느냐’로 옮겨가는 흐름도 뚜렷해지고 있다. 테스트스프라이트의 이번 오픈소스 공개는 AI 코딩 에이전트 시장에서 ‘검증 자동화’가 새로운 표준으로 자리 잡을 수 있을지 가늠하는 시험대가 될 전망이다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사