맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

테스트스프라이트, AI 코딩 ‘자체 검증’ 겨냥한 CLI 오픈소스 공개…코더컵도 출범

프로필
강수빈 기자
댓글 0
좋아요 비화설화 0

테스트스프라이트가 AI 코딩 에이전트가 만든 기능을 실제 브라우저·API 호출로 검증하는 테스트스프라이트 CLI를 아파치 2.0으로 오픈소스 공개했다.

주윤하오 CEO는 최고 성능 에이전트도 기존 기능의 12%를 망가뜨렸다고 밝히며, 속도보다 정확성을 겨루는 AI 코딩 대회 ‘코더컵’도 함께 시작했다고 전했다.

 테스트스프라이트, AI 코딩 ‘자체 검증’ 겨냥한 CLI 오픈소스 공개…코더컵도 출범 / TokenPost.ai

테스트스프라이트, AI 코딩 ‘자체 검증’ 겨냥한 CLI 오픈소스 공개…코더컵도 출범 / TokenPost.ai

테스트스프라이트가 인공지능 코딩 에이전트의 ‘자체 검증’ 문제를 정면으로 겨냥했다. 코드 작성 속도는 빨라졌지만 완성도 검증은 여전히 허술하다는 지적 속에, 회사는 AI가 스스로 만든 결과물을 다시 점검할 수 있는 명령줄 도구를 오픈소스로 공개했다.

이번에 공개된 ‘테스트스프라이트 CLI’는 AI 코딩 에이전트가 작성한 기능을 단순 점검이 아닌 실제 품질보증 흐름으로 검증하도록 설계됐다. 에이전트가 특정 동작을 설명하면, 도구는 클라우드 환경에서 실제 사용자처럼 라이브 브라우저를 조작하거나 실제 애플리케이션 프로그래밍 인터페이스(API)를 호출해 테스트를 수행한다. 가짜 환경인 ‘모의 프로토콜’을 쓰지 않는 점이 핵심이다.

이 과정에서 실패가 발생하면 테스트스프라이트는 문제 구간과 인접 단계, 화면 캡처, 문서 객체 모델(DOM) 정보, 테스트 소스, 근본 원인에 대한 가설, 권장 수정안까지 한 번에 돌려준다. AI 코딩 에이전트는 이 데이터를 바탕으로 코드를 고치고 다시 실행할 수 있다. 사실상 ‘작성→검증→수정’의 반복 루프를 자동화하는 구조다.

“AI가 기능 완성이라고 해도, 실제론 망가진 경우 많다”

테스트스프라이트에 따르면 최근 AI 코딩 도구는 자연어 지시만으로 앱 전체를 빠르게 만드는 수준까지 발전했지만, 그 결과물이 항상 안정적인 것은 아니다. 겉으로는 작동하는 것처럼 보여도 경계 조건에서 오류가 나거나, 새 기능을 추가한 뒤 기존 기능이 깨지는 일이 적지 않다는 설명이다.

창업자 겸 최고경영자 주윤하오(Jiao Yunhao)는 “개발자들이 가장 답답해하는 지점이 바로 이것”이라며 “AI로 새 기능을 배포하고 하나를 고치면 다른 부분이 다시 깨진다. 자사 경쟁 테스트에서 최고 성능 에이전트조차 기존에 잘 작동하던 기능의 12%를 망가뜨렸다”고 말했다. 그는 이어 “검증 도구가 메워야 할 간극이 바로 여기”라고 강조했다.

테스트스프라이트는 에이전트가 한 단계의 작업을 끝낼 때마다 수십 개의 신규 테스트를 추가해 코드베이스와 함께 테스트 범위도 넓어진다고 설명했다. 애플리케이션이 복잡해질수록 숨어 있는 오류 가능성도 커지는데, 이를 지속적으로 추적하는 ‘안전망’을 제공하겠다는 구상이다.

이번 CLI는 아파치 2.0 라이선스로 오픈소스 공개됐으며, Node.js 2.0 이상 환경에서 설치할 수 있다. 문서와 참고 자료는 깃허브에서 제공된다.

AI 코딩 대결 ‘코더컵’도 시작…속도보다 정확성이 갈랐다

테스트스프라이트는 CLI 공개와 함께 AI 코딩 에이전트 경쟁 무대인 ‘코더컵(CoderCup)’도 출범시켰다. 여러 AI 에이전트가 같은 애플리케이션을 동일한 제한 시간 안에 만들고 배포하는 방식으로, 테스트스프라이트 CLI가 중립적인 심판 역할을 맡는다.

첫 대회에는 앤트로픽의 클로드 코드, 오픈AI의 코덱스, 구글의 안티그래비티, 문샷AI의 키미 등이 참여했다. 테스트스프라이트는 단계별 점수와 전체 결과를 코더컵 웹사이트에 공개했다.

회사 측은 기존 벤치마크가 AI 코딩 에이전트를 ‘단일 점수’로 평가하는 데 치우쳐 있지만, 실제 개발 현장에서 중요한 것은 첫 시도 성공률, 기존 기능 훼손 빈도, 자가 복구 능력 같은 세부 지표라고 짚었다.

공개된 결과를 보면 클로드 코드는 일관성에서 강점을 보였고, 코덱스와 안티그래비티는 누적 작업 시간이 100분 아래로 집계되며 가장 빠른 축에 들었다. 반면 키미는 약 350분으로 가장 느렸지만, 정확도 0.89로 가장 높은 성적을 기록했고 총비용도 가장 낮았다. 회사는 상대적으로 작은 모델이면서도 더 큰 에이전트들을 능가한 사례라고 평가했다.

눈에 띄는 대목은 ‘빠른 에이전트가 반드시 좋은 결과를 내지 않았다’는 점이다. 테스트스프라이트에 따르면 거의 모든 에이전트가 이미 끝낸 작업을 다시 망가뜨리는 문제를 드러냈다. 이는 AI 코딩 시장에서 생성 능력뿐 아니라 검증 체계의 중요성이 커지고 있음을 보여준다.

주윤하는 “코더컵은 그런 문제를 눈에 보이게 만들기 위해 만들었다”며 “축구 맞대결 형식은 흥미 요소일 뿐이고, 진짜 핵심은 그 밑의 측정 지표”라고 말했다.

AI 코딩 도구 경쟁이 ‘누가 더 빨리 만드느냐’에서 ‘누가 더 덜 망가뜨리느냐’로 옮겨가는 흐름도 뚜렷해지고 있다. 테스트스프라이트의 이번 오픈소스 공개는 AI 코딩 에이전트 시장에서 ‘검증 자동화’가 새로운 표준으로 자리 잡을 수 있을지 가늠하는 시험대가 될 전망이다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.
본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.
광고문의 기사제보 보도자료

많이 본 기사

alpha icon

지금 꼭 알아야 할 리포트

관련된 다른 기사

주요 기사

6월 12일 퇴근길 팟캐스트 — 1억647만달러 청산, 숏 비중 65.8%…비트코인 ETF는 5일째 순유출

6월 12일 퇴근길 팟캐스트 — 1억647만달러 청산, 숏 비중 65.8%…비트코인 ETF는 5일째 순유출

해킹에 지친 디파이, ‘실물 담보’가 해답 될까…유럽 RWA 대출 플랫폼 8lends 주목

해킹에 지친 디파이, ‘실물 담보’가 해답 될까…유럽 RWA 대출 플랫폼 8lends 주목

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1