링크복사
공유
댓글
추천
스크랩
인쇄
글자크기

링크가 복사되었습니다.

글자크기

가

작게

가

보통

가

크게

가

매우크게

인공지능 테크

AI가 만든 코드를 AI가 테스트한다… '에이전틱 AI' 혁신 전면에

김민준 기자

2025.10.11 (토) 02:14

에이전틱 AI가 소프트웨어 개발의 테스트 자동화를 주도하며, 신뢰성과 검증 가능성을 둘러싼 경쟁이 심화되고 있다. 대부분의 기업이 AI 테스트 에이전트를 도입 중이며, 경량화된 모델과 인간 개입의 균형이 강조되고 있다.

AI가 만든 코드를 AI가 테스트한다… '에이전틱 AI' 혁신 전면에 / TokenPost.ai

에이전트 기반 인공지능(AI), 이른바 '에이전틱 AI'가 기업 소프트웨어 혁신의 중심 기술로 부상하고 있다. 최고경영자들은 생산성과 자동화를 높이기 위해 AI 에이전트를 조직 전반에 적극 도입하고 있으며, 소프트웨어 개발 현장에서는 이를 바탕으로 다시 '테스트 자동화'의 새로운 전기를 맞고 있다.

업계 전문가들은 AI 개발 도구와 테스트 플랫폼이 코딩 생산성을 최대 10배까지 끌어올릴 수 있다고 진단하면서도, 그와 동시에 AI가 생성한 코드 품질을 검증할 수 있는 ‘신뢰 가능한 테스트 시스템’에 대한 중요성이 커지고 있다고 지적한다. 결국 AI가 만든 것을, 또 다른 AI가 시험하는 시대가 열린 셈이다.

최근 한 설문조사에 따르면 응답 기업의 3분의 2가 이미 다수의 AI 에이전트로 소프트웨어를 테스트하고 있으며, 72%는 2027년까지 AI가 테스트 전체를 자율적으로 운영할 수 있을 것으로 예상하고 있다. 특히 새롭게 설립된 스타트업이 더 민첩하게 대응하는 모습이지만, 오히려 경험 부족으로 오류 탐지를 면밀히 하지 못하는 경우도 지적된다.

트리센티스(Tricentis)의 인공지능 부문 부사장 데이비드 콜웰은 AI 테스트의 핵심은 단순 처리 속도가 아니라 테스트 정확성에 대한 '검증 가능성'이라고 꼬집는다. 그는 “가장 뛰어난 에이전트는 가장 빨리 처리하는 것이 아니라, 가장 빨리 ‘정확하게 처리됐음을’ 증명할 수 있는 것”이라고 강조했다.

기존 엔터프라이즈 기업의 경우 DevOps 툴 체인이 오래 전부터 자리잡은 만큼, 기존 테스트 계획과 시나리오, 아키텍처 문서, 로봇 자동화 봇 등을 기반으로 한 'AI 컨텍스트 학습'에서 유리하다는 평가도 나온다.

버츄오소(Virtuoso QA)를 만든 스팟QA(SpotQA) CEO 앤드루 도티는 AI 테스트 흐름을 다음과 같이 설명했다. "하나의 에이전트가 사용자 명령을 이해해 테스트를 기획하고, 다른 에이전트가 이를 실행해 테스트 액션을 생성합니다. 또 다른 에이전트는 앱 변경 사항을 반영해 테스트를 조정하며, 실패가 발생하면 관련 히스토리를 조회해 자동 분류 후 개발자에게 전달하죠."

다만 GPT·제미나이 같은 대형 언어모델(LLM)은 일반적인 지식엔 능하지만, 소프트웨어 테스트라는 특수 분야에선 불필요한 토큰 소모나 테스트 정확성 문제로 한계를 드러낸다. 이에 따라 보다 작고 맥락 중심의 경량화된 AI 모델이 현실적인 대안으로 부상하고 있다.

펑션아이즈(Functionize) 사장 매트 영은 "우리 고객들은 특정 테스트 작업에 대형 모델이 필요 없다고 본다"며 "작지만 정밀 조정된 모델이 테스트 일관성과 의미 있는 결과를 만들어낸다"고 밝혔다.

간단한 테스트 관리 툴이 수년간 존재해 왔지만, 이제는 API와 MCP 서버 등 다양한 인프라를 통해 AI 에이전트를 기존 자동화 툴과 통합하는 단계로 진화 중이다. 카탈론(Katalon)의 전략 부사장 알렉스 마틴스는 "세부 요구사항이 부족하면 AI가 생성한 테스트는 무용지물이 된다"며, 에이전트 간의 상호검증 메커니즘도 필요하다고 말했다.

AI 테스트에서 흔히 발생하는 '환각(hallucination)' 현상도 과제로 꼽힌다. 테스트 시나리오를 임의로 구성하거나 핵심 케이스를 빠뜨리는 경우, 혹은 의도와 다르게 코드를 삭제하는 등의 문제는 여전히 인간의 검토를 요구한다.

스피드스케일(Speedscale)의 CEO 켄 아렌스는 "에이전트가 자문자답을 하지 않도록 하기 위해선 실제 운영환경 데이터를 지속적으로 수집하고, 이를 테스트에 반영하는 피드백 루프가 필요하다"고 조언했다. 스피드스케일은 최근 현실 감지 환경을 스냅샷으로 추출하는 무료 유틸리티 '프록시목(ProxyMock)'을 출시하기도 했다.

이처럼 AI 개발 속도가 가속화되는 가운데, 테스트 과정도 이들 속도에 맞춰 진화하고 있다. 각 커밋에 대해 자동 테스트를 생성하는 소스랩(Sauce Labs)이나, 테스트 결과에 대한 원인 규명을 가능하게 하는 분산 로깅 기술도 시험되고 있다.

스마트베어(SmartBear)의 AI 담당 부사장 피츠 놀런은 "AI가 만든 추상적 구조가 실제 인간이 느끼는 앱 사용 경험과 다를 수 있다"며 "결국 그 차이를 해소하기 위한 인간의 판단 개입은 필수적"이라 밝혔다.

코도(Qodo)의 CEO 이타마르 프리드먼은 "코드 생성만 반복하지 말고, 에이전트를 통해 20년 전부터 말만 해온 '테스트 주도 개발(TDD)'을 실천해보자"고 제안한다. 그는 다양한 에이전트가 코드 요구사항을 IDE 안에서 점검하고, 요구 조건과의 일치를 검증할 수 있다고 덧붙였다.

마지막으로 모든 테스트 결과가 설득력을 가지려면 다시 '재현 가능성(repeatability)'이 보장돼야 한다. 소스랩 CEO 프린스 콜리는 "동일한 상태를 복제하고 트리거 당시의 로그, 테스트 상황 등을 오류 발생 시점으로 되돌려야 한다"며, AI에게 '왜 그런 결론에 도달했는지'를 묻는 투명성 확보가 중요하다고 강조했다.

앞으로 기업들은 테스트 에이전트의 책임 범위와 신뢰 프레임워크를 명확히 정립해야 한다. 이 과정에서 사람의 역할은 여전히 중요하다. 아무리 정교한 AI 에이전트를 배치하더라도, 최종 품질을 확정하는 마지막 테스트는 결국 사람이 책임질 수밖에 없는 현실 때문이다.

뉴스를 실시간으로...토큰포스트 텔레그램 가기

광고문의 기사제보 보도자료

#에이전틱AI #AI소프트웨어테스트 #테스트자동화 #스타트업 #DevOps