생성형 인공지능을 활용한 테스트 플랫폼 전문업체 람다테스트(LambdaTest)가 복잡한 AI 에이전트의 품질을 검증할 수 있는 ‘에이전트-투-에이전트(Agent-to-Agent) 테스트 플랫폼’을 비공개 베타 형태로 출시했다. 이 새로운 테스트 시스템은 AI 에이전트 간의 상호작용을 실제 사용자 환경처럼 시뮬레이션하며, 목적 기반 행동 수행 시의 안정성과 신뢰성을 미리 가늠해볼 수 있게 설계됐다.
최근 기업들은 단순한 챗봇을 넘어, 복잡한 태스크를 자율적으로 수행하는 AI 에이전트를 업무에 도입하고 있다. 이와 함께 에이전트 간 협업이나 상호작용이 필수가 되다 보니, 이들이 실제 환경에서 제대로 동작하는지를 검증하려는 수요가 급증하고 있다. 람다테스트는 이러한 변화에 대응해 다중 대화형 AI 에이전트를 시험할 수 있도록 하는 시험 전용 플랫폼을 현업 개발자들에게 제공한다는 계획이다.
에이전트 기반 AI는 사용자와 텍스트를 주고받는 수준을 넘어서, 음성 통화나 이미지·문서 분석, 영상 시청, 화면 제어 등 다방면에서 작동할 수 있다. 람다테스트는 이처럼 복잡하고 예측 불가능한 시스템을 검증하기 위해 텍스트, 이미지, 영상 파일 등 다양한 포맷의 요구사항 문서를 받아 실제 업무 시나리오에 기반한 테스트 케이스를 자동 생성하는 기능을 구현했다.
핵심 검증 항목으로는 편향성, 응답 완전성, 환각(hallucination) 비율, 보안성, 신뢰도 등을 꼽을 수 있다. 특히 테스트용 AI 전문가 그룹을 별도 구성해 분석 정확도를 높이는 전략을 취했다. 현재 플랫폼 내에는 보안 연구자, 규정 준수 검사관 등 15종의 목적별 테스트 에이전트가 탑재되어 있다.
람다테스트 아사드 칸(Asad Khan) CEO는 “AI 앱이 점차 복잡해지는 시점에선 전통적인 테스트 방식으로는 이를 감당할 수 없다”며 “각각의 에이전트는 고유한 특성을 갖고 있기 때문에, 이를 모사하고 검증할 수 있는 지능적이고 다층적인 시험 환경이 필요하다”고 설명했다.
이번 플랫폼은 단순히 하나의 LLM 기반 검증에 그치는 것이 아니라, 복수의 대형 언어 모델을 활용한 다중 테스트 접근 방식을 채택했다. 이로 인해 더 많은 경계 사례(edge case)와 다양한 도전 시나리오에 대비할 수 있다는 장점이 있다. 즉, 람다테스트가 제안하는 방식은 실제 사용자처럼 사고하며, 실제 환경과 유사한 컨텍스트 기반의 시나리오를 만들어내는 지능형 테스트에 가깝다.
에이전트형 AI가 기업 조직 내 주요 기능을 대신하게 될 것이라는 전망도 나오는 상황에서, 신뢰성과 보안은 더욱 중요한 평가 기준이 되고 있다. EY가 올해 글로벌 경영진을 대상으로 실시한 설문조사에 따르면, 73%가 “머지않아 전체 부서를 AI 에이전트가 운영할 수도 있을 것”이라고 답했다. 그러나 동시에 데이터 프라이버시, 사이버보안, 내부 정책 준수 등 다양한 장벽으로 인해 본격 도입을 주저하는 분위기도 확산되고 있다.
람다테스트의 에이전트-투-에이전트 테스트 플랫폼은 이러한 우려에 기술적 해법을 제시하며, 기업의 AI 프로젝트 테스트 전략에 새로운 전환점을 제공하고 있다는 평가를 받고 있다.