“환각·오류 이미지 뚫었다”… 델, AI 손상 탐지에 ‘에이전트 전략’ 통했다

| 김민준 기자

컴퓨터 비전 프로젝트는 종종 예상과 다르게 전개된다. 서류상으론 단순해 보였던 이번 사례도 마찬가지다. 델 테크놀로지스는 이미지 기반 모델을 활용해 노트북 사진에서 파손 여부를 판별하는 프로젝트에 착수했지만, 현실의 변수는 훨씬 더 복잡했다. 환각(hallucination), 비정상 출력, 노트북이 아닌 이미지 처리 오류 등 다양한 장애물에 부딪힌 끝에, 이들은 다소 이례적인 방법—*에이전트 기반 프레임워크*—으로 문제를 정면 돌파했다.

초기에는 대형 언어모델(LLM)에 이미지와 단일 프롬프트(monolithic prompting)를 입력해 화면 균열이나 키보드 손상 등을 자동 탐지하게 했다. 하지만 실제 환경의 데이터를 다루다 보니 모델은 존재하지 않는 손상을 창조해내거나, 노트북도 아닌 이미지를 잘못 인식하는 문제가 발생했다. 정확성과 신뢰도가 떨어지며 프로젝트는 한계에 부딪혔다.

처음으로 시도한 개선책은 이미지 해상도 혼합을 통한 정합성 확보였다. 선명한 이미지부터 흐릿한 사진까지 다양한 품질의 데이터를 학습에 활용해 모델이 현실의 입력값에 더 잘 적응하도록 조율했다. 이 조치는 출력의 일관성을 다소 개선했지만, 환각과 이미지 필터링 문제는 여전했다.

이후 연구팀은 멀티모달 방식에서 텍스트 중심 모델로 방향을 전환했다. 이미지에서 먼저 여러 캡션을 추출하고 이를 LLM이 해석하는 방식이다. SigLIP 등 임베딩 모델을 통해 이미지-텍스트 일치도를 점검하며 품질을 높이려 했지만, 이번 접근 역시 환각이 여전히 존재했고 누락되는 손상 유형도 적지 않았다. 복잡성만 증가했을 뿐 뚜렷한 성능 향상은 없었다.

전환점이 된 것은 에이전틱(agentic) 프레임워크의 창의적 활용이었다. 이들은 이미지를 해석하는 업무를 여러 개의 에이전트로 분산 처리하는 구조를 새롭게 설계했다. 주 이미지를 분석하는 조정 에이전트가 노트북 구성 요소를 식별한 후, 각 구성 요소별로 특화된 손상 탐지 에이전트가 순차적으로 작업을 수행한다. 보조적으로는 입력 이미지가 아예 노트북인지 여부를 판단하는 필터링 에이전트도 운영했다.

이같은 모듈 기반 구성은 눈에 띄는 성과를 낳았다. 허위 판단은 감소했고, 노트북이 아닌 이미지도 정확히 배제됐다. 각각의 에이전트가 명확한 목표를 갖고 작동해 품질 관리도 용이했다.

다만 이 방식에도 단점은 있었다. 처리 시간이 길어졌고, 각 에이전트가 맡은 손상 유형 외에는 탐지가 불가능해 신규 손상 유형엔 무방비였다. 이를 보완하기 위해 이들은 다시 혼합 전략을 도입했다. 에이전트 구조로 주요 손상과 오류 이미지를 선제적으로 탐지한 후, 잔여 정보를 대형 프롬프트 기반 LLM이 탐색하는 이중 체계를 구성한 것이다. 여기에 자주 발생하는 손상 유형에 대해 모델을 정교하게 튜닝해 최종 정확성을 끌어올렸다.

이번 프로젝트를 통해 델은 몇 가지 핵심 교훈을 얻었다. 에이전트 프레임워크는 단순한 업무 조율도구가 아닌, AI 성능을 구성하는 유연한 구조로 작용할 수 있다는 점이 밝혀졌고, 단일 방식보다는 다양한 기법을 복합적으로 융합하는 것이 결과적으로 더 안정적이라는 사실도 입증됐다. 또, 이미지 품질의 다양성이 모델의 실환경 적응에도 크게 기여하며, 쓰잘데기 없는 이미지를 걸러내는 단순한 안전장치 하나만으로도 전체 시스템의 신뢰도가 높아질 수 있다는 점은 실질적인 통찰을 제공했다.

결국, 하드웨어 사진에서의 손상 탐지라는 간단해 보였던 과제는, 여러 AI 기술을 조합하고 목적에 맞게 변형하는 복잡한 여정을 통해서야 해답을 찾을 수 있었다. 에이전트 프레임워크는 그중 가장 유효하고도 실용적인 도구로 재발견됐다. 이처럼 예측 불가능한 현실 문제에는 발상의 전환이 해답이 될 수 있다.