세일즈포스(CRM)가 'AI 항공 시뮬레이터' 개발에 나서며 기업용 인공지능(AI) 도입의 치명적인 약점을 정면 돌파하고 있다. 기업의 AI 테스트가 성공적인 데모에 머무르고 실제 업무에선 무력해지는 현상이 확산되는 가운데, 이를 해결하기 위한 '모의 실험실' 개념이 등장한 것이다.
이번 주 세일즈포스는 AI 연구 과제 3가지를 공개했는데, 그중 핵심은 'CRMArena-Pro'라는 디지털 트윈 플랫폼이다. 이는 실제 업무 시나리오를 정교하게 복제한 가상 공간으로, AI 에이전트를 실전 배치 전에 검증하는 데 초점을 맞춘다. 세일즈포스 최고과학자 실비오 사바레세는 "조종사가 태풍 속에서 비행을 배우지 않듯, AI도 예측 불가능한 현실을 대비한 훈련이 필요하다"고 설명했다.
이번 발표는 기업들이 AI 도입에 어려움을 겪는 현실에서 나왔다. MIT 보고서에 따르면 기업의 생성형 AI 파일럿 가운데 무려 95%가 실제 운영 단계까지 도달하지 못하고 있다. 세일즈포스의 자체 조사 결과도 대형 언어모델의 복합 업무 처리 성공률이 35%에 불과하다는 점을 보여준다. 이처럼 성능과 실전에 괴리가 커지면서, 기업들의 실망감도 커지는 상황이다.
CRMArena-Pro는 기존의 추상적인 벤치마크와 달리, 고객 서비스 대응, 매출 예측, 공급망 변동 등 실제 업무 중심의 평가 항목을 채택했다. 시뮬레이션 기반 데이터는 관련 도메인 전문가들의 검증을 거쳐 제작돼, 현실과 유사한 복잡성을 반영한다. 세일즈포스는 자사 내부에서 이미 이 플랫폼을 시범 운영하고 있으며, 이를 통해 실제 업무상 반복되는 대화 흐름과 문제 해결 능력이 평가되고 있다.
AI가 기업에서 실제 활용되기 위해선 단순히 정확도만 중요한 것이 아니다. 이에 따라 세일즈포스는 AI 평가용 기준인 'Agentic Benchmark for CRM'도 공개했다. 이 기준은 정확도, 비용, 속도, 신뢰성 및 보안, 환경 지속 가능성의 5가지 지표로 에이전트를 평가한다. 특히 환경 지표는 모델의 규모를 업무에 맞게 조정해 에너지 소비와 성능 사이의 균형을 유도한다.
데이터 통합 문제도 새로운 과제로 지목된다. 세일즈포스는 'Account Matching' 기능을 통해 같은 기업을 다르게 표기한 중복 계정을 통합하는 기술을 선보였다. 이 과정은 커스텀 언어모델을 활용해 다중 시스템 상의 데이터를 정리하고, 판매자가 고객 계정 확인에 소요하는 평균 30분의 시간을 절약하는 데 기여했다.
보안 문제도 함께 떠올랐다. 최근 세일즈포스 고객사 700여 곳이 사이버 공격으로 피해를 입으면서, 서드파티 통합 서비스의 취약성이 드러났다. 해커들은 서드파티 챗봇 서비스의 OAuth 토큰을 탈취해 세일즈포스 환경에 침투했고, 이를 통해 아마존웹서비스(AWS), 스노우플레이크 등의 자격 증명을 수집했다. 세일즈포스는 해당 서드파티 앱인 'Salesloft Drift'를 앱 마켓에서 즉시 제거하고 조사에 착수한 상태다.
이번 세일즈포스의 시뮬레이션 및 벤치마크 전략은 단순히 화면 위의 데모에서 그치는 AI가 아닌, 현실 업무에 적용 가능한 '기업형 제너럴 인텔리전스(Enterprise General Intelligence)' 구축을 향한 노력으로 해석된다. 사바레세는 "AI가 단일 업무에만 뛰어난 것이 아니라, 다양한 시나리오에서 일관된 성능을 보여야 진짜 실용화가 가능하다"고 말했다.
세일즈포스는 오는 10월 '드림포스' 행사에서 이번 연구 성과를 발표하고 새로운 AI 기능들을 추가 공개할 예정이다. 단기 시연에 강한 AI가 아니라, 진짜 기업 변화의 마중물이 될 수 있는 기술로 발전하려는 강한 의지를 담은 선언으로 평가된다.