세일즈포스(CRM)가 인공지능 기반 기업용 솔루션의 신뢰성과 일관성을 높이기 위해 AI 연구 프레임워크를 대거 공개했다. 최근 자사 발표에서 세일즈포스는 '비일관 추론(jagged intelligence)' 문제를 해결하고자 다양한 벤치마크와 모델을 선보이며, 이를 통해 AI의 실용성과 예측성을 대폭 끌어올리겠다는 전략을 내놨다.
세일즈포스가 중점적으로 지목한 문제는 AI의 원천적 능력과 실제 기업 환경에서의 안정적인 성능 사이의 간극이다. 이를 해결하기 위한 첫 단계로 세일즈포스는 ‘SIMPLE’이라는 이름의 신뢰성 측정 데이터셋을 공개했다. 이는 단순한 추론 질문 225개로 구성되어 AI 시스템의 일관성 여부를 광범위하게 점검할 수 있는 툴이다. 셸비 하이니크(Shelby Heinecke) 세일즈포스 리서치 시니어 매니저는 “무엇을 측정하지 않으면 개선도 불가능하다”며 데이터셋의 필요성을 강조했다.
또한 세일즈포스는 보다 현실적인 테스트 환경을 마련하기 위해 'CRM아레나(CRMArena)'라는 벤치마크 플랫폼도 공개했다. 이 시스템은 고객 서비스, 데이터 분석, 관리자 업무 등 실제 기업 내 역할을 시뮬레이션하는 데 초점을 맞췄다. 테스트 결과 상위 AI 에이전트들도 복잡한 업무 처리에 있어 성공률이 65%를 넘지 못한 것으로 나타났다. 실비오 사바레세(Silvio Savarese) 최고 과학자는 “실패 사례를 통해 학습하고 이를 기반으로 개선하는 과정을 자체 시스템으로 내재화했다”고 밝혔다.
기술적 진보도 주목된다. 세일즈포스는 SFR-임베딩 모델을 통해 56개 데이터셋에서 최고의 텍스트 임베딩 성능을 확보했다고 발표했다. 해당 모델은 곧 데이터 클라우드에 적용될 예정이다. 개발자를 위한 SFR-임베딩-코드 모델도 병행 공개됐으며, 이는 고성능 코드 검색 기능을 제공한다.
또 하나의 핵심 발표는 ‘xLAM V2’다. 이는 기존 대형 언어모델과 달리 텍스트 생성보다 액션 예측에 최적화된 소형 모델들로 구성돼 있다. 세일즈포스에 따르면 최소 1억 파라미터 수준에서도 기존 대형 모델에 필적하는 실행력이 확보된 것으로 나타났다. 이는 작업 흐름 속에서 다음 행동을 예측해 실행하는 ‘자율형 에이전트’ 구현에 유리하다.
이 외에도 AI의 안정성 확보를 위한 보호 장치도 마련됐다. 세일즈포스는 내부 및 공개 데이터를 기반으로 훈련된 ‘SFR-가드’ 모델을 통해 자사의 AI 신뢰층(Trust Layer)을 강화했다. 이 기능은 AI 에이전트가 기업 정책과 기준을 벗어나지 않도록 제어한다. 이어 LLM 심판 모델 평가용 ‘ContextualJudgeBench’와 멀티모달 문제 해결용 ‘TACO’ 모델군도 함께 도입됐다.
세일즈포스의 AI 전략은 이처럼 단순히 성능 높은 모델을 구축하는 데서 그치지 않고, 실무 중심의 정밀도와 신뢰성을 완성하는 데 방점을 찍고 있다. 이는 AI라는 기술을 단순 도구에서 핵심 경영 기반으로 끌어올리겠다는 포석이다. 이타이 아세오(Itai Asseo) 세일즈포스 AI 연구 디렉터는 “기업용 데이터를 다룰 때는 사소한 오류도 용납되지 않는다”며 고객 피드백 기반의 공동 혁신이 중요한 배경임을 시사했다.
오는 몇 달간 세일즈포스는 해당 기술들을 단계적으로 상용화할 예정이다. 그 중에서도 SFR-임베딩은 가장 먼저 데이터 클라우드에 반영될 계획이며, 다른 기술들은 향후 Agentforce 플랫폼에 통합될 것으로 보인다. 사바레세는 “AI가 인간을 대체하기보다, 사람이 기술을 통제하도록 설계돼야 한다”며 AI의 주도권이 신뢰와 일관성에 달려 있음을 재차 강조했다.