기업들의 인공지능 도입이 기대만큼 속도를 내지 못하는 배경에는 모델 성능보다 더 근본적인 문제가 있다는 지적이 나왔다. 기존 데이터 인프라가 대규모 ‘지능형 워크로드’를 떠받치도록 설계되지 않았기 때문이다. 업계는 이를 해결할 대안으로 통합형 ‘데이터 레이크하우스’ 아키텍처에 주목하고 있다.
특히 수십 년간 부서별로 시스템을 따로 구축해 온 전통 기업일수록 문제가 더 크다. 데이터·분석 컨설팅 기업 퀀티파이의 글로벌 데이터·애널리틱스 총괄 데보프리요 나그는 기업들이 ‘에이전틱 AI’ 시대를 준비하는 과정에서 데이터 계층의 기술 부채를 해소하지 못하면, 실제 운영 환경에서 쉽게 흔들리는 AI 체계를 만들 수 있다고 진단했다.
그는 존 와일리 앤드 선스와의 프로젝트를 대표 사례로 제시했다. 219년 역사의 출판사 와일리는 10여 년 동안 축적된 분산형 데이터 환경을 안고 있었고, 각 사업부가 수만 개 테이블을 서로 다른 구조로 관리해 왔다. 나그는 “약 3만 개 테이블에 걸쳐 데이터가 여러 사업부에 흩어져 있었고, 각자 다른 방식으로 운영되고 있었다”며 “하류 AI나 비즈니스 인텔리전스를 위해 데이터를 맥락화할 수 없었고, 서로 다른 도메인의 데이터를 연결하는 것도 어려웠다”고 설명했다.
3만 개 테이블 통합, AI 준비의 출발점
와일리는 기존 벤더 계약 갱신 시점이 다가오자 단순 연장이 아니라 데이터 스택 전반을 재설계하는 쪽으로 방향을 틀었다. 와일리의 기술 그룹 부사장 메훌 트리베디는 “현재 생태계가 과연 앞으로도 투자할 만한 구조인지, 아니면 AI와 머신러닝 기반의 새 시대를 준비해야 하는지 질문하게 됐다”며 신뢰할 수 있는 통합 데이터 생태계 구축이 핵심 과제가 됐다고 말했다.
회사는 구글 클라우드의 빅쿼리를 새 기반으로 선택했다. 비용 효율성, 기술 통합성, 오픈소스 유연성이 주요 이유였다. 여기에 퀀티파이의 자체 AI 마이그레이션 도구 ‘코데이라(Codeaira)’를 활용해 약 300테라바이트 규모 데이터를 6~9개월 안에 옮겼다. 나그에 따르면 통상 1~2년이 걸릴 수 있는 작업을 AI 에이전트가 쿼리 변환, 파이프라인 이전, 검증 과정 전반에서 자동화하며 속도와 정확도를 높였다.
이 사례는 기업 AI 경쟁력이 단순히 고성능 모델 도입에 달린 것이 아니라, 데이터를 얼마나 일관되고 연결된 형태로 정리하느냐에 달려 있음을 보여준다. 사일로 구조가 남아 있으면 AI가 학습하고 추론하는 과정에서 맥락 손실이 커지고, 결과적으로 비즈니스 활용도도 떨어질 수밖에 없다는 의미다.
승부는 ‘장기전’ 준비에 달렸다
트리베디는 앞으로 AI 경쟁에서 앞서는 기업은 단기 성과보다 ‘장기전’을 준비한 곳이 될 것이라고 강조했다. 그는 “앞으로 10년 동안 이런 환경에서 경쟁할 조직을 어떻게 만들 것인지가 중요하다”며 인재 투자와 조직 학습 체계 구축이 병행돼야 한다고 말했다.
결국 데이터 레이크하우스 전략은 단순한 인프라 교체가 아니라 기업의 AI 체질 개선에 가깝다. 데이터가 흩어지고 규격이 제각각인 상태에서는 아무리 최신 AI를 얹어도 확장성과 신뢰성을 확보하기 어렵다. 기업 AI 도입이 주춤한 이유가 모델이 아니라 데이터 기반에 있다는 점에서, 향후 시장의 승부처는 기술 자체보다 ‘정돈된 데이터 토대’를 누가 먼저 갖추느냐에 달려 있다는 해석이 나온다.

