데이터브릭스가 기업 IT의 오래된 병목으로 꼽혀온 ‘트랜잭션 처리’와 ‘분석 처리’의 분리를 없애겠다는 새 데이터 아키텍처를 공개했다. 인공지능(AI) 에이전트가 실시간에 가깝게 데이터를 읽고 판단하고 실행하는 시대가 오면서, 기존 데이터 스택이 더 이상 속도를 따라가지 못한다는 문제의식이 깔려 있다.
데이터브릭스는 16일 미국 샌프란시스코에서 열린 ‘데이터+AI 서밋’에서 ‘레이크 트랜잭셔널/애널리티컬 프로세싱(LTAP)’과 실시간 분석 엔진 ‘레이크하우스//RT’를 발표했다. 회사 측은 두 기술이 운영용 데이터베이스와 분석 시스템, 별도 서빙 인프라를 하나의 흐름으로 통합해 지연 시간과 복잡성을 크게 줄인다고 설명했다.
기존 기업 환경에서는 운영 애플리케이션이 트랜잭션 데이터베이스에 데이터를 쓰고, 분석 시스템은 ETL(추출·변환·적재)이나 CDC(변경 데이터 캡처) 파이프라인을 통해 복제된 데이터를 받아 활용하는 구조가 일반적이었다. 하지만 이런 방식은 데이터 복제본이 늘어나고 파이프라인이 복잡해지면서 지연, 비용, 거버넌스 문제가 함께 커지는 한계가 있었다.
샹쿠 니요기 데이터브릭스 제품관리 부사장은 AI 에이전트 확산이 이런 문제를 더 심화시키고 있다고 진단했다. 그는 더 많은 코드와 애플리케이션이 만들어지는 가운데, 데이터를 사람보다 더 빠르게 추론하고 행동해야 하는 에이전트가 늘고 있어 데이터 스택 자체가 병목이 되고 있다고 말했다.
니요기 부사장은 특히 CDC 파이프라인이 기업 현장에서 지나치게 많아지고 있다고 지적했다. 그는 한 대형 은행 고객사가 수십만 개의 포스트그레SQL 데이터베이스를 운영하며, 각 데이터베이스마다 레이크로 데이터를 옮기는 CDC 파이프라인을 두고 있다고 소개했다. 데이터가 조금만 바뀌어도 새 파이프라인이 필요해지는 구조라는 설명이다.
데이터브릭스는 이런 구조가 AI 기반 애플리케이션이 늘어날수록 더 비효율적으로 작동한다고 본다. AI 에이전트는 ‘오래된 데이터’나 ‘잘못된 데이터’를 받으면 잘못된 판단을 내릴 가능성이 높기 때문에, 운영 데이터와 분석 데이터가 분리된 기존 구조만으로는 대규모 AI 활용을 뒷받침하기 어렵다는 주장이다.
LTAP는 데이터브릭스가 지난해 선보인 데이터베이스 플랫폼 ‘레이크베이스’를 기반으로 한다. 레이크베이스는 데이터베이스의 컴퓨팅과 스토리지를 분리한 구조를 채택했고, LTAP는 여기에 트랜잭션 데이터를 델타 레이크나 아파치 아이스버그 같은 개방형 컬럼 형식으로 직접 기록하는 방식을 더했다.
핵심은 애플리케이션이 포스트그레SQL 호환 환경에서 기존처럼 작동하면서도, 동시에 같은 데이터가 즉시 분석과 머신러닝 워크로드에 쓰일 수 있다는 점이다. 별도의 데이터 이동이나 복제가 필요 없고, 운영 데이터가 레이크에 곧바로 컬럼 형식으로 저장되기 때문에 분석 엔진이 지연 없이 접근할 수 있다는 게 회사 측 설명이다.
컬럼 저장은 데이터를 행 단위가 아니라 열 단위로 저장하는 방식이다. 대규모 분석 쿼리에서 필요한 열만 빠르게 읽을 수 있어 분석 처리에 유리하다. 데이터브릭스는 LTAP가 개방형 포맷을 기반으로 설계됐으며, 포스트그레SQL 데이터를 아파치 파케이 형식으로 저장하면서 호환성을 유지하는 기술도 오픈소스로 공개할 계획이라고 밝혔다.
함께 발표된 ‘레이크하우스//RT’는 데이터 레이크 환경에서 별도 서빙 시스템 없이 실시간 분석 성능을 제공하는 엔진이다. 지금까지는 빠른 분석 응답 속도를 확보하기 위해 캐시, 실시간 데이터베이스, 전용 서빙 시스템을 추가로 붙이는 경우가 많았다.
데이터브릭스는 새 실행 엔진 ‘레이든’을 기반으로 한 레이크하우스//RT가 소규모 워크로드에서는 최저 10밀리초, 대규모 워크로드에서는 100밀리초 미만의 응답 시간을 낼 수 있다고 밝혔다. 또 수만 명의 동시 사용자와 AI 에이전트를 지원할 수 있으며, 일부 고객은 기존 실시간 서빙 아키텍처보다 최대 16배 높은 성능을 경험했다고 전했다.
니요기 부사장은 이를 레이크하우스 개념의 큰 진화로 규정했다. 데이터 웨어하우스에서 직접 데이터를 서비스하면서도 매우 낮은 지연 시간으로 대규모 동시 접속을 감당할 수 있게 됐다는 설명이다.
이번 발표는 단순한 데이터 처리 기술 개선을 넘어, AI 에이전트 시대의 기업 인프라 주도권 경쟁으로도 읽힌다. 앞으로 기업 현장에서는 AI가 업무 프로세스를 실행하고 운영 의사결정에 더 깊게 관여할 가능성이 큰 만큼, ‘하나의 데이터 사본’으로 운영과 분석을 함께 처리하려는 수요도 커질 수 있다.
LTAP는 기존 레이크베이스 고객을 대상으로 업그레이드 형태로 제공된다. 레이크하우스//RT는 현재 베타 테스트 단계에 들어갔다. 데이터브릭스는 기존 레이크하우스 고객이 현재 웨어하우스 배포 환경을 큰 변경 없이 대체할 수 있으며, 첫해에는 프로모션 가격도 적용할 계획이라고 밝혔다.
결국 이번 발표의 핵심은 기업이 더 이상 운영용 시스템과 분석용 시스템을 따로 쌓아 올리는 방식으로는 AI 시대의 속도를 맞추기 어렵다는 점이다. 데이터브릭스가 제시한 LTAP와 실시간 분석 엔진이 실제 현장에서 복잡한 파이프라인을 얼마나 줄이고, AI 에이전트 운용의 표준 인프라로 자리 잡을지가 다음 관전 포인트다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사