데이터브릭스(Databricks)가 최근 서버리스 데이터베이스 스타트업 네온(Neon)의 인수에 이어, 자사 첫 서버리스 데이터베이스 '레이크베이스(Lakebase)'를 선보이며 AI 기반 데이터 처리 기술의 확장을 본격화했다. 레이크베이스는 초당 1만 건이 넘는 질의를 처리할 수 있는 성능을 자랑하며, 오픈소스 관계형 데이터베이스인 포스트그레SQL(PostgreSQL)을 기반으로 한다.
이번에 발표된 레이크베이스는 단순한 관계형 데이터 저장을 넘어 AI 모델에서 사용하는 벡터 데이터를 지원하는 'pgvector' 확장과 지도 정보 같은 지리 공간 데이터를 처리하는 'PostGIS'를 함께 통합한 것이 특징이다. 이는 범용 데이터와 AI 데이터를 하나의 환경에서 처리하며 사용자 편의성과 확장성을 동시에 확보하려는 전략의 일환으로 보인다.
레이크베이스는 데이터브릭스의 대표 플랫폼인 데이터 레이크하우스와 완전하게 통합되어 운영된다. 이를 통해 관계형 데이터베이스와 분석 환경 간 이중 관리를 줄이고, 사용자는 하나의 플랫폼에서 통합 관리가 가능해졌다. 특히 관리자는 '유니티 카탈로그(Unity Catalog)'를 활용해 데이터 접근 권한을 설정하고, 레이크하우스 테이블과 레이크베이스 간 데이터 동기화를 세 가지 방식(일회성, 조건부 자동, 지속적) 중 선택해 설정할 수 있다.
또한, 데이터브릭스 인프라 위에서 실행되는 레이크베이스는 고가용성을 염두에 두고 설계됐다. 고객의 데이터베이스는 복수의 클라우드 존(zone)에 분산 저장되며, 하나의 존이 장애를 겪더라도 나머지 인스턴스가 질의를 처리할 수 있도록 설계됐다. 이와 함께 최대 35일 이전 데이터까지 복구 가능한 기능도 마련되어 있어 예기치 못한 데이터 손실에도 유연하게 대응할 수 있게 했다.
사용자 경험 역시 강화됐다. SQL 기반 쿼리 도구인 데이터브릭스 SQL 에디터를 통해 직접 레이크베이스 데이터를 조회하거나, 플랫폼 상에 배포된 맞춤형 애플리케이션에서도 자연스럽게 접근할 수 있도록 했다. 특히 "전문 데이터베이스 관리자 없이 수천 혹은 수백만 개의 데이터베이스를 저비용으로 운용해 AI 에이전트를 대규모로 배포할 수 있다"는 것이 데이터브릭스 경영진이 강조한 강점이다.
현재 레이크베이스는 공개 프리뷰로 제공되고 있으며, 데이터브릭스는 향후 수개월 내에 주요 기능 개선을 포함한 추가 업데이트를 이어갈 계획이다. 서서히 열리는 서버리스 AI 데이터베이스 시장에서 데이터브릭스가 또 다시 중심축 역할을 할지 관심이 쏠린다.