데이터 및 AI 플랫폼 기업 데이터브릭스(Databricks)가 연례 '데이터+AI 서밋' 행사에서 핵심 데이터 파이프라인 프레임워크를 오픈소스로 공개했다. 이번에 공개된 '스파크 선언형 파이프라인(Spark Declarative Pipelines)'은 데이터브릭스가 2022년 ‘델타 라이브 테이블(Delta Live Tables)’로 처음 선보였던 프레임워크로, 엔터프라이즈 환경 전반에서 강력한 성능을 입증한 바 있다. 오는 아파치 스파크(Apache Spark) 4.1 버전에 포함되어 정식 배포될 예정이다.
이 프레임워크는 기존 ETL(추출·변환·적재) 프로세스의 복잡성을 줄이는 것을 목표로 한다. 복잡한 파이프라인 작성, 수작업 운영, 배치와 스트리밍 분리 유지 등의 한계를 해결하기 위해 SQL 또는 파이썬으로 파이프라인 과정을 선언하면, 나머지는 스파크가 자동으로 처리하는 구조다. 테이블 간의 의존관계를 추적하고 병렬 실행, 체크포인트 생성, 재시도 등의 운영 관리를 자동화함으로써 개발자가 본질적인 비즈니스 문제에 집중할 수 있도록 돕는다.
실제로 이 기술은 다수의 대규모 기업에 이미 적용되었고, 그 효과는 뚜렷하다. 핀테크 기업 블록(Block)은 파이프라인 개발 시간을 90% 이상 줄였고, 네이비 페더럴 크레딧 유니언(Navy Federal Credit Union)은 유지보수 시간을 99% 절감한 것으로 알려졌다. 이처럼 간결하고 확장 가능한 구조 덕분에 실시간 스트리밍, 준구조적 데이터 처리, 오브젝트 스토리지 연동 등 다양한 최신 데이터 워크로드 환경에서 유연하게 활용되고 있다.
데이터브릭스의 차별점은 단지 성능 향상에 그치지 않는다. 단일 API를 통해 배치와 스트리밍 처리를 통합하고, 코드 복잡도를 낮추면서도 데이터 파이프라인의 품질과 안정성을 유지하는 것이 핵심이다. 또한, 공식 스파크 커뮤니티에 기여하는 오픈소스 방식이어서, 데이터브릭스 사용자가 아니더라도 해당 기술을 자사 환경에 도입해 운영할 수 있다는 점이 특징이다. 데이터브릭스는 앞서 ‘델타 레이크(Delta Lake)’, ‘ML플로우(MLflow)’, ‘유니티 카탈로그(Unity Catalog)’ 등 다양한 핵심 프로젝트를 오픈소스 커뮤니티에 기여해왔다.
경쟁사 스노우플레이크(Snowflake)도 최근 자체 오픈플로(Openflow) 서비스를 출시하며 통합 데이터 수집 및 이동 기능을 내세우고 있지만, 데이터브릭스의 접근 방식과는 차이가 있다. 스노우플레이크는 주로 데이터를 수집해 저장하는 데 초점을 맞춘 반면, 데이터브릭스는 데이터 추출부터 활용 가능한 형태로의 전환까지 모든 과정을 하나의 파이프라인으로 연결한다. 선언형 파이프라인은 변형 작업과 운영 로직까지 통합하는 방식으로 구현돼 사용자 관점에서 더욱 실질적인 시간 단축과 품질 개선에 기여한다.
데이터브릭스 측은 수년 간의 현장 적용을 통해 이 프레임워크의 안정성과 확장 가능성을 충분히 입증했다며, 오픈소스화는 기술 성숙도가 일정 수준 이상에 올랐음을 방증한다고 강조했다. 상업용 버전인 ‘레이크플로우 선언형 파이프라인’도 이번에 일반 공급(GA) 상태로 전환되며, 보다 정교한 기능과 엔터프라이즈 지원을 제공한다.
아파치 스파크 4.1 릴리스 일정은 아직 구체적으로 발표되지 않았지만, 이번 공개는 데이터브릭스가 '데이터 중심'의 AI 인프라 혁신를 가속화하며 시장 주도권을 더욱 강화하려는 전략의 일환으로 풀이된다. 데이터 엔지니어링 작업의 표준을 재정의하려는 행보가 본격화되고 있다.