생성형 인공지능(AI)과 에이전틱 AI의 발전이 가속화되면서, 이전까지 주요 데이터 전략에서 소외됐던 비정형 데이터를 중심으로 한 플랫폼 혁신이 본격화되고 있다. 특히 다트브릭스, 아타카마, 애노말로, IBM 등 데이터 업계 대표 기업들은 AI 기반 워크플로우를 위한 데이터 거버넌스, 품질 관리, 통합 설계에 집중하며 새로운 기술 지평을 열고 있다.
가장 적극적인 행보를 보인 곳은 다트브릭스다. 최근 개최된 '데이터+AI 서밋 2025'에서 다트브릭스는 새로운 비정형 데이터 수집 플랫폼 '레이크플로우 커넥트'를 일반 공개(GA)하고, 다양한 포맷의 파일(PDF, 엑셀 등)을 S3, ADLS, GCS, 셰어포인트, 로컬 업로드 등에서 직접 델타 테이블로 변환하는 자동화 파이프라인을 제공한다고 밝혔다. 이 기능은 레이크하우스 환경 내에서 서버리스 기반으로 실행되며, 스키마 자동 감지와 증분 처리 기능을 내장해 업무 효율성과 데이터 신뢰도를 동시에 강화했다. 여기에 코드 작성 없이 ETL 파이프라인을 구축할 수 있는 '레이크플로우 디자이너'는 비개발자 중심의 AI 활용 장벽을 크게 낮췄다는 평가다.
비정형 데이터를 보다 쉽게 다룰 수 있도록 한 아타카마의 전략도 주목된다. 최근 스노우플레이크 마켓플레이스에 출시한 '아타카마 원'은 자연어 프롬프트와 스노우플레이크의 문서 AI 기능을 통해 계약서, 송장 등의 비정형 문서에서 구조화된 데이터를 직접 추출하고, 이를 즉시 스노우플레이크 테이블에 적재한다. 데이터 품질 검증과 거버넌스 정책이 동시에 적용돼 보안성과 확장성을 모두 확보할 수 있으며, 특히 많은 스노우플레이크 고객이 기존 투자 자산을 최대한 활용할 수 있게 됐다는 점에서 시장 반응이 뜨겁다.
한편, 데이터 품질 자체를 AI 기반 분석 수준으로 끌어올린 애노말로는 '비정형 데이터 모니터링 솔루션'을 공개했다. 이 플랫폼은 이메일, 클라이언트 피드백, 법률 문서 등 복잡한 텍스트 기반 파일을 자동 분석해 개인정보 노출, 모순된 내용, 공격적 언어 등 15가지 품질 항목을 점검한다. 특히 다트브릭스 환경 내에서 직접 작동하며, 자동 분류, 민감정보 삭제, 이상 감지 기능을 실행한 후 내용 정제 및 보강된 데이터를 유니티 카탈로그에 전달해 재활용 가능한 형태로 전환한다. 이는 조직 내부적으로 높은 신뢰 수준을 요구하는 초기 AI 활용 사례에 필수 기반을 제공한다는 점에서 인사이트가 크다.
IBM 또한 비정형 데이터 통합 환경을 간소화하는 데 집중하고 있다. '왓슨x 데이터 인테그레이션'은 코드 기반, 저코드, 에이전트 기반 워크플로우 전반을 포괄해 엔터프라이즈 데이터 운영을 통합하고, 배치 처리, 실시간 스트리밍, 데이터 복제까지 다양한 형태의 연산 지원을 통해 하이브리드 환경 전반에서 탄력성을 확보했다. 나아가 이를 기술 메타데이터와 업무 용어 및 데이터 클래스에 연결하여 데이터 카탈로그 및 거버넌스 체계로 확장할 수 있도록 지원하고 있다.
결국 다트브릭스에서 IBM에 이르기까지 각 기업들이 추진하는 전략은 비정형 데이터를 AI 수명주기 전반의 주요 자산으로 끌어올리는 데 집중돼 있다. 데이터 수집부터 관리, 품질 확보, 구조화 및 거버넌스까지 전 과정을 자동화하고, 다양한 업무 역할을 고려해 사용자 경험을 개선하는 데 방점이 찍혀 있다. 생성형 AI와 에이전틱 AI의 확산이 이어지는 가운데, 기업이 신뢰할 수 있는 데이터 기반 의사결정을 내리기 위해 반드시 확보해야 할 역량 중 하나로 비정형 데이터 통합과 품질 관리가 부상하고 있다.