2025년은 생성형 인공지능(AI)이 산업 전반의 중심 화두로 자리잡으며 '데이터 르네상스'가 시작될 계기가 된 해였다. 하지만 2026년에는 단순히 좋은 데이터를 확보하는 수준을 넘어, AI 모델이 진정으로 ‘옳은’ 데이터를 이해하고 활용할 수 있도록 하는 의미론적 계층(semantic layers)의 중요성이 전면에 부상하고 있다. 이는 곧 데이터의 문맥과 의미, 비즈니스 정체성을 명확히 해주는 지식 그래프와 온톨로지를 포함한 의미 기반 데이터 설계의 시대가 본격화됐다는 신호다.
지난해 산업계 전반에 ‘에이전트’ AI 열풍이 불면서, 많은 기업들이 이를 통한 업무 자동화와 의사결정 향상을 기대했다. 하지만 대부분의 에이전트 AI가 기대에 못 미치는 결과를 내면서, 그것이 활용하는 데이터의 질과 문맥적 적절성이 근본 원인으로 지목되기 시작했다. 실제로 카네기멜런대학 연구에 따르면, 오늘날의 에이전트들은 복잡한 업무를 수행할 수 있을 만큼 충분히 훈련되지 않았으며, 데이터 문맥에서 발생하는 추론 오류가 전체 성능을 저하시킨다는 지적이 있었다.
이런 배경에서, 데이터의 정확성(Data Quality)과 거버넌스(Data Governance) 체계가 성숙한 수준까지 발전했는지가 중요한 논점으로 떠오르고 있다. 아마존웹서비스(AWS) 등 주요 클라우드 벤더들은 여전히 방대한 데이터 생태계를 제공하지만, 전년도보다 새롭게 발표된 데이터 관련 기술이나 플랫폼 혁신은 제한적인 수준이었다. 그와 대조적으로 IBM의 콘플루언트 인수, 마이크로소프트의 PostgreSQL 기반 HorzionDB 출시 등은 데이터 스택의 재편 흐름을 상징적으로 보여준다.
한편 제로 ETL(Extract, Transform, Load) 아키텍처와 데이터 공유 기술은 2025년에 대세로 자리잡았다. 이는 복잡하고 깨지기 쉬운 데이터 파이프라인을 단순화하려는 시도로, 예컨대 기존 Snowflake나 Databricks와 같은 플랫폼은 SAP나 Salesforce 데이터 연동을 지원하며 비즈니스 데이터 접근성을 크게 향상시켰다.
또 다른 흐름은 벡터(Vector) 데이터 처리 확산이다. 대부분의 주요 데이터 플랫폼이 벡터 기반 검색 및 분석 기능을 강화했으며, Oracle은 구조화/비구조화 데이터를 통합하는 쿼리 기능을 출시했고 AWS도 벡터 최적화 S3 저장 계층을 선보였다. 이로써 AI가 문서, 이미지뿐 아니라 기업 내 분산된 데이터까지 포괄적으로 활용할 수 있는 기반이 마련됐다.
가장 주목할 변화는 바로 의미론적 계층의 재조명이다. 원래 BI 도구나 ERP 시스템 내부에서 쓰이던 이 계층은 '측정기준(Metrics)', '차원(Dimension)', '세부사항(Details)'의 개념을 중심으로, 데이터가 무엇을 뜻하고 어떻게 해석돼야 하는지를 표준화한다. Tableau, Databricks, Snowflake, Microsoft 등이 새롭게 의미 계층 도입을 서두르고 있으며, 특히 Microsoft Fabric IQ는 기존 의미 계층에 기업의 온톨로지 개념까지 접목시키면서 실시간 AI 분석에서의 문맥 보장을 꾀하고 있다.
이러한 흐름 속에서 Snowflake를 중심으로 발족한 Open Semantic Interchange(OSI) 이니셔티브는 다양한 AI 및 데이터 플랫폼들 간 의미 계층의 호환성을 확보하기 위한 공통 표준 마련을 목표로 한다. 이는 dbt Labs의 MetricFlow를 기반으로 하며, YAML 기반 설정 파일을 통해 메트릭과 차원을 종합적으로 정의하는 구조로 설계돼 있다. 하지만 개방형 프로젝트가 고부가가치의 의미 자산을 다룰 수 있을지, 특히 애플리케이션 벤더들이 이를 얼마나 공유할지는 미지수로 남아 있다.
나아가 독립형 지식 그래프와 GraphRAG 같은 기술은 AI의 정확한 문맥 이해를 위한 기초 인프라로 주목받고 있다. Neo4J, Google Vertex AI RAG Engine, Microsoft의 LazyGraphRAG 등은 모두 이러한 패턴을 활성화하기 위한 기술적 기반을 마련하는 데 주력하고 있으며, 실제 도입 사례도 점차 증가하고 있다. Deloitte, AdaptX 등은 의료, 보안 등 복잡한 도메인에서 지식 그래프 기반 AI 활용을 본격화하고 있다.
하지만 여전히 가장 큰 난제는 온톨로지 모델링 인재 부족이다. AI가 스스로 의미 구조를 설계하기 어려운 상황에서, 지식 엔지니어 또는 의미 구조 설계자에 대한 수요는 오히려 폭증하고 있다. 수십 년 전의 ‘지식경영(Knowledge Management)’ 실패를 떠올리게 하는 이 흐름에서, 단순한 데이터 수집이 아닌 정확한 의미 해석과 업무 연계가 그 어느 때보다 중요해졌다.
결국 AI 시대의 핵심은 단순한 데이터 축적이 아닌 의미와 문맥을 정확히 이해한 데이터다. 2026년은 이러한 의미론적 영향권(Semantic Sphere of Influence)이 형성되고 각 플랫폼과 애플리케이션이 주도권 다툼을 벌이는 전환점이 될 전망이다. Snowflake와 Databricks, SAP 등의 공유 협력 모델은 표준과 생태계를 둘러싼 경쟁 구도를 형성하며, AI에게 ‘옳은’ 데이터를 제공하는 기업이 궁극적 주도권을 거머쥘 수 있다는 점을 시사한다.




