기업들이 그래픽처리장치(GPU), 클라우드, 모델 도구 등 인공지능(AI) 인프라에 막대한 자금을 투입하고 있지만, 실제 사업 성과로 이어지는 사례는 여전히 제한적이라는 진단이 나왔다. 핵심 병목은 연산 능력이 아니라 ‘AI 준비 데이터’ 부족이라는 분석이다.
시장조사업체 IDC가 진행한 글로벌 AI 준비도 조사에 따르면, 정보기술(IT) 리더의 94%는 AI 성공의 최우선 요인으로 데이터 품질을 꼽았다. 그러나 대다수 기업 데이터는 분류되지 않았고, 거버넌스 체계도 미흡하며, 실제 운영 환경의 AI 워크로드에 바로 투입하기 어려운 상태로 평가됐다.
엔비디아($NVDA)의 스토리지 기술 담당 부사장 제이슨 하디(Jason Hardy)는 퓨어스토리지와의 공동 엔지니어링을 통해 이 문제를 정면으로 겨냥하고 있다고 밝혔다. 그는 최근 ‘퓨어 액셀러레이트 2026’ 행사에서 실리콘앵글 산하 더큐브와의 인터뷰를 통해 기업들이 AI 도입 비용뿐 아니라 출발점 자체를 두고도 부담을 느끼고 있다고 설명했다.
하디는 “기업들은 완전히 뛰어들기엔 비용 부담이 있고, 어디서 시작해야 할지도 막막해한다”며 “그러다 보면 압도당한 뒤 멈춰 서게 된다”고 말했다. 이어 “우리는 이를 더 좁고 명확한 경로로 단순화해 인프라와 데이터 측면에서 무엇이 필요한지 함께 풀어가려 한다”고 덧붙였다.
‘원유를 정제하듯’ 기업 데이터도 가공해야 AI가 작동한다
이번 협력의 핵심 논리는 단순하다. GPU만 사들여서는 AI 성과를 만들 수 없다는 것이다. 퓨어스토리지의 연구개발 및 고객 엔지니어링 담당 부사장 숀 로즈마린(Shawn Rosemarin)은 이를 ‘원유 정제’에 비유했다. 기업이 보유한 방대한 데이터는 많지만, 대부분은 바로 쓸 수 없는 ‘오일샌드’에 가깝다는 설명이다.
로즈마린은 “AI 공장의 원재료는 데이터지만, 지금 기업이 가진 것은 ‘AI 준비 데이터’가 아니다”라며 “중질유를 정제하듯 데이터를 선별·분류·벡터화해야 비로소 AI에 투입할 수 있는 원재료가 된다”고 말했다.
두 임원은 공통적으로 기업 데이터가 실제 AI 추론에 쓰이기 전에 반드시 ‘탐색, 분류, 보안 적용, 벡터화, 인덱싱’ 과정을 거쳐야 한다고 강조했다. 그래야 모델이 흩어진 데이터 사일로가 아니라 맥락이 풍부하고 정제된 데이터셋을 기반으로 작동할 수 있다는 것이다.
퓨어스토리지, 데이터 준비 기간 ‘수개월에서 수분’으로 단축 겨냥
이런 흐름 속에서 퓨어스토리지는 신규 솔루션 ‘퓨어 데이터 스트림’을 공개했다. 이 제품은 데이터 인텔리전스, 벡터 데이터베이스, GPU 가속 연산을 하나의 구조로 통합해 원시 데이터 전처리 과정을 자동화하는 데 초점을 맞췄다.
회사 측은 이를 통해 기존에 수개월 걸리던 원시 데이터 준비 작업을 수분 단위로 줄일 수 있다고 설명했다. 엔비디아는 자사 라이브러리, 네트워크, 스토리지 레퍼런스 설계를 퓨어스토리지 소프트웨어와 공동 설계해, AI 인프라 내 모든 GPU가 유휴 상태 없이 작동하도록 지원하고 있다.
하디는 “GPU를 샀다면, 이제는 이를 뒷받침할 IT 인프라 전반을 강화해야 한다”며 “투자 그 자체만으로는 충분하지 않고, 결국 성과를 내려면 그 주변의 ‘생태계’가 함께 갖춰져야 한다”고 말했다.
AI 경쟁력, 결국 ‘데이터 준비도’에서 갈릴 가능성
이번 메시지는 최근 AI 투자 흐름과도 맞닿아 있다. 기업들은 고성능 반도체 확보 경쟁에는 적극적이지만, 정작 데이터 품질과 관리 체계 개선은 뒤로 미루는 경우가 많다. 그 결과 AI 프로젝트가 실험 단계에 머물고, 실질적 수익화로 연결되지 못하는 사례도 적지 않다.
결국 AI 인프라 경쟁의 다음 단계는 더 많은 GPU 확보가 아니라, 얼마나 빠르게 ‘AI 준비 데이터’를 구축하느냐에 달렸다는 해석이 나온다. 기업 입장에서는 데이터 정제와 거버넌스 체계를 먼저 갖춘 곳이 실제 AI 생산성에서도 앞설 가능성이 커 보인다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

