이제는 '저장소'가 아니다…AWS S3, AI 데이터 플랫폼으로 진화

| 김민준 기자

아마존웹서비스(AWS)의 대표 스토리지 플랫폼인 S3가 AI 시대에 맞춰 새로운 진화를 시작했다. 한때 이미지, 로그, 백업 데이터를 보관하던 단순 저장 버킷에 불과했던 S3가 이제는 기업 데이터의 중심축으로 떠오르며, 지능형 에이전트를 지원하는 'AI 데이터 플랫폼'으로 재탄생하고 있다.

AWS 데이터 및 분석 부문 부사장인 마이란 톰슨 부코벡은 “모든 AI 애플리케이션은 결국 데이터가 핵심”이라며 S3가 데이터 세계의 ‘바닥 거북이’(bottom turtle)라 불리는 근본 기반임을 강조했다. 해당 표현은 IT 시스템의 작동이 가장 아래 계층의 데이터에서 출발하며, 그 핵심적 토대를 S3가 제공한다는 점을 함축한다.

S3의 진화는 지난해 말 내부 조직 개편과 함께 본격화됐다. 스토리지 조직이 레드쉬프트(Redshift), 아테나(Athena) 등 분석 솔루션과 통합된 이후, AWS는 저장소부터 질의까지 전 과정을 비용 효율적으로 연계하려는 전략을 추진하고 있다. 핵심은 엑사바이트급 데이터를 SQL처럼 자유롭게 조회할 수 있게 해주는 S3 테이블. 오픈소스 포맷인 아이스버그(Iceberg) 기반의 이 기술은 분석가가 데이터를 EDW로 불러오지 않고도 S3 상에서 바로 질의할 수 있도록 해준다.

특히 대규모 언어모델(LLM)을 활용한 기업 수요가 급증함에 따라, 이러한 분석 유연성은 S3를 AI 학습 및 추론의 최적 기반으로 부상하게 만들고 있다. 기업은 기존 파케이(Parquet) 파일 형식을 아이스버그 호환 테이블로 전환함으로써 분석 엔진 간의 상호운용성을 확보하고, 데이터를 그대로 활용할 수 있게 된다. 이미 넷플릭스 등 대형 기업들이 이 기능을 실무에 테스트하고 있다.

AI에 친화적인 진화는 단순히 질의를 쉽게 만드는 데 그치지 않는다. 부코벡은 ‘데이터 AI 에이전트’라는 새로운 개념을 제시했다. 인간 개발자처럼 데이터를 찾아내고 조작해 자동으로 업무를 수행하는 무인 에이전트를 의미하며, AWS의 베드록(Bedrock)에 통합된 앤트로픽(Anthropic)의 소넷4(Sonnet 4)와 오퍼스4(Opus 4) 같은 고급 모델이 그 기반을 제공한다. 싱가포르의 통신·보험 기업 스타허브는 이미 데이터 에이전트를 활용해 보험 청구 데이터를 자동으로 처리하고 있다.

이러한 기술이 실현되기 위한 핵심 조건은 ‘메타데이터 레이크’ 구축이다. AWS는 최근 S3 메타데이터 기능을 정식 출시하며, 개별 파일에 대한 설명 태그·접근 로그·AI 요약문 등 다양한 정보까지 S3 테이블에 통합 저장할 수 있도록 했다. 즉, 진짜 데이터가 아닌 메타데이터를 통해 대상 파일을 식별하고, 실제 필요한 경우에만 로드하는 방식으로 운영 효율성을 바탕으로 한다.

보안 역시 중요한 화두다. AI 에이전트가 인간처럼 작동하려면 IAM 정책과 자동화된 접근 분석 툴인 Access Analyzer 같은 정형 논리를 갖춘 기술로 안전성을 확보해야 한다. 부코벡은 “사람이든 AI든 동일한 규칙을 적용해야 한다”며, 자동화된 판단이 데이터를 오용하지 않도록 ‘데이터 경계선’을 설정하는 것이 본질이라고 설명했다.

AI와 데이터, 애플리케이션이 한 흐름으로 통합되며 과거엔 분리돼 있던 비즈니스 분석팀과 클라우드 플랫폼 엔지니어들이 같은 스토리지 파이프라인에 얹히는 구조도 등장하고 있다. 부코벡은 이를 “단 하나의 복사본으로 세 가지 워크로드를 처리할 수 있는 구조”라고 강조한다. 이를 위해서는 아이스버그 같은 통합 포맷과 비인간 사용자도 안전하게 실행할 수 있는 보안 프리미티브 기술이 필수적이다.

향후 AWS는 S3와 AI 기능 간의 결합을 더욱 강화할 것으로 보인다. 부코벡은 “AI 데이터를 위한 S3의 네이티브 기능이 올 여름부터 더 강화될 예정”이라고 언급하며, 메타데이터 기반으로 파일의 출처나 신뢰도까지 자동 주석 처리할 수 있는 기능이 개발 중임을 암시했다.

지난 십수 년간 ‘11나인(99.999999999%)’의 내구성과 기가바이트당 몇 페니 수준의 비용 경쟁력으로 주목받던 S3는 이제 그 위상을 완전히 바꾸고 있다. 부코벡은 “이제 S3는 단순한 저장소가 아니라 진정한 데이터 플랫폼”이라며, AI 시대의 새로운 운영체제임을 선언했다.