TPC로
네이버페이 교환

링크복사
공유
댓글
추천
스크랩
인쇄
글자크기

링크가 복사되었습니다.

글자크기

가

작게

가

보통

가

크게

가

매우크게

인사이트 테크

a16z "AI 발전의 진짜 병목은 데이터"…에이전트 시대 앞두고 '데이터 산업' 부상

2026.03.12 (목) 10:21

토큰포스트

AI 발전의 가장 큰 제약 요인이 알고리즘이나 컴퓨팅이 아니라 데이터라는 분석이 제기됐다. 특히 AI 에이전트 확산과 함께 실제 인간 활동 데이터를 확보·가공하는 데이터 산업이 새로운 핵심 시장으로 부상하고 있다.

출처 a16z 포스트

최근 인공지능(AI) 기술 경쟁에서 알고리즘과 반도체를 넘어 데이터 확보와 활용 능력이 핵심 변수로 떠오르고 있다.

11일(현지시간) 바비 새뮤얼스 프로테제 CEO는 a16z 포스트에서 AI 연구자들은 현재 AI 발전을 가로막는 가장 큰 병목이 데이터라고 지적했다.

그는 AI 발전의 핵심 요소가 알고리즘, 컴퓨팅, 데이터 세 가지이며 최근 몇 년 동안 알고리즘 연구와 컴퓨팅 인프라 확장은 빠르게 진행됐다고 설명했다.

오픈AI, 앤트로픽, 구글 딥마인드 등 연구소들이 알고리즘 발전을 이끌고 있고 엔비디아를 비롯한 반도체 기업들은 컴퓨팅 성능 경쟁을 벌이고 있지만 실제 모델을 학습시키는 고품질 데이터는 여전히 부족한 상태라고 짚었다.

비영리 데이터 프로젝트 커먼크롤(Common Crawl)이 공개 웹에서 수집한 전체 데이터 규모는 약 419테라바이트(TB) 수준으로 나타났다.

반면 2025년 전 세계에서 생성될 것으로 추정되는 전체 데이터 규모는 약 175제타바이트(ZB)로, 이는 약 1750억 테라바이트에 해당한다. 즉 AI 모델이 주로 학습에 활용하는 공개 인터넷 데이터는 전 세계에서 생성되는 데이터의 극히 일부에 불과하다는 의미다.

이는 의료 기록, 기업 내부 데이터, 영상·음성 데이터, 산업 운영 데이터 등 대부분의 현실 세계 데이터가 여전히 비공개 영역에 존재한다는 점을 보여주며 향후 AI 발전은 이러한 실제 세계 데이터에 접근하고 이를 학습 데이터로 활용할 수 있는지 여부에 크게 좌우될 가능성이 크다는 점을 시사한다.

AI가 쓰는 공개 데이터는 전체 데이터의 극히 일부에 불과하다 / a16z 포스트

그는 AI 에이전트 시대가 본격화되면서 데이터의 중요성이 더욱 커지고 있다고 말했다.

프로테제 CEO는 "AI 에이전트가 실제 업무를 수행하려면 단순한 텍스트 데이터가 아니라 사람들의 실제 업무 흐름과 상호작용을 반영한 데이터가 필요하다"면서 "어떤 작업을 AI가 학습해야 하는지, 실제 산업에서 자동화 가치가 있는 업무가 무엇인지 분석하는 작업 자체가 새로운 연구 분야로 떠오르고 있다"고 덧붙였다.

아울러 현재 많은 데이터 기업들이 모델 평가나 인간 피드백 기반 강화학습(RLHF) 같은 제한적인 작업 중심으로 데이터를 생산하고 있다면서 "이러한 방식으로 생성된 데이터는 실제 인간 활동에서 발생하는 복잡한 맥락과 현실적인 의사결정 과정을 충분히 반영하지 못하는 한계가 있다"고 말했다.

그는 "앞으로 AI 발전을 위해서는 의료 기록, 음성 대화, 영상, 실제 업무 데이터 등 현실 세계에서 생성되는 다양한 데이터가 필요해질 것"이라면서 "데이터를 확보하고 구조화하며 AI 학습에 적합하게 가공하는 ‘AI 데이터 산업’이 새로운 핵심 분야로 성장할 가능성이 크다"고 설명했다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료

#AI데이터 #AI에이전트 #데이터산업

텔레그램에서 토큰포스트 속보 보기