레딧(Reddit)이 비영리 보존단체 인터넷 아카이브(Internet Archive)의 접속을 차단하기로 결정했다. 이유는 특정 인공지능(AI) 기업들이 자신들의 웹사이트에서 차단되자 인터넷 아카이브의 ‘웨이백 머신(Wayback Machine)’을 우회로 삼아 레딧 데이터를 지속적으로 수집해 훈련에 활용하고 있다는 판단에서다. 이 조치로 인해 앞으로는 과거 레딧 페이지, 댓글, 사용자 프로필 등 대부분의 콘텐츠가 아카이빙 대상에서 제외되며, 홈페이지에 노출되는 일부 정보만이 기록에 남게 된다.
레딧 측은 정확히 어떤 AI 회사들이 이러한 방식으로 데이터를 가져갔는지는 밝히지 않았지만, 자사의 플랫폼 정책을 회피하는 사례가 다수 발견됐다고 설명했다. 특히 웨이백 머신이 이미 삭제된 게시글이나 댓글까지 자동 저장하는 점은 개인정보 보호 측면에서도 문제가 있다는 입장을 내놓았다. “플랫폼 정책을 위반하는 행위가 계속되는 한, 유저 보호 차원에서 레딧에 대한 접근을 제한한다”는 것이 회사의 공식 입장이다.
하지만 단순한 정책 위반을 넘어선 동기, 즉 ‘수익성’도 이번 결정의 배경으로 지목된다. 실제로 레딧은 AI 기업들이 자사 플랫폼을 크롤링하려면 적절한 금전적 대가를 지불해야 한다며, 이미 구글(GOOGL) 및 오픈AI(OpenAI)와는 콘텐츠 라이선스 계약을 체결했다. 구글과의 계약 규모는 총 6,000만 달러(약 864억 원)인 것으로 알려졌으며, 레딧은 향후 3년간 이러한 거래를 통해 최대 2억 달러(약 2,880억 원)를 벌어들이는 것을 목표로 하고 있다.
이에 반해 앤트로픽(Anthropic)처럼 정식 계약 없이 지속적으로 콘텐츠를 수집한 기업에 대해서는 제재 조치를 계속하고 있다. 레딧은 지난 6월, 앤트로픽이 상업적 목적으로 자사 데이터를 무단 이용했다며 법적 소송을 제기한 바 있다.
인터넷 아카이브 차단은 이번이 처음이 아니며, 앞서 2024년에도 빙(Bing)을 포함한 검색엔진 여러 곳이 동일한 이유로 레딧에서 퇴출된 전례가 있다. 레딧은 당시 덕덕고(DuckDuckGo), 모직(Mojeek), 콴트(Qwant) 등을 함께 차단하며 AI 기업들의 데이터 수집 경로를 적극적으로 통제해왔다.
인터넷 아카이브 측은 이에 대해 아직 최종 입장을 내지 않았지만, 웨이백 머신 책임자인 마크 그레이엄(Mark Graham)은 현재 레딧과 사안에 대해 지속적으로 협의 중이라고 밝혔다. AI 시대, 고품질 훈련 데이터가 곧 경쟁력이라는 인식이 뚜렷해지며, 레딧처럼 방대한 사용자 기반을 보유한 플랫폼들이 데이터의 가치를 재정의하고 있다. 이러한 흐름 속에서 AI 훈련용 데이터 라이선싱은 점점 더 중요한 이슈로 부상하고 있다.