위키미디어, AI 맞춤형 위키피디아 데이터셋 공개…웹 스크래핑 줄인다

| 김민준 기자

위키미디어 재단이 자사의 방대한 백과사전 콘텐츠인 위키피디아를 인공지능 학습에 최적화된 형태로 제공하면서, AI 개발자들의 웹 스크래핑 의존도를 줄이려는 조치를 내놨다. 위키미디어는 지난 15일(현지시간) 구글(GOOGL)이 운영하는 데이터 플랫폼 캐글(Kaggle)에 구조화된 위키피디아 데이터셋을 공개했다고 밝혔다.

이번에 제공된 데이터셋은 단순한 문장 텍스트를 넘어서, 요약(Abstract), 간략 설명, 정보 상자(Key-Value 형식), 이미지 링크, 문단별 구조화 등 AI 모델 학습과 자연어처리(NLP)에 바로 활용 가능한 형태로 구성돼 있다. 복잡한 전처리 과정 없이 곧바로 학습에 투입할 수 있다는 점에서, 대형 언어 모델(LLM) 개발자들에게는 효율적인 대안이 될 전망이다.

위키미디어 측은 "원문 텍스트를 스크래핑하거나 파싱하는 대신, 지금 공개된 JSON 형식의 구조화 데이터는 훨씬 더 정돈된 학습 데이터를 제공하며, 서버 부하를 덜어주는 효과도 있다"고 설명했다. 이번 조치는 AI 기업들의 무분별한 데이터 채취로 인해 서버 비용과 기술적 부담이 커지는 상황에서 나온 대응책이다.

기술적으로도 이 데이터셋은 라이선스 문제가 없다. 크리에이티브 커먼즈(CC-BY-SA 4.0) 및 GNU 자유문서 사용허가서에 따라 공개돼 누구나 자유롭게 재활용할 수 있다. 캐글 파트너십 총괄 브렌다 플린은 "위키미디어가 제공한 데이터셋은 오픈데이터 중에서도 가장 파급력이 큰 사례가 될 것"이라고 강조했다.

웹 스크래핑은 일반적으로 공개된 웹페이지에서 봇을 통해 자동으로 데이터를 추출하는 작업으로, AI 기업들이 LLM 학습의 주요 데이터 수집 방식으로 활용해 왔다. 하지만 이 방식은 데이터 정제 및 문맥 전환 비용이 클뿐만 아니라, 대상 서버에 과부하를 일으켜 지속가능성 문제가 꾸준히 제기돼왔다.

캐글은 현재 46만 개 이상의 공개 데이터셋을 제공하고 있으며, 건강, 금융, 사회과학 등 다양한 주제의 AI 학습용 정보가 축적돼 있다. 이번 위키피디아 데이터는 영어와 프랑스어 조기 베타 버전으로 제공되며, 개발자 피드백에 따라 점차 확장될 예정이다.

위키미디어와 캐글은 이번 조치를 통해 단순히 스크래핑을 억제하는 차원을 넘어, 개발자 생태계에 보다 신뢰할 수 있고 재사용 가능한 AI 훈련 데이터를 제공하겠다는 방침이다. AI 개발의 윤리와 지속 가능성 논의가 확대되는 가운데, 개방성과 기술 효율을 두루 고려한 새로운 사례로 평가받고 있다.