링크복사
공유
댓글
추천
스크랩
인쇄
글자크기

링크가 복사되었습니다.

글자크기

가

작게

가

보통

가

크게

가

매우크게

테크 인공지능

모질라, 웹 스크래핑 논란 겨냥한 ‘AI 데이터 장터’ 실험…동의·보상 모델 내놨다

손정환 기자

2026.06.14 (일) 04:47

모질라 데이터 컬렉티브가 웹 스크래핑 기반 AI 학습 데이터의 저작권·동의·보상 논란을 겨냥해 커뮤니티 소유형 데이터 유통 모델을 공개했다고 전했다.

데이터 생산자가 라이선스·접근·가격을 직접 정하고, 플랫폼은 심사와 인프라를 맡는 구조로 AI 데이터 시장이 ‘규모’에서 ‘신뢰’ 경쟁으로 이동할 가능성이 주목된다고 전했다.

모질라, 웹 스크래핑 논란 겨냥한 ‘AI 데이터 장터’ 실험…동의·보상 모델 내놨다 / TokenPost.ai

생성형 인공지능 시장이 빠르게 커지고 있지만, 데이터 수집 방식에 대한 논란도 함께 커지고 있다. 인터넷 전반을 무차별적으로 긁어모아 AI를 학습시키는 기존 방식이 ‘편향’, ‘동의’, ‘저작권’, ‘보상’ 문제를 키우고 있어서다. 이런 틈을 겨냥해 모질라 데이터 컬렉티브(Mozilla Data Collective)가 ‘커뮤니티 소유’와 ‘공정한 가치 교환’을 앞세운 새로운 AI 데이터 유통 모델을 내놓았다.

모질라 데이터 컬렉티브는 지난해 11월 출범한 조직으로, AI 개발에 필요한 데이터셋을 단순히 추출 대상이 아니라 ‘창작자와 공동체가 통제해야 할 자산’으로 본다. 창립자 겸 최고경영자 E.M. 루이스-종은 최근 이메일 인터뷰에서 “가치 있는 AI 모델을 만들려면 깨끗하고 풍부하며 맥락이 있고, 무엇보다 동의를 받은 데이터셋이 필요하다”며 “이 문제는 구조적이기 때문에 해법도 구조적이어야 한다”고 밝혔다.

기존 웹 스크래핑 기반 데이터셋은 온라인 공간의 한계를 그대로 복제하는 경우가 많다. 특정 언어와 문화, 지역 공동체는 여전히 AI 시스템에서 과소대표되고, 많은 창작자는 자신의 콘텐츠가 어디에 어떻게 쓰이는지 알기 어렵다. 여기에 각국 정부가 대규모 데이터 수집의 법적 근거를 더 엄격하게 들여다보면서 기술 기업들의 규제 부담도 커지고 있다.

모질라 데이터 컬렉티브는 이런 문제를 해결하기 위해 데이터 공급망에 공동체를 직접 참여시키는 방식을 택했다. 데이터 사용 여부와 조건을 플랫폼이나 중개업체가 정하는 것이 아니라, 데이터를 만든 당사자가 정하도록 설계한 것이다. 공개 공유, 출처 표기 의무, 교육·연구 목적 한정, 지역별 접근 제한, 보상 요구 등도 각각 선택할 수 있다. 핵심은 데이터의 ‘주권’이 중간 사업자가 아니라 생산자에게 있다는 점이다.

커먼보이스 경험이 바탕…300개 이상 언어 데이터 확보

이 구상은 모질라의 장기 프로젝트인 커먼보이스(Common Voice) 경험에서 출발했다. 커먼보이스는 전 세계 자원봉사자들이 음성 데이터를 제공하는 프로젝트로, 지금까지 50만 명이 넘는 참여자가 수백 개 언어에 걸쳐 기여했다. 이를 통해 세계 최대 규모의 공개 음성 데이터셋 가운데 하나가 만들어졌다.

다만 생성형 인공지능 확산 이후 분위기는 달라졌다. 오픈 데이터에 적극적이던 커뮤니티에서도 “결국 누가 이익을 가져가느냐”는 질문이 커졌기 때문이다. 일부는 여전히 완전 공개 라이선스를 선호했지만, 다른 일부는 더 많은 투명성, 통제권, 보상을 원했다. 모질라 데이터 컬렉티브는 이런 서로 다른 선호를 반영할 수 있도록 별도 라이선스와 운영 정책을 마련했다.

현재 이 플랫폼에는 300개가 넘는 언어를 아우르는 수백 개의 큐레이션 데이터셋이 올라와 있다. 아프가니스탄의 하자라기 문학, 카메룬 마다어 구술사, 스위스 로만슈어 신문 자료 등이 대표적이다. 상업용 데이터 시장에서는 거의 찾기 어렵거나 접근이 힘든 자원들이다. 모질라 측은 AI가 그동안 소외됐던 언어와 문화권으로 확장되는 만큼, 이런 데이터의 중요성이 더 커질 것으로 보고 있다.

비영리도 벤처기업도 아닌 ‘미션 고정’ 구조

모질라 데이터 컬렉티브의 또 다른 특징은 지배구조다. 루이스-종은 이를 ‘미션이 고정된 영국 사회적 기업’이라고 설명했다. 수익만이 아니라 공동체의 데이터 소유권과 협상력을 지키는 목적이 운영 구조 안에 반영돼 있다는 뜻이다.

이 구조는 전통적 비영리 모델과 일반 영리 스타트업 모델의 한계를 동시에 피하기 위해 선택됐다. 비영리 조직은 대규모 인프라를 안정적으로 구축하는 데 어려움을 겪을 수 있고, 벤처 투자를 받은 스타트업은 성장과 수익화 압박 속에서 공동체 이익보다 사업 확장을 우선할 가능성이 크다는 판단이다.

이 조직은 재무 성과와 함께 ‘미션 달성도’를 동시에 평가받는다. 루이스-종은 “우리는 이중 손익계산서를 적용받는다”며 “미션 단계 목표를 달성하지 못하면 존재할 이유도 없다”고 말했다. 모질라 재단은 초기 자금으로 1,000만달러, 원화 약 151억9,500만원을 지원했다. 덕분에 단기 수익 압박에서 비교적 자유로운 편이다.

수익 모델도 차별화했다. 공동체가 데이터셋 이용료를 책정하면 그 금액은 전액 기여자에게 돌아간다. 플랫폼은 별도로 다운로드 이용자에게 인프라와 운영 비용 명목의 수수료를 받는다. 데이터 거래 과정에서 흔히 나타나는 불투명한 중개 구조 대신, 보다 명확한 가격 체계와 집단 협상 기반을 만들겠다는 구상이다.

AI 데이터 시장, ‘더 큰 규모’보다 ‘신뢰’ 경쟁으로

플랫폼은 데이터 품질 관리에도 무게를 두고 있다. 모든 참여 단체와 데이터셋은 등록 전 심사를 거치며, 업로더가 권리를 보유하지 않은 저작물은 허용하지 않는다. 단순한 ‘공정 이용’ 주장만으로 배포를 정당화하지도 않는다. 법률적 검토와 기술적 점검, 커뮤니티 기준을 함께 적용해 데이터 출처와 사용 권한을 더 분명히 밝히는 구조다.

최근에는 기여자가 접근 승인 여부를 직접 결정할 수 있는 기능과, 개발자가 적합한 데이터셋을 찾도록 돕는 대화형 도우미도 추가됐다. 앞으로는 데이터 제공자가 라이선스 조건과 가격을 직접 설정할 수 있는 보상 시스템도 도입될 예정이다.

모질라 데이터 컬렉티브는 대형 데이터 브로커와 정면 승부를 벌이기보다, 기존 시장이 외면했던 공동체와 개발자를 연결하는 ‘대안 인프라’를 지향한다고 밝혔다. AI 경쟁력이 단순히 더 큰 모델, 더 많은 데이터에만 달린 것이 아니라는 뜻이다.

결국 생성형 인공지능 산업의 다음 과제는 ‘얼마나 많이 모았느냐’보다 ‘어떻게 모았고, 누구에게 가치가 돌아가느냐’에 가까워지고 있다. 모질라 데이터 컬렉티브의 실험은 AI 데이터 시장이 앞으로 ‘규모’뿐 아니라 ‘동의’와 ‘신뢰’의 경쟁으로 옮겨갈 수 있음을 보여주는 사례로 평가된다.

[마켓분석] "코스피 사상 최고지만 67개 오르고 728개 내렸다"… BTIG, '극단적 시장 폭 괴리'에 경계령

알파리포트 전문 보기 →

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료