AI 대화 데이터, 사용자 손에…‘ChatGPT 데이터 콜렉티브’ 출범

| 김민준 기자

일반 사용자들이 인공지능 대화 데이터에 대한 통제권을 직접 확보할 수 있는 새로운 프로젝트가 출범했다. 'ChatGPT 데이터 콜렉티브(ChatGPT Data Collective)'로 명명된 이 이니셔티브는, 오픈AI의 챗GPT(ChatGPT)와 이루어진 개인 대화 이력을 사용자 스스로 업로드하고, 보상과 통제권을 얻을 수 있도록 설계됐다.

이 프로젝트는 오픈데이터랩스(OpenDataLabs) CEO 아나 카즐라우스카스(Anna Kazlauskas)가 주도하고, ‘인공지능의 미래는 인간이 소유한 데이터에서 출발한다’는 철학을 지닌 비영리 단체 바나재단(Vana Foundation)의 기술 서비스 바나(Vana)와 손잡고 출범했다. 카즐라우스카스는 이번 프로젝트의 핵심 목표로 ‘사용자가 자신이 생성한 데이터의 가치와 활용 방식을 스스로 결정할 수 있는 힘을 되돌려주는 것’이라 밝혔다.

참여자들은 챗GPT에서 내려받은 대화 이력(zip 파일)을 업로드하면 자동으로 데이터셋을 생성하게 된다. 대화 본문, AI에 제공한 피드백, 구독 정보, 언어 설정 등 메타데이터가 포함되며, 이를 통해 인간-기계 간 상호작용의 진화, 질문 패턴, 감정 표현 변화 등을 계량적으로 분석할 수 있다.

대화 이력을 공유한 이용자에게는 데이터의 질과 양에 따라 $GPT라는 토큰이 보상으로 지급된다. 이 토큰은 단순 보상 수단을 넘어서 거버넌스 기능도 수행하며, 데이터셋의 활용방향, 외부 공개 여부, 향후 개발될 기능에 대한 투표권 행사의 근거로 작용한다. 예컨대 개인화된 AI 저널링이나 메모리 분석 등 사용자 기반의 AI 경험 도입이 투표를 통해 결정될 수 있다.

이 콜렉티브는 단일 기업이 통제하는 구조가 아닌 분산형 자율조직(DAO) 형태로 운영되며 데이터 보안 측면에서도 각별히 신경을 썼다. 참여자의 데이터는 상황에 따라 삭제 또는 수정이 가능하며, 사용자의 동의 없이는 암호화된 상태로 유지된다.

이번 프로젝트는 최근 주요 AI 기업들이 사용자 동의 없이 대화 데이터를 활용해 모델을 학습시킨다는 비판이 거세지는 가운데 등장했다. 데이터 수익이 소수 기업에만 집중되는 구조에서 벗어나, 개인이 직접 AI 생태계에서 권리와 혜택을 갖도록 하겠다는 선언이다.

ChatGPT 데이터 콜렉티브는 '프라이버시 중심', '사용자 주도형'이라는 개념이 실제로 작동할 수 있음을 보여주는 첫 시도 중 하나라는 평가를 받고 있다. 사용자 데이터 주권이라는 개념이 AI 트레이닝 데이터의 경제적 가치를 재구성하고, 기술 산업 내 권력 구조에 균열을 낼 수 있을지 귀추가 주목된다.