AI를 위한 IP 블록체인 인프라 스토리(대표 이승윤)가 인큐베이팅한 탈중앙화 AI 데이터 인프라 ‘포세이돈(Poseidon)’이 누구나 AI 훈련 데이터 수집에 참여하고 보상을 받을 수 있는 데이터 기여 앱 ‘누모(Numo)’를 ‘앞서해보기(Early access)’ 형태로 공개했다.
올해 초 포세이돈은 커뮤니티 대상 베타 앱 실험에서 3주간 17개 언어, 3만 3,000시간 이상의 오디오 데이터를 수집했다. 분산형 데이터 기여 모델의 가능성을 확인한 포세이돈은 이 경험을 기반으로 누구나 손쉽게 AI 훈련 데이터 구축에 참여하고 보상을 받는 소비자용 데이터 기여 앱 누모를 선보였다.
누모는 출시 초기 벵골어·힌디어·타밀어·텔루구어의 음성 데이터를 우선적으로 수집한다. 이 언어들은 전 세계 10억명 이상이 사용하는 언어임에도 불구하고 권리가 명확한 고품질 데이터가 부족해 AI 음성 시스템에 충분히 반영되지 못한 언어들이다. 이후 포세이돈은 점차 지원 국가와 언어를 확대하고, 영상, 이미지, 움직임, 센서 등 차세대 AI 시스템 훈련에 필요한 다양한 실세계 데이터로 확장해 나갈 예정이다.
다양한 환경과 언어, 조건에서 사람들이 말하고, 움직이고, 반응하는 실세계 데이터(Real-World Data)는 차세대 AI 발전의 핵심 요소다. 특히 음성은 사람의 가장 자연스러운 소통 방식으로, AI 환경에서 중요한 인터페이스다. AI 음성 시스템이 실제 환경에서 작동하기 위해서는 다양한 억양, 배경 소음, 대화 중첩 등 복잡한 요인을 처리할 수 있어야 하며, 이를 위해서는 현실 세계와 실제 인간 행동 기반의 고품질 데이터 확보가 중요하다.
포세이돈은 누모를 통해 데이터 수집부터 처리, 권리 정의까지 전 과정의 데이터 파이프라인을 구축한다. 누모에서 모든 데이터들은 수집 시점부터 스토리 블록체인에 등록되고 라이선스화된다. 이를 통해 AI 개발자와 기업은 출처 및 권리 관계가 명확한 데이터를 상업적으로 활용할 수 있다. 데이터 수집 이후 라이선스를 정의하는 것이 아니라 수집 단계부터 출처 추적과 라이선스 체계를 내재화한 것이 특징이다.
스토리 최고 AI 책임자(CAIO) 및 포세이돈 프로젝트 수석 과학자인 샌딥 친찰리(Sandeep Chinchali)는 “AI가 현실 세계에서 제대로 작동하기 위해서는 현실 세계의 언어, 목소리, 환경이 데이터에 충분히 반영되어야 한다”며, “누모는 누구나 AI 발전에 기여하고 보상을 받을 수 있도록 설계된 기여 앱으로, 권리 관계가 명확하게 정리된 고품질 데이터를 기반으로 AI 모델의 정확도와 신뢰도를 높이고 실제 환경에서 활용 가능한 AI 서비스 확장을 가능하게 할 것”이라고 말했다.

