정부가 국내 방송 콘텐츠를 바탕으로 한 인공지능(AI) 학습용 데이터 구축을 본격화하면서, 영상 산업과 AI 기술 간 융합이 새로운 국면을 맞고 있다. 과학기술정보통신부는 8일, 이 사업에 참여할 방송사로 MBC, MBC충북, KT ENA, KBS 컨소시엄 등 네 곳을 최종 선정했다고 발표했다.
이번 사업은 방송사가 보유한 영상 자료를 AI 모델 학습에 적합한 형태로 가공하는 것이 핵심이다. 특히 영상 자료는 양질의 데이터를 필요로 하는 최신 AI 분야에서 주목받고 있는 콘텐츠로, 자연스러운 언어, 이미지, 맥락 정보 등을 동시에 담고 있어 학습용 자료로서 높은 활용도를 지닌다. 정부는 이러한 장점을 살려, 영상 기반의 AI 학습이 가능하도록 데이터를 대규모로 구축하겠다는 전략이다.
사업 규모는 적지 않다. 선정된 각 컨소시엄에는 약 48억 3천만 원의 예산이 지원되며, 이들은 각자 방송 영상 원본 4만 2천 시간 분량을 가공해 최종적으로 2만 1천 시간에 달하는 AI 학습용 데이터를 생산하게 된다. 데이터 가공 과정에서는 저작권 문제가 발생하지 않도록 원본 판권을 명확히 갖춘 자료가 사용될 예정이다. 이를 통해 법적 리스크를 피하면서도 데이터 활용의 효율성을 극대화한다는 것이 과기정통부의 방침이다.
총 12개 컨소시엄이 신청해 3 대 1의 경쟁률을 기록한 만큼, 선정 기준에도 무게가 실렸다. 과기정통부는 이번 사업에서 우리 고유의 문화와 정서를 담은 방송 콘텐츠가 중심이 되도록 구성하였으며, 동시에 참가 업체들의 AI 기술력과 데이터 처리 역량도 중점적으로 평가했다고 밝혔다. 이는 단순한 데이터 양산을 넘어, 한국형 AI 모델을 키워내기 위한 포석으로 해석된다.
이 사업을 통해 구축되는 데이터는 정부의 전략적 과제 중 하나인 ‘AI 파운데이션 모델’ 구축에 직접 활용될 예정이다. 파운데이션 모델은 대량의 범용 데이터를 바탕으로 스스로 다양한 형태의 문제를 해결할 수 있는 대규모 AI의 기반이 되는 기술로, 향후 연구 개발뿐 아니라 교육, 의료, 공공서비스 등 다양한 영역에 적용될 수 있다. 아울러 이번 사업의 데이터는 연구·교육 목적으로도 개방돼 민간 활용도 가능해질 전망이다.
이 같은 흐름은 정부가 추진 중인 디지털 역량 강화 정책과 맞물리며, 콘텐츠 산업과 AI 산업 간 융합을 가속화하는 계기가 될 가능성이 있다. 특히 고품질 데이터 확보는 한국이 글로벌 AI 기술 경쟁에서 주도권을 확보하기 위한 필수 조건으로, 향후 민간 투자와 연계된 범국가 차원의 AI 생태계 조성으로 이어질 수 있다는 평가다.