실시간 화상회의에서 음성을 자동으로 다른 언어로 바꿔 주거나 사용자의 얼굴을 다른 인물로 바꾸고, 심지어 아바타가 실제 사람처럼 움직이도록 만드는 기술이 현실화되고 있다. 미국 실리콘밸리에 본사를 둔 스타트업 아쿨(Akool)이 공개한 ‘아쿨 라이브 카메라(Akool Live Camera)’는 인공지능(AI)을 활용해 한층 진화한 실시간 영상 생성 기능을 선보이며 주목받고 있다.
아쿨 라이브 카메라는 사용자의 실시간 움직임을 분석해 이를 아바타의 동작으로 즉각 전환한다. 동시에 말을 하는 사람의 입 모양, 표정까지 반영되는 립싱크 기능이 탑재돼 있다. 이 시스템은 별도의 사전 녹화 없이 사용자의 화상회의나 라이브 방송 중 실시간으로 다국어 번역을 수행하고, 음성의 억양이나 뉘앙스를 유지하면서 자동으로 번역된 음성을 출력한다.
아쿨의 창업자이자 CEO인 루자쥔(Jeff Lu)은 “진짜 사람과 AI 아바타의 차이를 구분할 수 없게 하는 것이 목표”라며, “영상 콘텐츠 제작의 패러다임을 바꾸는 게임체인저가 될 것”이라고 말했다. 그는 본지가 운영하는 게임 전문 미디어 게임스비트(GamesBeat)와의 인터뷰에서 “우리는 화상회의, 생방송, 교육, 글로벌 세일즈와 같은 실시간 커뮤니케이션 현장을 AI 기술로 혁신하고 있다”고 설명했다.
이 기술은 단순한 영상 생성 도구를 넘어서, 시청자의 반응을 분석하고 그에 맞는 표정과 몸짓을 스스로 조절하는 ‘대화형 엔진’으로 작동한다. 아쿨 라이브 카메라는 엣지 컴퓨팅 기반으로 실시간 데이터를 처리하며, 필요에 따라 감정 표현이나 말의 속도까지 자연스럽게 조절할 수 있다.
주요 기능으로는 실사처럼 표현되는 AI 아바타, 실시간 음성 번역, 얼굴 변경, 그리고 사전 촬영 없이 만들어지는 AI 동영상 생성 기술이 포함된다. 눈에 띄는 점은 줌(Zoom), 마이크로소프트 팀즈(Microsoft Teams), 구글 미트(Google Meet) 등 대중적인 화상 플랫폼과의 호환성이다. 이 기능들은 이미 코카콜라와 카타르항공 등 글로벌 기업과의 협업 사례에도 적용되고 있다.
뿐만 아니라, 아쿨은 다양한 사용자 환경에 맞춰 일본 애니메이션풍, 복고풍, 프로페셔널 비즈니스 스타일 등의 아바타 유형도 제공하며, 개인정보보호를 위해 얼굴 데이터는 지역 단말기에서 안전하게 처리된다. 여기에 AI가 만든 콘텐츠는 명확한 워터마크를 삽입해 사람과 기계가 만들어낸 것을 구분할 수 있도록 했다.
2022년에 설립된 아쿨은 현재 직원 수 약 80명 규모로 대부분 애플(AAPL)이나 구글(GOOGL) 등 빅테크 출신이다. 루 CEO는 구글 클라우드에서 영상처리 기술을, 애플에서는 페이스 ID 관련 부서에서 근무한 이력을 갖고 있다. 이 스타트업은 놀랍게도 외부 투자에 크게 의존하지 않고 영상번역, 실시간 아바타, 얼굴 교체 솔루션 판매 매출로 수십억 원대 매출을 올리고 있다.
루 CEO는 “우리는 오픈소스에 의존하지 않고 모델 설계, 데이터 수집, 파이프라인 구축까지 모든 것을 독자적으로 개발했다”며 “빠르게 진화하는 AI 영상 시장에서 기술 경쟁력을 확보할 수 있는 것이 스타트업의 핵심”이라고 강조했다. AI에 대한 우려에 대해서는 “올바르게 작동하는 AI를 만드는 것이 목표”라며, 콘텐츠 검수 시스템과 저작권 보호 체계를 철저히 구축 중이라고 밝혔다.
현재 아쿨 라이브 카메라는 일부 파트너를 대상으로 베타 테스트 중이며, 정식 출시는 2025년 하반기로 예정되어 있다. 루 CEO는 “이 기술이 현실화되면 전 세계 어디서든, 누구든지 즉시 자신의 모습으로 실감나게 소통할 수 있는 시대가 도래할 것”이라고 전망했다. AI 기반 실시간 영상 기술의 진화가 글로벌 커뮤니케이션의 지형을 바꾸는 중요한 전환점으로 평가되는 배경이다.