AI 기반 인간형 영상 제작 기술을 선도하는 크래프트스토리(CraftStory)가 이미지 기반의 장편 영상 생성 모델을 새롭게 선보였다. 이번 모델은 정지 이미지 한 장으로 최대 5분 분량의 인간 캐릭터 영상 제작이 가능하도록 설계됐으며, 기존 영상-투-영상 기반의 Model 2.0 기능을 확장한 것이다.
기업들이 마케팅, 교육 콘텐츠, 비즈니스 커뮤니케이션 분야에서 영상 활용을 늘리는 추세 속에, 크래프트스토리의 기술은 전통적인 영상 제작 없이도 스튜디오급 품질의 일관된 인간형 연기를 구현할 수 있어 주목된다. 대부분의 기존 AI 영상 생성 모델이 10~30초 수준의 짧은 분량만 가능하다는 점을 감안하면, 이는 상당한 기술적 도약으로 평가된다. 기존에는 짧은 클립을 이어붙여 장편을 구현할 수밖에 없었는데, 이러한 방식은 인물 외형이나 조명, 동작 일관성이 무너지기 쉬웠다.
크래프트스토리는 이 같은 한계를 자체 개발한 병렬 확산 파이프라인(parallelized diffusion pipeline)으로 극복했다. 이 기술은 여러 영상 구간을 동시에 처리하면서 분절된 장면 간의 시각적 일관성을 유지할 수 있도록 설계됐다. 창업자이자 CEO인 빅터 에루키모프(Victor Erukhimov)는 “이제 실제 촬영 없이도 사람다운 표현력을 담은 영상을 만들 수 있다”며, “단 한 장의 이미지와 텍스트로도 제스처와 감정 표현이 풍부한 인간 캐릭터를 구현할 수 있다”고 밝혔다. 에루키모프는 인텔(Intel)에 매각한 컴퓨터 비전 스타트업 잇시즈(Itseez Inc.)의 전 창업자이기도 하다.
이번 모델은 실제 배우의 고속 촬영 데이터를 기반으로 학습해 표정, 손짓, 몸짓의 자연스러운 움직임을 반영할 수 있게 됐으며, 생성 인물은 정적이거나 인위적인 느낌 없이 실제 사람처럼 유려하게 표현된다. 해상도는 480p 및 720p로 기본 제작되며, 업스케일링으로 1080p까지 상승시킬 수 있다. 특히, 자연스러운 배경 이동이 가능한 워크 앤 토크(walk-and-talk) 영상도 최대 80초까지 지원하며, 이는 역동적인 장면 제작에 새로운 가능성을 열어준다.
사용자는 이미지와 함께 스크립트나 음성 트랙을 입력하면, 해당 시나리오에 맞춰 입 모양 연동이 반영된 장면을 자동으로 생성할 수 있다. 여기에 제스처 정렬 기능이 더해져 인물의 몸 움직임이 말의 리듬과 감정에 맞게 조정된다.
기술이 인간의 정체성과 창작 능력에 근접하고 있는 지금, 크래프트스토리는 영상 콘텐츠 제작의 판도를 바꾸며 AI 기반 영상 생태계의 확장을 가속화하고 있다. 업계는 이번 기술이 상업용 영상 제작 방식의 근본적 전환점이 될 수 있다고 평가하고 있다.





