실시간 인공지능(AI)이 기술 진화의 새로운 분기점으로 부상하고 있다. 텍스트와 음성, 시각 데이터를 동시에 인지하고 응답해야 하는 고성능 AI 시스템은 응답 속도와 정확도 모두에서 새로운 기준을 요구하고 있다. 이러한 변화는 기업 환경에서 사용자 경험을 빠르게 향상시키고 있으며, 동시에 저지연 인프라에 대한 수요를 크게 끌어올리고 있다.
딥그램(Deepgram)의 최고경영자(CEO) 스콧 스티븐슨(Scott Stephenson)은 최근 열린 AWS 리인벤트 2025(AWS re:Invent 2025)에서 “맥락(context)은 실시간 AI의 핵심”이라며, “음성-텍스트, 텍스트-음성, 텍스트-텍스트 같은 모델이 점차 복잡해지면서 응답의 자연스러움과 정확도를 확보하기 위해서는 흐름 중에 맥락을 계속 반영할 수 있어야 한다”고 강조했다.
특히 음성 인터페이스 분야에서는 즉시 반응이 필수적이다. 사용자의 말을 실시간으로 수신하고 해석하며 동시에 출력까지 이어져야 하는 상황에서는, 기존 일괄처리(batch) 기반의 AI 모델로는 한계가 명확하다. 이번 행사에서 딥그램이 공개한 ‘세이지메이커(SageMaker)’ 기반 양방향 스트리밍 기능은 이러한 한계를 극복하기 위한 핵심 혁신으로 평가받고 있다. 현재 대부분의 대형언어모델(LLM)은 정보를 한 번에 모두 불러온 후 출력을 시작하는 방식이지만, 스티븐슨은 “음성은 기다릴 수 없다. 계속 스트리밍을 주고받아야 진짜 대화처럼 작동할 수 있다”고 설명했다.
이처럼 밀리초 단위 지연이 사용자 경험을 결정짓는 시대에 접어들면서, 기업들은 기존 애플리케이션 아키텍처를 전면 재설계하는 흐름에 들어섰다. 실시간 스트리밍 지능은 단순한 기술 성과를 넘어, 헬스케어와 고객지원, 사내 협업 도구 등 전 산업 분야에 걸쳐 새로운 운영 표준으로 자리잡고 있다. 개발자들은 이제 단순한 정확도를 넘어서 사람처럼 자연스럽게 반응하는 AI 성능을 설계해야 하는 과제를 안고 있다.
스티븐슨은 “현존하는 AI의 대부분은 아직 실시간 기반이 아니다”라며, “앞으로 5~10년 안에 진정한 실시간 AI 기반 시스템이 전체 시장의 중심으로 자리잡을 것”이라고 내다봤다. 속도와 반응성이 핵심인 음성 인터페이스처럼, 사용자와 끊임없이 교감하는 구조야말로 AI 플랫폼의 방향성을 규정짓는 기준이 되고 있다는 설명이다.
스티븐슨은 “대화하는 지금 이 순간처럼, 내가 당신의 말을 듣자마자 머릿속으로 인지하고, 다시 말을 꺼내는 이 모든 과정이 실시간으로 이뤄져야 한다”며 실시간 AI 기술의 필요성을 비유적으로 덧붙였다. 지연이 발생하면 어색함과 답답함이 뒤따르고, 이는 사용자 신뢰에도 부정적 영향을 줄 수 있다는 지적이다.
이처럼 실시간 AI의 부상이 인프라와 모델, 애플리케이션 전반에 걸쳐 새로운 동력을 제공하고 있다. 특히 AI와 클라우드 기업들 간의 협업은 긴밀해지고 있으며, 전통적인 기준을 넘어선 신속하고 인간 친화적인 기술 구축 경쟁이 본격화되고 있다.
AI가 사람처럼 자연스럽고 즉각적으로 반응하는 시대, 새로운 장을 여는 실시간 AI의 미래가 본격적으로 펼쳐지고 있다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>