AI 클라우드 기업 런팟(Runpod)이 개발자가 복잡한 인프라 설정 없이 곧바로 AI 추론 서비스를 배포할 수 있는 소프트웨어 개발 키트(SDK) 겸 플랫폼 ‘플래시(Flash)’를 출시했다. 로컬 파이썬 코드에서 바로 클라우드 AI 추론으로 연결하는 구조로, 컨테이너 설정이나 이미지 관리, 인프라 구성 부담을 크게 줄인 것이 핵심이다.
런팟은 이번 발표를 통해 기존 ‘서버리스는 강력하지만 초기 설정이 번거롭다’는 개발자들의 불만을 해소하는 데 초점을 맞췄다고 밝혔다. 젠 루(Zhen Lu) 최고경영자(CEO)는 “도커는 훌륭한 도구지만, 개발자가 본래 하고 싶었던 일은 아니다”라며 “플래시는 그 시간을 다시 돌려주는 제품”이라고 설명했다. 그는 개발자가 파이썬 코드만 작성한 뒤 원하는 컴퓨팅 옵션을 고르면 수분 안에 요청 처리 환경을 띄울 수 있다고 덧붙였다.
이번 출시 배경에는 AI 시장의 빠른 변화가 자리 잡고 있다. 초기 생성형 AI 경쟁이 모델 ‘학습’ 중심이었다면, 최근에는 AI 에이전트와 실서비스 확산으로 ‘추론’ 인프라 수요가 급증하고 있다. 추론은 사용자 요청이 실시간으로 들어오고, 수요 변동성이 크며, 지연 시간과 확장 속도가 서비스 성패를 가를 수 있다는 점에서 학습 중심 인프라와 요구 조건이 다르다.
런팟은 이런 흐름 속에서 개발자가 인프라보다 애플리케이션 로직과 코드에 집중할 수 있도록 설계를 단순화했다고 강조했다. 특히 AI 에이전트는 하나의 컨테이너나 단일 엔드포인트로 neatly 처리되기 어렵고, 서로 다른 모델 호출과 다양한 연산 자원 연결, 수요 기반 확장이 동시에 필요하다는 점을 고려했다.
파이썬을 중심 언어로 채택한 점도 주목된다. 파이썬은 AI 개발에서 가장 널리 쓰이는 언어 중 하나로 꼽힌다. 2025년 젯브레인스(JetBrains) 설문조사에 따르면 응답자의 57% 이상이 파이썬을 사용한다고 답했고, 37%는 주력 언어로 파이썬을 선택했다. 이는 자바스크립트, 자바, 타입스크립트보다 높은 수준이다.
플래시는 개발자가 선호하는 방식으로 애플리케이션을 만든 뒤, 서로 다른 연산 구성을 지닌 여러 AI 클라우드 엔드포인트를 하나의 서비스 안에서 연결할 수 있도록 지원한다. 개발자는 필요한 컴퓨팅 자원 유형만 지정하면 되고, 실제 백엔드에서는 부하 분산과 트래픽 관리, 확장 작업을 자동으로 처리한다.
자동 확장 기능도 핵심이다. 수요가 늘어나면 사전에 설정한 최대치까지 엔드포인트가 확장되고, 유휴 상태에서는 다시 ‘제로’ 수준까지 축소된다. 이는 초기 비용과 운영 부담을 줄이면서도 갑작스러운 요청 증가에 대응하려는 개발자에게 유리한 구조다.
또한 플래시는 명령줄 인터페이스(CLI) 기반 제어 기능도 제공한다. 로컬 환경에서 개발과 테스트, 배포를 선호하는 소프트웨어 엔지니어가 기존 작업 흐름을 크게 바꾸지 않고 사용할 수 있도록 한 것이다. 런팟은 이를 통해 실험 단계부터 운영 환경까지 전체 소프트웨어 생애주기에서 AI 추론 접근성을 높이겠다는 구상이다.
이번 플래시 출시는 AI 클라우드 시장 경쟁이 단순한 GPU 확보를 넘어 ‘개발자 경험’으로 확장되고 있음을 보여준다. AI 추론 수요가 빠르게 늘어나는 상황에서, 얼마나 손쉽고 빠르게 프로토타입을 서비스로 전환할 수 있느냐가 중요한 경쟁 요소가 되고 있기 때문이다.
특히 에이전트형 AI가 확산할수록 단순 연산 성능뿐 아니라 유연한 배포 구조와 자동 확장, 복수 모델 연동 능력이 더 중요해질 가능성이 크다. 런팟의 플래시는 이러한 흐름에 맞춰 인프라 장벽을 낮추는 데 초점을 맞춘 서비스로, 향후 개발자 기반 AI 클라우드 시장에서 의미 있는 반응을 이끌어낼지 주목된다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사