링크복사
공유
댓글
추천
스크랩
인쇄
글자크기

링크가 복사되었습니다.

글자크기

가

작게

가

보통

가

크게

가

매우크게

인공지능 테크

‘컴퓨터 조작’ AI로 승부…스탠다드 인텔리전스, 1,103억원 투자 유치

김서린 기자

2026.05.02 (토) 01:23

6명 규모 AI 스타트업 스탠다드 인텔리전스가 세쿼이아·스파크캐피털 주도로 7,500만달러(약 1,103억원) 투자 유치에 성공했다고 밝혔다.

스크린샷 대신 영상 학습과 자동 설명 생성으로 ‘컴퓨터를 직접 조작하는’ 실행형 AI 모델 FDM-1을 키우고, 연산 인프라와 안전장치 개발에 투자할 계획이라고 전했다.

‘컴퓨터 조작’ AI로 승부…스탠다드 인텔리전스, 1,103억원 투자 유치 / TokenPost.ai

6명 규모의 인공지능 스타트업 스탠다드 인텔리전스(Standard Intelligence)가 7,500만달러(약 1,103억7,000만원) 규모의 투자 유치에 성공했다. 단순 챗봇이 아니라 실제 소프트웨어를 ‘직접 다루는’ AI 모델을 앞세웠다는 점에서 시장의 관심이 쏠린다.

이번 투자 라운드는 세쿼이아와 스파크캐피털이 주도했다. 여기에 저명한 AI 연구자 안드레이 카파시(Andrej Karpathy)를 포함한 복수의 엔젤투자자도 참여했다. 회사는 새 자금을 추가 연산 인프라 확보와 AI 안전장치 개발에 투입할 계획이다.

핵심은 스크린샷 아닌 ‘영상 학습’

스탠다드 인텔리전스가 공개한 기반 모델 ‘FDM-1’은 ‘컴퓨터 사용’ 작업에 최적화된 AI다. 이는 사람이 프로그램 화면을 보며 클릭하고 입력하는 과정을 AI가 그래픽 인터페이스를 통해 수행하도록 설계된 모델을 뜻한다. 회사에 따르면 FDM-1은 소프트웨어 취약점 점검부터 컴퓨터지원설계, 즉 CAD 프로그램 활용까지 폭넓은 작업을 처리할 수 있다.

기존 컴퓨터 사용 모델은 대체로 사람이 앱을 사용하는 장면을 캡처한 스크린샷으로 학습한다. 이 과정에서는 각 이미지에 사람이 직접 설명 문구를 붙여야 한다. 예를 들어 온라인 쇼핑 과정을 담은 여러 장의 화면에는 ‘상품 선택’, ‘장바구니 이동’, ‘결제 진행’ 같은 자연어 설명이 함께 달려야 한다.

반면 스탠다드 인텔리전스는 스크린샷 대신 영상 데이터를 활용했다. 또 사람이 일일이 설명을 다는 방식 대신 ‘역동학 모델’이라는 신경망을 사용해 화면 설명을 자동 생성했다. 이 방식은 데이터 구축 비용을 크게 낮추고, 더 큰 학습 데이터셋을 만들 수 있다는 점이 강점으로 꼽힌다.

1,100만 시간 데이터… 오픈소스 대안보다 압도적

회사는 이런 방식으로 총 1,100만 시간 분량의 컴퓨터 사용 학습 데이터를 구축했다고 밝혔다. 이는 현재 공개된 주요 오픈소스 대안보다 ‘여러 자릿수’ 수준으로 큰 규모라는 설명이다.

AI 업계에서는 학습 데이터 규모 확대가 모델 성능 개선으로 이어지는 경우가 많다. 스탠다드 인텔리전스가 공개한 시연 영상에서도 FDM-1은 대중적인 엔지니어링 소프트웨어를 활용해 금속 부품을 설계했다. 또 다른 실험에서는 자율주행 차량 제어 기능을 웹사이트에서 접근할 수 있도록 만든 뒤, FDM-1이 1시간의 미세조정만으로 해당 차량 운전 방법을 익혔다고 회사는 전했다.

이는 생성형 AI 경쟁이 텍스트와 이미지 생성에서 실제 업무 자동화로 옮겨가고 있음을 보여주는 대목이다. 특히 컴퓨터 사용 모델은 브라우저, 업무용 소프트웨어, 산업용 애플리케이션을 직접 다룰 수 있다는 점에서 기업 수요가 빠르게 커지는 분야로 평가된다.

적은 자원으로 긴 영상 처리… 효율성도 앞세워

FDM-1의 또 다른 강점은 상대적으로 적은 하드웨어 자원으로 작동한다는 점이다. 회사는 이 모델이 작업 수행 과정에서 복잡한 ‘생각의 사슬’ 추론이나 별도 도구 의존도를 낮췄다고 설명했다. 여기에 탑재된 비디오 인코더는 오픈AI의 대안보다 100배 높은 효율을 갖췄다고 주장했다.

비디오 인코더는 영상을 AI가 이해할 수 있는 수학적 표현으로 바꾸는 모듈이다. 문제는 이런 표현값이 메모리를 많이 차지한다는 점이다. 보통 저장량을 줄이면 성능도 함께 떨어지기 쉽다.

스탠다드 인텔리전스는 이를 ‘마스킹 압축 목표’ 기술로 보완했다고 밝혔다. 모델이 처리하는 영상에서 중요하지 않은 부분을 제거해 메모리 사용량을 줄이면서도 데이터 품질 저하를 최소화했다는 설명이다. 회사에 따르면 이 인코더를 적용하면 100만 토큰 컨텍스트 창을 가진 모델이 한 번의 프롬프트로 초당 30프레임 기준 2시간 분량의 영상을 처리할 수 있다.

[경제분석] 연준은 인플레이션을 이긴 적이 없다… ‘2차 물가 파동’이 왔다

알파리포트 전문 보기 →

대형 자금이 몰리는 이유는 ‘AI 에이전트’ 확장성

이번 투자 유치는 AI 시장의 관심이 ‘대화형 모델’에서 ‘실행형 에이전트’로 이동하고 있다는 흐름과 맞닿아 있다. 사용자의 지시를 이해하는 수준을 넘어, 실제 프로그램을 열고 조작하며 결과물을 만드는 AI가 차세대 경쟁 무대로 떠오르고 있기 때문이다.

스탠다드 인텔리전스는 새 자금으로 컴퓨팅 역량을 늘리는 한편, 컴퓨터 사용 모델에 맞춘 AI 안전 가드레일도 개발할 예정이다. 화면을 직접 조작하는 AI일수록 오작동이나 권한 남용 위험이 커질 수 있어, 성능만큼 통제 기술도 중요해지고 있다.

소규모 팀이지만 대규모 데이터와 효율적인 학습 구조를 앞세운 스탠다드 인텔리전스의 행보는 AI 에이전트 시장의 경쟁이 더 빠르게 달아오를 수 있음을 시사한다. 결국 관건은 ‘얼마나 똑똑한가’뿐 아니라 ‘얼마나 안전하고 낮은 비용으로 실제 업무에 투입할 수 있는가’가 될 전망이다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료

#인공지능 #AI에이전트 #스타트업펀딩 #세쿼이아캐피털 #스파크캐피털 #안드레이카파시 #비디오학습 #컴퓨터사용모델

텔레그램에서 토큰포스트 속보 보기