대규모 데이터 처리 한계를 겨냥한 인공지능 스타트업 그래폰(Graphon Inc.)이 830만달러, 원화 약 124억3000만원 규모의 시드 투자를 유치하고 공식 출범했다. 거대언어모델(LLM)의 ‘컨텍스트 윈도’ 한계를 보완해 기업용 AI의 정확도와 활용성을 높이겠다는 전략이다.
이번 투자는 노베라 벤처스가 주도했다. 여기에 퍼플렉시티AI, 삼성전자, 히타치의 기업형 벤처 투자 조직을 포함해 7곳이 넘는 투자자가 참여했다. 그래폰은 대규모 데이터셋에서 핵심 관계와 패턴을 추출해 저장한 뒤, LLM이 이를 다시 불러와 활용할 수 있도록 돕는 소프트웨어 플랫폼을 개발하고 있다.
현재 가장 앞선 LLM조차 한 번에 처리할 수 있는 입력량에는 분명한 한계가 있다. 일반적으로 최신 모델의 컨텍스트 윈도는 100만 토큰 수준으로 알려져 있는데, 이는 텍스트 수천 페이지 정도에 해당한다. 방대한 기업 데이터나 보안 로그, 문서 저장소 전체를 한 번에 읽고 이해하기에는 여전히 부족한 수준이다.
이 문제를 보완하기 위해 업계에서는 RAG, 즉 ‘검색 증강 생성’ 기술을 널리 써왔다. RAG는 100만 토큰이 넘는 데이터셋을 분석해 관련 기록을 추출한 뒤 이를 LLM에 제공하는 방식이다. 다만 개별 정보의 중요도를 가려내는 데는 강점이 있어도, 서로 떨어져 있는 기록 간 ‘관계’를 정교하게 파악하는 데는 약점이 있다는 지적이 많다.
예를 들어 대규모 사이버보안 데이터에서 악성코드 신호를 추출하더라도, 그것이 서로 다른 여러 공격을 뜻하는지 아니면 하나의 해킹 캠페인에 속한 흔적인지까지 구분하지 못할 수 있다. 그래폰은 이 지점을 공략했다. 회사는 데이터셋 속 핵심 패턴을 찾아 ‘지속형 관계 메모리’에 저장하고, 이후 LLM이 컨텍스트 한도에 걸리지 않고도 해당 패턴을 활용할 수 있게 한다고 설명했다.
그래폰의 플랫폼은 약 2억개 매개변수를 가진 소형 AI 모델을 활용해 패턴을 식별하는 것으로 전해졌다. 이 과정에서 ‘그래프’ 구조를 활용하는데, 그래프는 객체 사이의 연결 관계를 표현하는 데 적합한 데이터 구조다. 기업 데이터처럼 서로 얽힌 정보가 많은 환경에서 유의미한 패턴을 정리하는 데 유리하다는 평가다.
여기에 회사명과 같은 개념인 ‘그래폰 함수’도 핵심 기술로 쓰인다. 그래폰 함수는 그래프 형태로 저장된 데이터에서 서로 연결된 기록을 찾아내는 데 활용되는 수학적 도구다. 그래폰 함수 개발에 기여한 컴퓨터 과학자 크리스티안 보르크스(Christian Borgs)는 현재 그래폰의 기술 고문으로 참여하고 있다.
아르바즈 칸 최고경영자(CEO)는 “AI는 지난 10년 동안 언어를 모방하는 법을 배워왔지만, 현실 세계는 토큰이 아니라 ‘관계’로 이뤄져 있다”며 “그 구조를 보존함으로써 기업 환경에서 파운데이션 모델을 더 정확하고 유용하게 만들 수 있다”고 말했다.
그래폰은 LLM이 더 많은 데이터를 소화할 수 있도록 돕는 스타트업 흐름 속에서 등장했다. 최근 투자 유치에 성공한 서브쿼드래틱은 한 번의 프롬프트로 최대 1400만 토큰을 처리할 수 있는 트랜스포머 구조를 개발했다고 주장했다. 또 다른 신생 기업 스탠더드 인텔리전스는 중요하지 않은 정보를 프롬프트에서 걷어내는 ‘마스킹 압축’ 기술로 실질적인 처리 용량을 높이는 방식을 택했다.
시장에서는 생성형 AI 경쟁이 모델 크기 확대에서 ‘데이터 활용 효율’ 개선으로 옮겨가고 있다는 해석이 나온다. 그래폰의 접근법이 실제 기업 현장에서 성능과 비용 효율을 함께 입증할 수 있다면, AI 인프라 시장에서 존재감을 빠르게 키울 가능성이 있다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사