퀄컴이 엔비디아의 AI 추론 시장 지배력에 도전장을 던졌다. 이 회사는 2026년 AI200, 2027년 AI250 출시를 예고하며 데이터센터용 AI 가속기 라인업을 강화하고 있다. 이 새로운 칩은 하이엔드 GPU 대안이 될 수 있는 독립형 구성 또는 기존 서버에 즉시 장착 가능한 확장 카드 형태로 제공될 예정이며, 기업용 AI 인프라 시장의 핵심 과제인 전력 효율성과 총소유비용(TCO), 소프트웨어 호환성 등에 초점을 맞췄다.
그동안 퀄컴은 AI100 및 AI100 울트라를 활용해 추론 성능을 입증해왔고, 암페어 등 서버 칩 업체들과의 파트너십을 통해 생태계를 확장해왔다. 이번 AI200 및 AI250 출시는 그 연장선에서, 기존 서버 인프라에 손쉽게 통합할 수 있다는 점에서 기업 고객들의 부담을 줄이고 갈수록 커지는 추론 수요에 빠르게 대응할 수 있도록 설계됐다. 인공지능 추론은 기업 AI가 실험 단계에서 실제 서비스로 넘어가는 가장 중요한 관문이며, 칩의 연산력보다는 와트당 성능과 모델당 비용 등이 성공의 판가름 기준으로 부상하고 있다.
AI 추론 시장은 이제 단순히 GPU 일변도의 구도가 아닌 다중 아키텍처 전쟁으로 진화하고 있다. 그로크(Groq), 세레브라스(Cerebras) 등 다양한 신생 기업들이 맞춤형 반도체와 효율적인 소프트웨어 통합 등을 무기로 틈새 수요를 공략하고 있으며, 퀄컴 역시 이 흐름에 합류했다. 특히 AI 팩토리로 불리는 차세대 데이터센터들이 모델 학습뿐 아니라 실시간 추론까지 포괄하는 구조로 재편되고 있는 가운데, 범용성보다는 특정 워크로드에 최적화된 솔루션의 필요성이 대두되고 있다.
엔비디아의 소프트웨어 생태계 우위는 여전히 공고하지만, 시장은 점차 다변화된 공급자를 요구하고 있다. 오픈AI가 AMD 하드웨어를 도입해 100억 달러(약 14조 4,000억 원) 규모의 인프라를 구축하기로 한 사례처럼, 멀티벤더 중심의 AI 인프라 전략이 확산되면서 퀄컴의 진입이 주목받고 있다. 퀄컴은 개방형 생태계를 강조하며 기존 프레임워크와의 호환성을 기반으로 빠른 도입과 확장이 가능하다는 점을 강점으로 내세운다.
단순히 성능 지표만으로 경쟁하는 시대는 끝났다. 이제 기업들이 중요하게 여기는 것은 토큰당 비용, 토큰당 전력소모, 지연시간 보장 여부, 랙 단위 메모리 밀도 등 보다 복합적인 경제성과 실효성이다. 퀄컴은 이러한 수요에 맞춰 계량화된 추론 효율성을 앞세우고 있다. AI200·AI250이 이를 충족한다면, GPU 중심 체제에서 탈피하려는 기업들에게 매력적인 선택지가 될 가능성이 크다.
결국 퀄컴의 이번 행보는 AI 인프라 전환의 열쇠가 ‘훈련’이 아닌 ‘추론’이라는 판단에 근거하고 있다. 추론 시장은 AI 산업의 이익 중심축으로 자리매김하고 있으며, 충족해야 할 요소는 기술력 외에도 비용 구조와 생태계이며, 퀄컴이 그 요건을 얼마나 충실히 맞출 수 있을지가 관건이다. 오는 2026~2027년은 AI 추론 반도체 업계에 중요한 변곡점으로 기록될 전망이며, 퀄컴이 그 최종 경쟁 라운드에 진출할 의지를 확실히 드러낸 셈이다.




