구글이 ‘에이전트 시대’에 맞춰 인공지능 반도체 전략을 바꿨다. 하나의 범용 칩으로 학습과 추론을 모두 처리하던 방식에서 벗어나, 대규모 학습용 ‘TPU 8t’와 고동시성 추론용 ‘TPU 8i’를 각각 따로 내놨다.
구글은 23일(현지시간) 미국 라스베이거스에서 열린 ‘구글 클라우드 넥스트 2026’에서 두 종류의 맞춤형 AI 반도체를 공개했다. 회사는 AI 시장이 ‘모델을 만드는 단계’와 ‘모델을 실제 서비스에 투입하는 단계’로 빠르게 나뉘고 있다며, 새 TPU가 이런 수요 변화에 맞춰 설계됐다고 설명했다.
기존 ‘아이언우드 TPU’가 추론 시대를 겨냥한 단일 플래그십 플랫폼이었다면, 이번 세대는 구조 자체를 이원화한 점이 특징이다. AI 에이전트 확산으로 더 큰 모델을 훈련시킬 인프라와, 이를 클라우드에서 빠르게 돌릴 추론 인프라 수요가 동시에 커졌다는 판단으로 읽힌다.
TPU 8t, 대규모 AI 학습 성능·비용 효율 강화
TPU 8t는 대규모 사전학습과 임베딩 중심 워크로드에 초점을 맞춘 칩이다. 구글은 이 제품에 ‘3D 토러스’ 네트워크 토폴로지를 적용해 대형 클러스터 확장성을 높였다고 밝혔다. 단일 팟 기준 연결 가능한 칩 수는 9600개로, 아이언우드의 9216개보다 늘었다.
핵심은 ‘SparseCore’와 4비트 부동소수점 연산 지원이다. SparseCore는 대형언어모델(LLM) 검색 과정에서 자주 발생하는 불규칙한 메모리 접근을 처리하는 전용 가속기다. 여기에 저비트 연산을 결합해 메모리 대역폭 부담을 낮추고, 더 작은 메모리 사용량으로도 정확도를 유지하면서 처리량을 두 배 높였다고 구글은 주장했다.
이는 ‘양자화’로 불리는 기술 흐름과도 맞닿아 있다. 파라미터당 비트 수를 줄이면 상대적으로 낮은 사양의 시스템에서도 더 큰 모델을 돌릴 수 있고, 전력 사용량과 공간 부담도 함께 줄일 수 있다. 구글은 TPU 8t가 대규모 학습 환경에서 아이언우드 대비 달러당 성능이 최대 2.7배 개선됐다고 밝혔다.
TPU 8i, 추론 속도와 동시 처리 능력에 초점
TPU 8i는 학습이 끝난 모델을 실제 서비스에 투입하는 추론 단계에 맞춰 설계됐다. 특히 대형 모델의 후처리와 다수 사용자가 동시에 요청하는 고동시성 추론에 강점을 두고 있다.
구글에 따르면 TPU 8i는 아이언우드보다 3배 많은 정적 램(SRAM)을 탑재했다. 이를 통해 LLM 추론 시 필요한 더 큰 ‘키-값 캐시’를 담을 수 있어 텍스트 생성 속도를 높일 수 있다. 또한 구글은 ‘Collectives Acceleration Engine’이라는 추론 시스템도 함께 적용했다. 이 시스템은 자기회귀 디코딩과 ‘연쇄 추론’ 과정에서 필요한 동기화·축소 연산을 가속하는 역할을 맡는다.
칩 간 연결 구조도 새로 설계했다. 구글은 ‘보드플라이 ICI’라는 맞춤형 네트워크 토폴로지를 도입해 최대 1152개 칩을 상호 연결할 수 있도록 했다. 모든 칩이 서로를 더 효율적으로 참조할 수 있게 설계해, 데이터 패킷이 오가는 거리와 홉 수를 줄였다는 설명이다. 구글은 전문가 혼합(MoE) 기반 LLM과 추론 모델에 필수적인 ‘올투올’ 통신에서 전체 홉 수를 최대 50% 줄일 수 있다고 밝혔다.
비용 효율도 강조했다. TPU 8i는 낮은 지연시간이 중요한 환경에서 아이언우드보다 달러당 성능이 약 80% 개선되도록 설계됐으며, 특히 초대형 MoE 프런티어 모델 서비스에 유리하다고 구글은 설명했다.
구글의 승부수, 엔비디아 중심 시장 흔들 수 있을까
구글은 TPU 8t와 TPU 8i 모두 이전 세대보다 와트당 성능이 2배 향상됐다고 덧붙였다. 전력 효율은 대형 AI 데이터센터의 수익성을 좌우하는 핵심 변수라는 점에서 의미가 작지 않다.
이번 발표는 단순한 반도체 신제품 공개를 넘어, 구글이 AI 인프라 전략을 ‘학습’과 ‘추론’으로 본격 분리했다는 신호에 가깝다. AI 서비스 경쟁이 모델 성능뿐 아니라 운영비와 응답속도, 동시 처리량으로 옮겨가는 흐름 속에서 구글은 TPU를 통해 클라우드 사업의 무게감을 더 키우려는 모습이다.
시장에서는 결국 실제 고객 도입 속도와 엔비디아 중심 생태계에 맞선 소프트웨어 호환성이 성패를 가를 변수로 본다. 다만 AI 에이전트 확산으로 학습용 반도체와 추론용 반도체 수요가 동시에 커지고 있는 만큼, 구글의 이번 TPU 이원화 전략은 향후 AI 인프라 경쟁의 중요한 분기점이 될 가능성이 있다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

