빠르게 발전하는 인공지능(AI) 환경에서 '관측성'이 대두되며 기업들의 관심을 끌고 있다. 파울 애플비(Paul Appleby) 버타나 CEO에 따르면 이는 AI 공장의 인프라 복잡성을 극복하기 위한 핵심 요소다. 기업들이 AI 실험 단계에서 대규모 배치 단계로 전환함에 따라, 시스템의 안정성을 유지하는 것은 점점 더 큰 도전 과제가 되고 있다.
애플비는 관측성 플랫폼이 AI 공장 구축 과정에서 전체 환경을 모니터링해야 한다는 점을 강조하며, 개별 요소보다는 시스템 전체의 동작을 이해할 필요가 있다고 밝혔다. AI 공장은 컴퓨팅, 저장, 네트워킹, 데이터 파이프라인 등 다양한 계층이 얽혀 있는 구조로, 관측성 플랫폼은 이러한 요소들의 상호작용을 시스템의 일부로 인식해야 한다는 것이다.
AI 시스템이 금융, 통신, 의료 등 핵심 산업에 깊숙이 자리 잡으면서, 시스템의 '회복탄력성'은 기술적인 선택사항이 아닌 필수적인 사업 요구사항이 되었다. 애플비는 AI의 실패율을 줄이기 위해서는 새로운 형태의 관측성을 도입해야 한다고 강조했다.
뿐만 아니라, AI 작업을 지원하는 대규모 GPU 클러스터의 운영 효율성도 중요해지고 있다. 관측성 툴은 인프라 전체의 자원 활용 수준을 모니터링함으로써, 고비용의 컴퓨팅 자원이 효율적으로 사용되도록 보장해야 한다. 이러한 효율성은 전기 및 기타 환경적 비용 절감에도 기여할 수 있으며 이는 현대 기업들에게 매우 중요한 요소로 자리잡고 있다.


