클라우드 보안 및 콘텐츠 전송 서비스를 제공하는 클라우드플레어(Cloudflare)가 대규모 장애를 겪으며, 챗GPT(ChatGPT), 클로드(Claude), 뉴저지 교통청 홈페이지 등 다양한 인터넷 서비스의 접속이 일시 중단됐다. 이번 장애는 약 5시간 30분 동안 지속됐으며, 전 세계 수억 명의 사용자들이 영향을 받았다.
클라우드플레어는 전 세계 인터넷 트래픽의 약 20%를 처리하는 글로벌 CDN(콘텐츠 전송 네트워크) 기업이다. 이 회사는 전세계 데이터센터에서 콘텐츠를 캐싱해 사용자와의 물리적 거리를 줄이는 방식으로 평균 50밀리초 미만의 지연(latency)을 제공해왔다. 하지만 이번 사태를 통해 CDN이 단순한 속도 향상 수단을 넘어, 클라우드 보안과 운영 효율성에 직결되는 핵심 인프라라는 점이 다시금 부각됐다.
이번 장애의 원인은 클라우드플레어의 CTO인 데인 크네히트(Dane Knecht)에 따르면, 봇 트래픽 필터링 기능을 구성하는 내부 서비스의 지연된 버그(latent bug)였다. 이 기능의 설정 변경 과정에서 해당 서비스가 반복적으로 충돌했고, 결과적으로 네트워크 전반에 걸친 광범위한 성능 저하로 이어졌다. 클라우드플레어는 장애 발생 약 한 시간 반 뒤 상태 페이지를 통해 문제 상황을 공지했고, 이후 원인 진단 및 복구에 착수했다.
장애는 CDN 기능 외에도 클라우드 기반 및 온프레미스 워크로드 보호를 위한 클라우드플레어 애플리케이션 서비스에도 영향을 미쳤다. 일부 지역에서는 클라우드플레어의 VPN 솔루션인 ‘WARP’도 일시 중단됐으며, 제로 트러스트 네트워크 접근(ZTNA)을 위한 ‘Cloudflare Access’도 접속 문제를 일으켰다. 해당 서비스들은 단계적으로 복구됐으며, 완전한 정상 가동은 미 동부 시간 기준 오전 11시 44분에 재개됐다.
클라우드플레어는 지난 6월에도 핵심 서비스가 2시간 반가량 멈춘 전례가 있다. 당시에는 워커스KV(Workers KV)라는 데이터 스토리지 플랫폼의 이상이 원인이었으며, 이후 회사는 인프라 개선과 진단 툴 고도화를 약속한 바 있다. 하지만 이번 사태는 이러한 개선 조치 이후에도 복원력 강화가 충분히 이뤄지지 않았다는 점을 시사하는 대목이다.
인터넷 기반 AI 서비스의 사용량이 폭증하는 가운데, 클라우드플레어와 같은 인프라 업체의 안정성은 더욱 중요한 이슈로 떠오르고 있다. 특히 챗GPT와 같은 AI 응용 프로그램이 의료, 교육, 고객 응대 등 다양한 실시간 분야에 적용되기 시작한 지금, 이러한 기반 인프라의 안정성 확보는 단순 기술적 과제를 넘어 사회적 신뢰의 문제로 확대되고 있다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>