크라우드스트라이크(CRWD)의 78분 간의 시스템 마비 사태가 발생한 지 1년이 지난 지금, 보안 업계는 여전히 당시의 충격에서 교훈을 찾고 있다. 2024년 7월 19일에 발생한 이번 사고는 단순한 기술적 오류였지만, 전 세계 수백만 장비에 영향을 주며 사이버 보안 인프라 전반의 취약점을 드러낸 사건으로 남았다.
문제의 시작은 채널 파일 291(Channel File 291)이라는 업데이트였다. 새벽 4시 9분 배포된 이 업데이트는 단 78분 만에 롤백되었지만, 이미 전 세계 윈도우 시스템 850만 개가 동시에 다운되는 대혼란이 벌어졌다. 항공 산업은 특히 큰 타격을 입었으며, 총 5,000편 이상의 항공편이 취소되었고, 미국 주요 500대 기업의 손해만 해도 54억 달러(약 7조 7,700억 원)에 달했다는 분석이 나왔다.
이번 사태는 악의적인 해킹이나 외부 공격이 아닌, 내부 검증 과정의 허점이 빚어낸 '무의도적 재앙'이었다. 텔레사인(Telesign)의 슈테펜 슈라이어 부사장은 해당 사건을 두고 “해킹 시도도 없었고 데이터 유출도 없었지만, 단 78분의 내부 실수로 글로벌 시스템이 붕괴됐다”며 절대 잊을 수 없는 순간이라고 평했다.
사고의 원인은 명확했다. 크라우드스트라이크의 분석 결과에 따르면, IPC 템플릿 구조 내 필드 불일치, 런타임 배열 경계 미확인, 콘텐츠 검증기 내부 논리 오류 등 사소하지만 복합적인 품질관리 실패가 연쇄적으로 이어졌다. 이는 소프트웨어 배포 시 단계적 테스트와 점진적 적용 전략이 왜 필요한지를 여실히 보여준다.
그러나 이 사건은 크라우드스트라이크가 위기를 어떻게 관리하고 극복했는지를 보여준 전환점이 되기도 했다. 마이크 센토나스 사장은 “이후 1년간 표면적인 수정을 넘어, 보안을 '내재된 회복력(Resilient by Design)' 구조로 재구성하는 데 초점을 맞췄다”고 밝혔다. 이 프레임워크는 자동 복구 기능, 안전모드 진입, 자동화된 콘텐츠 배포 정책, 글로벌 인프라 모니터링 전용 센터 및 복수 운영체제·커널 조합 테스트 실험실(Falcon Super Lab) 등을 포함한다.
업계 전반에서도 파장이 컸다. 사이버 보안을 담당하는 최고책임자(CISO)들은 이번 사건을 계기로 공급망에 속한 벤더의 리스크를 보다 면밀히 분석하기 시작했다. 특히 엔크립트 AI(Enkrypt AI)의 CSO로 임명된 메릿 베어는 “해당 장애는 프로토콜 누락에서 비롯된 것으로, 단지 불운이 아니라 기본적인 CI/CD(지속 통합/지속 배포) 시스템 관리 실패였다”고 지적했다. 또한 “경영진이 명확하게 책임을 인정하고 위기를 수습한 점은 조직문화상 매우 긍정적인 사례”라고 평가했다.
크라우드스트라이크는 이를 계기로 고객 대응 전략도 대폭 재정비했다. 조지 커츠 CEO는 “당시의 혼란이 우리를 규정하지 않는다. 중요한 건 사건 이후 우리가 어떤 선택을 했느냐”라며, 고객과의 신뢰를 기반으로 보다 견고한 플랫폼을 구축했다고 밝혔다.
한편, 향후 과제는 기존 인프라의 복원력을 구축함과 동시에 AI 기반 보안 체계로의 전환이다. 베어는 “AI가 인프라 관리와 보안 의사결정에 관여하는 시대가 도래하고 있으며, 이런 환경에서는 사람과 AI가 함께 재난을 예측하고 막을 수 있도록, 이중 검증된 프로세스가 필요하다”고 조언했다.
크라우드스트라이크는 최근 CEO 직속 ‘최고회복책임자(Chief Resilience Officer)’를 임명하고, 커널 외에서도 동작 가능한 프로젝트 애센트(Project Ascent), 마이크로소프트와의 윈도우 엔드포인트 협업, ISO 22301 인증 획득 등 통합적인 서비스 강화에 속도를 내고 있다.
1년이 지난 현재, 보안 업계는 이 사건을 단순한 해프닝이 아닌 ‘사전 예방’과 ‘회복 설계’의 중요성을 일깨운 교훈으로 삼고 있다. 크라우드스트라이크는 “보안의 종착지는 완벽함이 아니라 유연한 복원력이며, 실수가 발생했을 때 시스템이 지탱할 수 있는 구조가 진짜 보안”이라며, 앞으로도 이 철학을 유지하겠다는 뜻을 밝혔다.
이제 보안 전략은 공격자를 막는 것에 그치지 않고, 내부 시스템이 실패해도 서비스가 지속될 수 있는 ‘자체 신뢰(self-trust)’의 시대로 이행하고 있다. 78분의 혼란이 남긴 이 유산은, 오늘날 사이버 보안 업계의 체질 개선에 결정적 토대를 제공했다.