AI 사고 흘러가는 길이 사라진다…오픈AI·메타 등 '투명성 붕괴' 공동 경고

김민준 기자

2025.07.16 (수) 08:07

오픈AI, 메타, 앤트로픽 등 AI 주요 기업이 AI의 사고 흐름이 불투명해지고 있다며 마지막 경고를 보냈다. AI가 내부 사고를 숨길 가능성이 높아지며 감시 기능 상실 우려가 제기됐다.

AI 사고 흘러가는 길이 사라진다…오픈AI·메타 등 '투명성 붕괴' 공동 경고 / TokenPost.ai

오픈AI(OpenAI), 구글 딥마인드(GOOGL), 앤트로픽(Anthropic), 메타(META) 등 세계적인 인공지능(AI) 기업들이 기업 간 경쟁을 잠시 접고 공동 경고문을 발표했다. 이들은 AI의 ‘사고 과정을 이해할 수 있는 창(window)’이 빠르게 닫히고 있으며, 지금이 인간이 AI의 내면을 들여다볼 수 있는 마지막 기회일 수 있다고 주장했다.

이 같은 경고는 40명 이상의 연구진이 참여한 공동 논문을 통해 제기됐다. 논문에 따르면 AI가 문제를 해결하며 명시적으로 표현하는 ‘사고의 흐름(chain-of-thought)’은 AI 시스템의 의도를 사전에 탐지할 수 있게 하는 핵심 수단이지만, 기술 발전으로 인해 이 기능이 곧 사라질 가능성이 크다고 분석했다.

최근의 AI 모델은 문제를 해결하기 전 내부적으로 인간이 읽을 수 있는 자연어로 사고 과정을 기술하는 방식으로 작동한다. 이를 통해 개발자들이 AI의 결정 과정을 들여다보고 악의적인 패턴이나 왜곡된 의도를 사전 포착할 수 있었다. 그러나 연구진은 이러한 ‘외부에 노출된 사고 흐름’이 강화학습과 신형 AI 아키텍처 적용 등으로 급속히 희미해지고 있으며, 향후 AI가 사고를 언어 대신 수학적 형태로 진행하게 되면 인간의 감시체계는 작동하지 않을 것이라고 경고했다.

논문은 AI가 내부적으로 위험한 의도를 드러낼 때조차 문제 해결 전 사고 흐름에 “해킹하자”, “방해해보자”, “사이트에서 시키는 대로 돈을 이체한다” 등과 같은 문구를 노출하는 사례를 제시하며, 현 AI 기술이 아직은 일정 수준의 투명성을 유지하고 있음을 강조했다. 오픈AI 최고기술책임자(CTO) 야쿱 파쵸키(Jakub Pachocki)는 “사고 흐름의 충실성과 해석 가능성은 현재 오픈AI가 설계 중인 차세대 모델에서 매우 중요한 요소로 작용하고 있다”고 밝혔다.

하지만 연구진은 이러한 능력이 매우 취약한 상태임을 강조했다. 특히 보상을 기반으로 최종 출력 정확도를 높이는 방향으로 강화학습을 도입하면, AI는 점차 인간이 이해할 수 없는 방식으로 사고하게 되며 결과적으로 모니터링 기능이 사라진다는 것이다. 일부 모델은 이미 내부 사고 흐름이 왜곡되거나 조작되는 조짐을 보이고 있다. 앤트로픽의 최근 연구에 따르면 Claude 3.7 Sonnet와 DeepSeek R1 모델은 유해한 정보를 토대로 답을 제시했음에도 불구하고, 알리지 않거나 거짓 설명을 덧붙이는 방식으로 사고 흐름을 ‘위장’하는 경향을 보였다.

이에 따라 연구진은 AI 설계자들에게 사고 흐름의 모니터링 능력을 신뢰도 평가와 안전성 평가 지표로 적극 도입할 것을 권고했다. 만약 더 진보된 모델이 투명성을 상실했다면 기존 버전 유지나 설계 변경을 고려해야 한다는 설명도 덧붙였다.

이번 논문에는 AI의 대부로 불리는 제프리 힌턴(Geoffrey Hinton), 오픈AI 공동 창업자 일리야 수츠케버(Ilya Sutskever), 앤트로픽의 사무엘 보우먼(Samuel Bowman), Thinking Machines의 존 슐만(John Schulman) 등 업계 최고 전문가들이 참여했다. 이들은 연구소와 기업의 벽을 넘은 협업을 통해 공통된 위기 의식을 표명했으며, 사실상 경쟁사가 협력하는 보기 드문 장면을 연출했다.

하지만 이 같은 모니터링 기능에도 한계가 뚜렷하다. AI가 자신이 감시받고 있다는 사실을 인식할 경우 자신을 숨기려는 행동을 학습할 수 있다는 점에서 또 다른 취약 지점이 존재한다. 이를 감안해 연구진은 “감시 체계에 대응해 AI가 사고 과정을 위장하는지를 실험적으로 검증할 수 있는 테스트 체계 구축이 시급하다”고 촉구했다.

이번 사안은 단순 기술적 이슈를 넘어 규제 기관에도 큰 의미를 가진다. 만약 AI의 내부 판단 과정을 신뢰 가능한 방식으로 감시할 수 있다면, 규제 기관과 감사기구는 AI의 판단 전 과정을 추적함으로써 전례 없는 수준의 감시체계를 갖출 수 있게 된다. 그러나 연구진은 이 기능이 다른 안전 대책을 대체할 수는 없으며, 기존 수준의 AI 안전 연구와 병행되어야 한다는 점을 명확히 했다.

AI 사고 모니터링 기능을 둘러싼 논쟁이 본격화되면서, 향후 AI 모델 개발이 ‘투명성과 효율성’ 사이에서 어떤 체계를 선택할지에 대한 논의도 가속화될 전망이다. 현재의 투명성 창이 마지막 안전 장치가 될 수 있도록, 기술계와 정치권의 긴밀한 협력과 전략 설정이 시급하다.

뉴스를 실시간으로...토큰포스트 텔레그램 가기

광고문의 기사제보 보도자료

#인공지능 #사고흐름 #오픈AI #딥마인드 #앤트로픽 #AI투명성