AI로 1,000만 개 중소기업 신용 평가… S&P '리스크게이지' 공개

| 김민준 기자

중소기업(SME)에 대한 신용 평가와 관련해 고질적인 정보 부족 문제가 금융 업계의 핵심 과제로 꼽혀왔다. 대기업은 재무 정보가 정기적으로 공개되지만, 대부분의 중소기업은 비상장이기 때문에 접근 가능한 데이터 자체가 거의 없기 때문이다.

이 같은 문제를 해결하기 위해 S&P 글로벌 마켓 인텔리전스(S&P Global Market Intelligence)는 이른바 ‘리스크게이지(RiskGauge)’라는 AI 기반 플랫폼을 개발했다. 이 플랫폼은 2억 개가 넘는 웹사이트에서 데이터를 자동 수집하고, 이를 고도화된 알고리즘으로 분석해 각 기업의 신용 위험도를 평가한다. 이 과정은 스노우플레이크(Snowflake) 아키텍처를 기반으로 설계됐으며, 데이터 커버리지를 기존 대비 5배로 확대했다.

S&P 글로벌의 위험 솔루션 신제품 개발을 총괄하는 무디 하디(Moody Hadi)는 "리스크게이지는 데이터의 정확성과 범위를 동시에 향상시키며 고객의 분석 능력을 크게 끌어올렸다"고 설명했다.

리스크게이지의 특징은 웹 스크래핑과 머신러닝, 앙상블 학습을 조합한 다층적 자동화 프로세스다. 시스템은 기업의 홈페이지를 비롯한 다양한 웹페이지를 대상으로 반복적인 크롤링을 수행한다. 수집된 비정형 데이터는 HTML 태그나 자바스크립트 요소를 제거한 뒤, 순수 텍스트만 추출해 정제된다. 이 텍스트는 다시 스노우플레이크 클라우드에 로딩되어 다중 모델 기반 알고리즘을 통해 분석된다.

이 플랫폼이 평가하는 신용 스코어는 재무, 비즈니스, 시장 리스크 등을 종합한 결과로, 1에서 100 사이의 점수로 제공된다. 1에 가까울수록 위험도가 낮다는 뜻이다. 고객은 이 점수와 함께 기업의 금융 정보, 업종, 위치, 활동 내역 등 포괄적인 리포트를 받아볼 수 있으며, 이를 통해 경쟁 기업과의 비교도 가능하다.

무디 하디는 이러한 수단이 왜 필요한지를 설명하면서, 미국 내 중소기업 수가 약 1,000만 개에 이르지만, 그동안 S&P에서 다루던 기업은 200만 개에 불과했다고 밝혔다. 그러나 리스크게이지 도입 이후, 커버리지가 1,000만 개로 대폭 확장됐다.

이 플랫폼의 핵심 기술 중 하나는 앙상블 학습이다. 이는 수십 개의 약한 예측 모델(weak learner)을 서로 경쟁시키며 최종 판단값을 도출하는 방식으로, 개별 웹페이지의 구성 요소를 기준으로 기업 이름, 업종, 위치, 사업 활동 등을 자동 식별한다. 감성 분석 알고리즘도 함께 적용되어, 글에서 포착된 분위기까지 판단 요소로 반영된다.

리스크게이지는 매주 자동으로 사이트 활동을 스캔하지만 정보를 무분별하게 갱신하지는 않는다. 해시값(key)을 비교해 내용이 변경되지 않았을 경우에는 업데이트를 생략하고, 변화가 감지됐을 때만 정보를 갱신하는 구조로 효율성을 높였다.

다만 시스템 구축 시 겪었던 어려움도 있었다. 방대한 양의 데이터 처리와 비표준 웹사이트 형식 때문이다. 하디는 “모든 사이트가 XML이나 사이트맵 구조를 따를 것이라 기대했지만 실제로는 전혀 그렇지 않았다”며, 사이트 구조가 들쭉날쭉한 것이 가장 큰 난관이었다고 전했다.

이를 해결하기 위해 S&P는 사이트의 필수 텍스트 정보만 수집하는 모듈형 크롤링 방식을 선택했다. 로보틱 프로세스 자동화(RPA) 같은 방식은 오히려 비효율적이라는 판단이었다. 주요 타깃은 항상 텍스트이며, 자바스크립트나 코드 요소는 과감히 제거된다.

무디 하디는 이를 종합하며 “웹사이트 자체가 구조적으로 깨끗하지 않다는 점이 가장 큰 도전 과제였다”고 말했다. 그럼에도 불구하고, 리스크게이지는 데이터가 부족한 중소기업 영역에서 새로운 기준을 제시하며, 신용 평가의 지형도를 바꿔놓고 있다.