AI 인프라에 투입되는 컴퓨팅 자원과 비용이 기하급수적으로 증가하는 가운데, 모델 성능과 효율을 동시에 잡을 수 있는 새로운 해법이 떠오르고 있다. 오픈소스 AI 스타트업 허깅페이스(Hugging Face)는 "더 큰 모델"과 "더 많은 GPU"만을 좇는 비효율적인 산업 트렌드에 정면으로 문제를 제기하며, 기업들이 AI를 똑똑하게 활용하는 다섯 가지 전략을 제시했다.
허깅페이스에서 AI 및 기후 분야를 이끄는 사샤 루초니(Sasha Luccioni)는 기업들이 더 큰 연산량을 추구하는 데만 몰두하고 있다고 지적한다. 하지만 복잡하고 무거운 모델이 반드시 높은 성능을 보장하는 것은 아니며, 오히려 용도에 맞는 소형 모델이 더 뛰어난 효율을 보여주는 사례가 급증하고 있다. 실제 루초니가 테스트한 바에 따르면, 특정 작업에 맞춘 태스크 특화형 모델은 범용 대형 모델 대비 최대 30배 적은 에너지로 동일한 수준의 정확도를 구현할 수 있었다.
그 대안으로 허깅페이스는 '모델 정제(distillation)' 방식을 권한다. 이는 대형 모델로 먼저 학습한 뒤, 이를 기반으로 특정 업무에 최적화된 경량 버전을 개발하는 기술이다. 예컨대, 초대형 생성 모델 'DeepSeek R1'는 최소 8개의 GPU가 있어야 운용 가능하지만, 정제된 경량 모델은 1개의 GPU에서도 구동될 수 있을 만큼 가볍다. 과거에는 이를 위한 기반 모델 자체를 찾기 어려웠지만, 이제는 공개된 오픈소스 모델을 재활용함으로써 초기 학습 비용까지 줄일 수 있는 환경이 갖춰지고 있다.
AI 활용에서 '기본값(Default)' 설정의 영향을 최소화하는 것도 중요한 전략이다. 루초니는 "사용자가 원하지 않아도 자동으로 작동하는 생성형 AI 기능이 오히려 비용을 야기한다"고 말했다. 예컨대, 단순한 질문에도 GPT-5가 전체 추론 과정을 거치는 것은 불필요한 연산을 유발한다. 그녀는 분석형 AI 기능을 요청 기반으로 바꾸고, 자원 소비가 큰 모드는 사용자가 명시적으로 동의할 때만 작동하도록 유도해야 한다고 말했다.
이와 더불어, 하드웨어 최적화도 중요한 요소다. 모델이 언제, 어떻게 초과 자원을 사용하는지를 분석한 루초니의 연구에 따르면, 연산 배치 단위(batch size)나 부동 소수점 정밀도(precision)와 같은 요소들을 세밀히 조정하는 것만으로도 상당한 에너지 절감이 가능하다. 특히 배치 크기는 사용되는 GPU의 종류와도 밀접한 관계가 있어, 단순히 더 많은 데이터를 동시에 처리하려는 접근은 오히려 에너지 낭비를 초래할 수 있다.
허깅페이스는 올해 초부터 'AI 에너지 점수(AI Energy Score)' 시스템을 도입해, 모델의 전력 효율성을 1~5등급으로 공개해왔다. 이는 에너지 효율 가전제품에 부여되는 'Energy Star'와 유사한 형태로, 모델 개발자들이 효율성을 경쟁 요소로 삼도록 유도하고 있다. 현재 홈페이지에서는 효율성 순으로 모델을 비교할 수 있는 리더보드도 제공된다.
궁극적으로 루초니는 AI 개발의 접근 방식 자체를 바꿔야 한다고 강조한다. 더 많은 GPU나 연산량 확보만이 솔루션이 아니라, 작업에 적합한 아키텍처와 데이터 선택이 훨씬 높은 성과를 만들어낸다는 것이다. 즉, 무작정 자원을 늘리기보단 스마트한 설계와 정교한 데이터 활용이 장기적으로 더 높은 ROI를 낳는다는 메시지다.
허깅페이스의 제안은 이미 한계에 부딪힌 AI 확장성을 극복하는 출발점으로 주목받고 있다. 비용과 성능 사이에서 해답을 찾는 기업이라면, 이제는 '더 많이'가 아닌 '더 똑똑하게'를 고민할 때다.