토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

AI, 이제 ‘생각’도 한다…에너지 기반 트랜스포머로 추론 능력 진화

프로필
김민준 기자
댓글 0
좋아요 비화설화 0

일리노이 및 버지니아대 연구진이 시스템2 추론 능력을 갖춘 '에너지 기반 트랜스포머(EBT)'를 발표했다. 적은 데이터와 연산량으로도 높은 성능을 구현하며 AI 모델 설계의 새로운 방향성을 제시했다.

 AI, 이제 ‘생각’도 한다…에너지 기반 트랜스포머로 추론 능력 진화 / TokenPost.ai

AI, 이제 ‘생각’도 한다…에너지 기반 트랜스포머로 추론 능력 진화 / TokenPost.ai

AI 모델이 점점 더 복잡하고 고차원적인 사고를 요구받는 현실에서, 기존 대형 언어 모델(LLM)의 한계를 극복할 수 있는 새로운 패러다임이 제시됐다. 일리노이 대학교 어배너-섐페인 캠퍼스와 버지니아 대학교 연구진은 기존 트랜스포머 아키텍처의 한계를 보완하면서도 범용성 높은 추론 능력을 지닌 ‘에너지 기반 트랜스포머(Energy-Based Transformer, EBT)’를 개발했다고 밝혔다. 이 아키텍처는 AI가 추론 중 유연하게 연산량을 조절하면서 더 나은 답을 도출하도록 설계됐다.

전통적인 언어 모델은 직관적이면서도 빠르게 답을 생성하는 ‘시스템 1’ 사고에 특화돼 있다. 그러나 복잡한 문제 해결에 필요한 ‘시스템 2’ 사고, 즉 느리지만 논리적인 추론 능력은 여전히 기술적 도전 과제로 남아 있다. 그동안 산업계는 강화학습 기반의 강화토큰 생성이나 최적의 정답을 선택하는 ‘best-of-n’ 방식 등 다양한 추론 기법을 적용해왔지만, 특정 분야에만 효과적이고 창의성이나 일반화 능력에서는 취약하다는 비판을 받아왔다.

EBT는 이러한 한계를 극복하기 위한 새로운 접근법을 제안한다. 에너지 기반 모델(Energy-Based Model, EBM)의 철학을 계승한 EBT는 답을 단순 생성하는 대신, 학습된 검증 함수로 입력과 예측값 사이 ‘호환성’을 에너지 점수로 계산하고, 점수를 최소화하는 방식으로 예측값을 수정해 나간다. 즉, ‘답을 만드는 것’보다는 ‘주어진 답이 맞는지를 판단하고 개선하는 것’에 초점을 둔 구조다. 이 과정은 곧 AI가 스스로 사고하는 방식과 비슷한 점진적 최적화, 즉 생각하는 과정을 구현한 셈이다.

연구진은 EBT를 트랜스포머 아키텍처와 호환되도록 두 가지 형태로 설계했다. 하나는 GPT와 유사한 디코더 기반의 모델이며, 다른 하나는 BERT 구조와 비슷한 양방향 모델이다. 이들은 사전 학습(pretraining) 과정에서 기존 Transformer++ 대비 최대 35% 더 효율적인 확장성(scaling)을 기록했고, 추론(inference) 단계에서는 추론 스텝을 늘릴수록 성능이 대폭 향상되는 ‘생각할수록 똑똑해지는’ 특징을 보였다. 실제 언어 모델링 성능에서는 Transformer++보다 29% 높은 개선률을 달성했으며, 이미지 노이즈 제거 작업에서도 기존 모델보다 성능이 우수하면서도 연산 횟수를 99%나 절감하는 효과를 보였다.

EBT는 특히 훈련 데이터 분포를 벗어나는 이질적 상황(out-of-distribution, OOD)에서 강력한 일반화 능력을 보여줬다. 이는 AI가 과거에 학습하지 않은 새로운 문제에 직면했을 때도 높은 성능을 유지할 수 있다는 것을 의미한다. 연구팀은 이 같은 특성이 “데이터 분포의 변화 크기가 클수록 사고 기반 추론의 성과 또한 비례해 향상된다”고 강조했다.

데이터 효율성도 주목할 만하다. EBT는 적은 양의 정보만으로도 강력한 성능을 끌어낼 수 있기 때문에, 고품질 데이터를 수집하기 어려운 환경에서도 효과적으로 활용될 수 있다. 이는 현재처럼 데이터 접근성이 AI 발전의 병목 요인이 된 상황에서 산업계에 중요한 대안이 될 수 있다.

무엇보다 EBT는 기존 하드웨어 및 연산 프레임워크와도 높은 호환성을 보인다. GPU, TPU뿐 아니라 FlashAttention-3 등 최신 최적화 알고리즘을 활용할 수 있으며, 기존 피드포워드 기반 디코딩 방식이나 일반적인 추론 파이프라인에도 쉽게 통합할 수 있도록 설계됐다.

이처럼 에너지 기반 설계 철학을 바탕으로 한 EBT는 더 적은 비용으로, 더 깊이 사고할 수 있는 AI를 만드는 주요 열쇠로 평가된다. AI가 단지 빠르게 대답하는 존재를 넘어, 신뢰 가능한 사고 파트너로 진화하기 시작한 셈이다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1