대규모 언어 모델(LLM)을 특정 업무에 최적화하기 위해 사용되던 고비용의 강화학습 방식에 혁신이 시작됐다. 미국 UC버클리와 스탠퍼드대, 데이터브릭스의 공동 연구팀은 신규 최적화 프레임워크 'GEPA(Genetic-Pareto)'를 공개하며, 복잡한 AI 시스템 구성에 있어 비용 확장성과 성능 두 마리 토끼를 모두 잡을 수 있다는 가능성을 제시했다.
GEPA는 기존의 보상 점수 기반 강화학습을 대체하는 접근법이다. 기존 강화학습 기법은 수천 번의 반복 실행과 점수 기반 피드백을 통해 서서히 모델을 조정하지만, 이 과정은 비용과 시간이 과도하게 소요된다. 반면, GEPA는 자연어 처리 능력을 활용해 모델 스스로 실행 결과를 언어로 되돌아보고, 이에 기반해 점진적으로 지침을 개선한다는 점에서 차별화를 이룬다. 이는 최대 35배 적은 실행 횟수로 유사하거나 더 나은 성능을 달성하게 만든다.
GEPA의 핵심은 세 가지 축으로 구성된다. 첫째는 유전 알고리즘 형태의 구조다. 아이디어는 모델 지침을 유전자풀로 간주하고, 이를 반복적으로 ‘돌연변이’시켜 더 나은 지침을 생성하는 방식이다. 둘째는 자연어를 통한 ‘반성(reflection)’ 시스템이다. AI 시스템이 작업 결과를 전체 실행 기록과 함께 이해하고 오류의 원인을 분석한 뒤 개선된 지시문을 생성한다. 마지막으로 ‘파레토 기반 선택’ 방식을 도입해 특정 최적점에 갇히는 한계를 극복하고, 다양한 입력에 대응할 수 있는 다각도의 해결책을 탐색한다.
연구진은 GEPA가 단순히 성능을 높이는 것을 넘어, 실행비용 절감과 개발 속도 향상에도 탁월한 효과가 있었다고 전했다. 예를 들어 질의응답 시스템을 최적화하는 데 GEPA는 3시간 정도면 충분했지만, 강화학습 방식인 GRPO는 최소 24시간이 걸렸다. 실제 실험에선 GPU 비용이 300달러(약 43만 2,000원)가 들던 기존 방식에 비해 GEPA는 불과 20달러(약 2만 8,800원) 내외로 처리하면서도 20% 높은 정답률을 기록했다.
또한 GEPA는 훈련 데이터에만 최적화돼 새 데이터에 취약해지는 문제, 이른바 ‘일반화 격차’를 완화시켰다. 이는 단순 점수가 아니라 자연어 기반의 세밀한 피드백을 바탕으로 학습하기 때문에, 보다 강건하고 유연한 추론이 가능하다는 것이 연구팀의 설명이다. 특히 기업에서 사용하는 API 기반 LLM의 경우, GEPA가 생성하는 지침 길이가 기존 대비 9.2배 짧아 실행 속도와 비용 최적화 측면에서도 효과적이라는 분석이다.
흥미로운 활용 사례도 등장했다. GEPA는 단순히 모델을 훈련하는 도구를 넘어, 추론시간 최적화 기술로도 확장 가능하다. 코드를 자동 수정해 최적화한 뒤 개발자에게 추천하는 활용 예가 대표적이다. 이는 기업의 CI/CD 파이프라인에 GEPA를 연동해 개발 생산성을 높일 수 있는 방안으로 주목받고 있다.
연구진은 GEPA가 AI 개발의 접근성을 크게 넓힐 것으로 기대하고 있다. 기존에는 RL에 익숙한 기술 전문가만이 가능했던 고성능 AI 시스템 최적화를, 이제는 도메인 지식만 가진 실무자들도 효율적으로 수행할 수 있는 시대가 가까워지고 있다는 판단이다. GEPA는 복잡한 알고리즘 이해 없이도 업무 적합성을 높이고, 반복 시도 없이 결과 중심의 최적화를 가능케 한다는 점에서 의미가 깊다.
GEPA는 단순히 AI의 성능을 높이는 기술을 넘어, AI를 누구나 다룰 수 있는 실용 도구로 진화시키는 전환점으로 평가받고 있다.