아마존웹서비스(AWS)가 인공지능(AI) 모델의 효율성을 개선하고 학습 비용을 줄이기 위한 새로운 기능을 공개했다. 강화학습 기반의 세부 튜닝 옵션인 ‘RFT(Reinforcement Fine Tuning)’와 서버리스 커스터마이징 기능이 핵심이다. 이 기능들은 개발자들이 최소한의 기계학습 전문 지식만으로도 AI 모델을 사용자 맞춤형으로 개선할 수 있도록 설계됐다.
AWS는 3일(현지시간) 라스베이거스에서 열린 연례 콘퍼런스 ‘AWS 리인벤트 2025’에서 Amazon Bedrock과 SageMaker AI에 관련 기능을 적용한다고 밝혔다. Amazon Bedrock은 주요 AI 기업들의 ‘기초 모델(Foundational Model)’을 기반으로 생성형 인공지능 기능을 구축할 수 있는 플랫폼으로, 이번 RFT 업데이트는 강력한 기계학습 인프라 없이도 기업들이 AI 에이전트를 최적화할 수 있는 길을 열어준다.
기업들은 일반적으로 가장 성능이 뛰어난 대형 언어 모델(LLM)을 AI 에이전트에 활용하지만, 이로 인해 지나치게 높은 추론 처리량이 요구된다. 캘린더 확인이나 문서 검색 같은 반복적인 업무에서도 과도한 리소스를 사용하는 비효율이 생기고 있는 것이다. AWS는 새롭게 도입된 강화학습 기반 커스터마이징 기능이 이러한 문제를 해결할 수 있다고 보고 있다. 한 마디로 보다 적은 연산으로도 충분한 효율을 확보할 수 있는 구조다.
기존에는 강화학습 도입이 매우 높은 기술 장벽을 동반했다. 훈련 데이터 준비, 피드백 수집, 고성능 컴퓨팅 인프라 구축 등 포함해 수개월의 시간이 소요됐다. 하지만 Amazon Bedrock 상의 RFT는 개발자가 원하는 모델을 선택하고 사용자 상호작용 기록이나 훈련용 데이터를 업로드한 뒤, 보상 함수를 지정하면 모델의 튜닝 작업이 자동으로 진행된다. 이 과정은 기계학습 전문 인력이 없어도 수행 가능하며, “좋은 결과가 무엇인지에 대한 아이디어”만으로도 충분하다는 게 AWS의 설명이다.
초기에는 Amazon의 자체 모델 Nova 2 Lite가 해당 기능을 독점 지원하지만, 향후 수십 종의 모델로 확대될 예정이다. Amazon SageMaker AI에도 유사한 기능이 서버리스 형태로 추가된다. SageMaker는 기업이 자체 AI 모델을 설계하고 배포할 수 있도록 지원하는 플랫폼으로, 강화학습 옵션을 보다 쉽게 통합할 수 있도록 하는 ‘에이전틱(agentic)’ 환경을 제공할 예정이다.
에이전틱 모드에서는 사용자가 자연어로 요구사항을 입력하면 AI 에이전트가 데이터 생성부터 모델 평가까지 전체 과정을 안내한다. 반면, 고급 개발자를 위한 셀프 가이드 방식도 함께 지원돼 사용자의 선택 폭을 넓힌다. AWS는 여기에 피드백 학습, 검증 가능한 보상 기반 학습, 지도학습 방식 튜닝 등 다양한 강화학습 기법도 동시에 적용할 수 있도록 했다고 설명했다. 이 기능은 Nova뿐 아니라 Llama, Qwen, DeepSeek, GPT-OSS 모델과도 호환된다.
이와 함께 AWS는 SageMaker HyperPod에 ‘체크포인트리스 훈련’ 기능을 도입한다고도 밝혔다. 기존에는 훈련 중 오류가 발생할 경우 복구에 수십 분 이상 소요됐지만, 이제는 고객 개입 없이 수 분 안에 상태 복구가 가능하다. 이는 클러스터 전반에서 모델 상태를 실시간으로 저장함으로써 가능한 방식이다.
또 AWS는 오픈소스 AI 에이전트 프레임워크 ‘Strands Agents’를 TypeScript 언어로 이식했다. 이는 JavaScript보다 안정성이 높고 오류 가능성이 낮아, 보다 안정적인 에이전트 개발 환경을 제공할 것으로 기대된다.
이번 발표는 생성형 AI 시장 내 경쟁사들이 속속 커스터마이징 기능 강화에 나서는 흐름과 맞물려 있다. 구글(GOOGL), 마이크로소프트(MSFT) 등도 유사한 기능을 서두르고 있어, 사용자가 직접 최적의 AI 모델을 손쉽게 구축할 수 있는 환경은 더욱 가속화될 전망이다. 이러한 기술 진화는 AI가 실제 기업 환경에 깊숙이 녹아드는 촉매 역할을 할 것으로 보인다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>