오픈AI, 기업 맞춤형 AI 위한 '강화 학습 파인튜닝' 개방… 중소기업도 GPT 활용 확장

| 김민준 기자

오픈AI는 최근 자사의 차세대 언어 모델인 'o4-미니(o4-mini)'에 대해 기업 고객이 직접 맞춤형으로 최적화할 수 있도록 강화 학습 기반의 파인튜닝(RFT: Reinforcement Fine-Tuning) 기능을 개방했다. 이로써 개발자들은 오픈AI의 플랫폼을 활용해 각 기업의 고유한 내부 용어, 업무 프로세스, 브랜드 톤에 맞는 맞춤형 AI 모델을 제작할 수 있게 됐다.

오픈AI는 자사 개발자 전용 X(구 트위터) 계정을 통해 이 같은 소식을 전하며, o4-미니 모델의 사설 버전을 개인화된 형태로 조정해 배포할 수 있는 기능을 공식적으로 지원한다고 밝혔다. 해당 모델은 일반 사용자를 위해 공개된 상태이며, 구체적인 커스터마이징은 오픈AI 플랫폼의 대시보드를 통해 이뤄진다. 이렇게 파인튜닝된 모델은 API를 통해 기업 내부 시스템에 연동하거나, 사내 챗봇 등 커스텀 GPT에 접목해 활용할 수 있다.

이를 통해 기업 임직원들은 사내 전용 챗봇을 통해 내부 지식에 접근하거나, 제품 정책에 대한 들쭉날쭉한 질문에 일관된 답변을 제공받을 수 있으며, 회사의 공식 어투를 반영한 콘텐츠 생성까지도 기대할 수 있다. 다만, 오픈AI는 미세 조정된 모델이 원본 모델보다 ‘탈옥(jailbreak)’이나 ‘환각(hallucination)’ 등의 위험에 더 취약할 수 있다며 주의가 필요하다고 강조했다.

이에 따라 이번 출시로 오픈AI는 기존의 감독 학습 기반 파인튜닝(SFT)을 넘어 보다 유연하고 정교한 과제 수행이 가능한 모델 최적화 도구를 선보이게 됐다. 특히 가격 대비 성능이 뛰어난 GPT-4.1 나노 모델엔 SFT 지원도 추가되며, 중소기업의 AI 도입 문턱을 낮췄다는 평가다.

강화 학습 기반 파인튜닝은 단순한 정답/오답이 아닌, 다양한 출력 결과를 ‘채점기’로 평가해 점수가 높은 응답 방향으로 모델 파라미터를 조정하는 방식을 택한다. 이때 채점기는 직접 만든 함수나 오픈AI가 제공하는 자동 모델을 선택해 사용할 수 있으며, 다수의 답안 중 최적의 출력을 강화하는 방식으로 기업 고유의 스타일과 정책에 유연하게 적응한다.

초기 고객사로는 Accordance AI, 하비(Harvey), 밀로(Milo), 앰비언스 헬스케어 등이 참여해 의료 코드 분류, 법률 문서 분석, 세무 정보 해석 등 다양한 영역에서 성과를 입증했다. 예컨대 Accordance AI는 세무 분석 난이도에서 정확도를 기존 모델 대비 39% 높였고, Ambience는 병원 코드화 작업에서 12포인트 성능 향상을 기록했다. 이는 명확한 과제 정의와 구조화된 출력 포맷, 평가 기준 확립이 성패를 좌우한다는 점을 뒷받침한다.

파인튜닝 요금 체계도 기존 대비 투명하고 간결해졌다. RFT는 학습에 투입된 실시간 기준 과금(RFT 기준 $100/시간) 방식이며, 대기·설정시간 같은 비활성 구간은 요금부과 대상에서 제외된다. 오픈AI 제공 채점기를 활용할 경우엔 별도 토큰 비용이 추가되지만, 외부 오픈소스 도구와 연동해 비용을 줄일 수도 있다. 또한 오픈AI는 데이터셋 공유 시 50% 할인 혜택을 제공해 실제 서비스화 장벽을 낮췄다.

결국 RFT는 기업이 자사 실정에 맞는 언어모델을 보다 정밀하게 조정하면서도 기술적 진입장벽은 낮춘다는 점에서, AI 도입을 고민 중인 조직엔 최적의 솔루션으로 떠오를 가능성이 크다. 오픈AI는 문서와 대시보드를 통해 RFT 가이드를 제공하고 있으며, 엄격한 평가 체계와 구조화를 준비한 조직이라면 이를 기반으로 커스터마이즈된 오픈AI 모델을 구축할 수 있을 것이다.