오데일리에 따르면 OpenAI는 실제 과학 연구 환경에서 AI 시스템의 역량을 측정하는 새 평가 기준 '라이프사이벤치'를 공개했다.
라이프사이벤치는 박사 학위와 바이오·제약 업계 경험을 갖춘 연구자 173명이 작성한 750개 과제로 구성됐다. 7개 연구 흐름과 7개 생물학 분야를 다루며, 단순 지식 확인이 아닌 증거 통합, 실험 설계, 데이터 분석, 과학적 추론, 연구 커뮤니케이션 능력 평가에 초점을 맞췄다.
OpenAI에 따르면 전체 과제의 79% 이상은 다단계 추론을 요구하며, 과제당 평균 약 4단계의 추론 과정이 필요하다. 평가에는 논문, 도표, 염기서열 데이터, 구조 파일 등 실제 연구 관련 첨부 자료 1,062개가 포함됐다.


