GPT-5 다음 달 출시… 오픈AI, 성능 격차 만회할까

사무실에서 핸드폰으로 챗GPT를 켜는 사람의 모습. /AI로 생성한 이미지

GPT-5의 내달 출시가 예고된 가운데, 이미 GPT-4를 앞선 AI 모델들의 성과가 눈길을 끌고 있다. 오픈AI는 주요 벤치마크에서 경쟁사들에 추월당한 지 오래여서, GPT-5를 통해 이를 만회할 만한 두드러진 결과를 입증해야 하는 부담을 안고 있다.

28일 <메트로경제신문> 취재에 따르면 지난 25일(현지시간) 미국 IT 전문 매체 더버지(The Verge)는 오픈AI의 주요 파트너사인 마이크로소프트(MS) 엔지니어들이 GPT-5 출시를 대비해 서버 확장 작업에 돌입했다고 보도했다. 아울러 오픈AI 내부에서도 보안 점검과 성능 테스트 등 고강도 검증 절차가 진행 중인 것으로 전해졌다.

샘 올트먼 오픈AI CEO 역시 최근 SNS와 팟캐스트를 통해 GPT-5의 등장이 임박했음을 암시했다. 그는 "내가 이해하지 못한 질문을 모델에 넣었더니 완벽한 답변이 돌아왔다"며 "바로 이거다 싶었다"고 언급했다.

GPT-5의 세부 사양은 아직 공식 발표되지 않았지만, 최근 출시된 경쟁 모델들의 성능을 통해 윤곽은 어느 정도 가늠되고 있다. AI 성능을 측정하는 벤치마크는 언어 이해, 추론, 수학 능력 등 다양한 과제를 통해 모델의 정밀도와 실사용 가능성을 평가하는 기준이다. 대표적으로 MMLU, GSM8K, 휴먼이밸(HumanEval) 등이 있으며, 이들 지표는 AI 기업 간 기술력 경쟁의 핵심 척도로 활용된다.

업계에서는 이미 몇 차례 출시가 미뤄진 만큼 벤치마크에 있어 높은 성적을 낼 수준의 신 모델이 나올 것으로 전망하고 있다.

AI 벤치마크 전문기관 아티피셜 애널리시스(Artificial Analysis)의 최신 인텔리전스 인덱스에 따르면, xAI가 개발한 '그록4(Grok 4)'가 총점 73점으로 종합 1위를 차지했다. 구글의 '제미나이 2.5 Pro'(70점)와 오픈AI의 'GPT-o3 Pro'(71점)도 상위권에 포함됐지만, 텍스트 기반 능력을 제외하면 멀티모달 처리나 실시간 응답성에서 다소 약하다는 평가다.

GPT-4o(2024년 5월 버전)는 68점으로 5위에 머물렀으며, 이전 버전인 GPT-4.1(53점), GPT-4o 초기 버전(41점)은 중하위권에 그쳤다. 전반적으로 오픈AI는 일부 항목을 제외하면 주요 경쟁사들에 밀리는 흐름이다.

속도 측면에서도 판세는 엇갈린다. 초당 생성 토큰 수 기준으로, 구글 '제미나이 2.5 플래시'는 초당 352토큰을 기록하며 압도적인 1위를 차지했고, 이어 그록4(202), 미니맥스의 '리즈닝 미니'(161)가 뒤를 이었다. 반면 GPT-4o는 130, GPT-4.1은 118로 다소 낮은 수치를 기록했다. 해당 지표는 응답 지연, API 처리량, 운영 비용과 직결되는 만큼 사용자 경험에 큰 영향을 미친다.

세부 항목에서도 격차는 뚜렷하다. 대학 수준의 일반지식 평가(MMLU)에서는 GPT-o3 Pro가 88%로 정답률 1위를 기록했지만, 과학 개념 추론을 다루는 GPQA에서는 그록4가 동일한 88%로 우위를 보였다. 실시간 코딩 과제를 평가하는 라이브 코드 벤치에서는 그록4가 82%를 달성하며 GPT-o3 프로(80%), GPT-4o 미니(71%)보다 높은 수치를 기록했다. 복합 추론 능력을 검증하는 'AI의 마지막 시험(Last Exam)'에서도 그록4는 23.9%로, GPT-o3 프로(17.5%)를 크게 앞섰다.