오픈AI, GPT-4.1 출시...코딩·지시 수행·장문 이해 능력↑

오픈AI가 14일(현지 시간) GPT-4.1 시리즈를 출시했다./ 오픈AI 홈페이지 화면 캡처

오픈AI가 14일(현지 시간) 코딩, 사용자 지시 수행, 장문 맥락 이해 능력이 대폭 향상된 GPT-4.1 시리즈를 선보였다.

이날 오픈AI가 API(응용 프로그래밍 인터페이스)를 통해 새롭게 공개한 모델은 GPT-4.1, GPT-4.1 미니, GPT-4.1 나노 등 모두 세 가지다.

이번에 공개된 모델들은 기존 GPT-4o와 GPT-4o 미니 대비 전반적인 성능이 개선됐으며 특히 코딩 정확도와 지시 이행 능력, 긴 문맥 이해력에서 뛰어난 결과를 보였다.

GPT-4.1 미니는 소형 모델임에도 불구하고 지능 평가에서 전작과 비슷하거나 더 우수한 성적을 기록했다. 지연 시간은 절반 가까이 줄고 비용은 83% 절감됐다. GPT-4.1 나노는 가장 빠르고 저렴한 모델로, 분류나 자동 완성처럼 실시간성이 중요한 작업에 적합하다.

GPT-4.1은 자율적으로 코딩 문제를 해결하는 실력이 늘었고, 프론트엔드 개발(사용자가 직접 접하는 앱이나 웹사이트의 화면을 만드는 것)에서 우수한 성능을 나타냈다.

소프트웨어 엔지니어링 능력을 평가하는 벤치마크(SWE-bench Verified)에서 GPT-4.1은 54.6%의 작업을 정확히 수행했다. 반면, GPT-4o는 33.2%에 그쳤다.

프론트엔드 개발 분야에서도 뛰어난 역량을 보였다. GPT-4.1은 GPT-4o보다 기능적이고 시각적으로 우수한 웹 애플리케이션을 생성했으며, 비교 실험에서 평가자의 80%가 GPT-4.1이 만든 결과물을 더 선호하는 것으로 나타났다.

GPT-4.1은 지시 사항을 정확히 따르는 능력도 개선됐다. 오픈AI는 모델 성능을 측정하기 위해 ▲XML 등 지정된 응답 형식을 요구하는 '형식 준수' ▲피해야 할 행동을 명시한 '부정 지시' ▲지정된 순서대로 작업을 수행하는 '순서 이행' ▲필수 정보를 포함하는 '내용 조건' ▲출력 결과를 정렬하는 '순위 지정' ▲알지 못하는 내용은 "모른다"고 응답하는 '과잉 자신 억제' 등의 항목을 평가했다.

개발자의 피드백을 바탕으로 만든 이 평가 체계에서 GPT-4.1은 "JSON 형식으로 응답하세요", "고객 지원 연락을 요청하지 마세요", "먼저 이름을 묻고, 이메일을 물어보세요", "영양 계획시 단백질 함량 반드시 표기", "인구 수 기준으로 정렬", "답을 모를 경우 고객 지원 센터 이메일을 알려주세요" 등의 고난도 지시 사항을 전작보다 더 정확히 수행했다.

장문 맥락 처리 능력도 업그레이드됐다. GPT-4.1은 세법 규정처럼 복잡한 내용을 정확히 해석하는 데 뛰어난 성능을 보이며 '블루 제이(Blue J)'의 세무 시나리오 평가에서 GPT-4o 대비 53% 높은 정확도를 기록했다.

또 톰슨 로이터의 AI 법률 도우미 '코카운슬'에 GPT-4.1을 도입해 테스트한 결과, 문서 리뷰 정확도가 전작과 비교해 17% 향상됐다. 모순되는 조항이나 보완 문맥을 정확히 식별해냈고, 법률 분석과 의사 결정에 필요한 정교한 문서 해석 능력이 강화됐다.

GPT-4.1 시리즈는 현재 API를 통해서만 제공된다. 챗GPT에서는 최신 GPT-4o 모델에 GPT-4.1의 일부 성능이 점진적으로 통합되고 있으며, 향후 더욱 많은 개선 사항이 반영될 예정이다. 한편, 연구용으로 제공됐던 GPT-4.5 프리뷰 모델은 오는 7월 14일부로 API 지원이 종료된다.