GPT-5 벤치마크 점수
이 글은 AI로 번역되었습니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
Comment
GPT-5특히 “Thinking mode”에서 모든 평가된 벤치마크 전반에 걸쳐 환각률이 크게 감소했다. LongFact-Concepts와 LongFact-Objects에서 GPT-5는 각각 0.7%와 0.8%의 환각률을 기록했으며, 이는 OpenAI o3의 4.5%와 5.1%에 비해 크게 낮다. FActScore 데이터셋에서도 GPT-5는 1.0%로, o3의 5.7% 대비 안정적인 성능을 보였다. 이러한 수치는 GPT-5가 개방형 질문에 응답할 때 사실적 근거가 훨씬 더 탄탄함을 시사한다.
HealthBench와 실사용 프롬프트에서의 강력한 성과
의료 질의처럼 위험도가 높은 상황에서도 GPT-5는 우수한 성능을 이어 간다. HealthBench에서 GPT-5(Thinking mode)는 환각률이 1.6%에 불과하며, Thinking mode 없이도 3.6%에 그친다. 이는 OpenAI o3의 12.9%와 GPT-4o의 15.8%보다 모두 크게 낮다. 일상적인 사용자 질문에서도 ChatGPT 트래픽 프롬프트 기준 GPT-5의 오류율은 4.8%로, Thinking mode 없이의 GPT-5(11.6%)와 GPT-4o(20% 이상) 대비 현저히 낮다. 이는 GPT-5가 실제 사용 환경에서 더 신뢰할 수 있음을 보여 준다.

시각 및 수학 과제 전반의 학술 성능
GPT-5는 학술 벤치마크에서도 강력한 성과를 보인다. 대학 수준의 시각적 문제 해결을 평가하는 MMMU에서 GPT-5는 정확도 84.2%를 기록해 o3의 82.9%와 GPT-4o의 72.2%를 앞섰다. 수학 분야에서는 GPT-5 Pro (Python)이 AIME 2025에서 100%를 달성했으며, 툴 사용 및 비사용 설정 전반에서도 거의 완벽한 결과를 냈다. OpenAI o3도 우수하지만 다소 뒤처졌고, GPT-4o는 큰 격차로 뒤따랐다. 이러한 벤치마크는 학술적 제약하에서 GPT-5가 추론과 구조적 논리 모두에서 강점을 지닌다는 것을 확인해 준다.

소프트웨어 엔지니어링 및 코드 편집에서의 압도적 우위
소프트웨어 과제에서도 GPT-5의 우위가 두드러진다. SWE-bench Verified 벤치마크에서 GPT-5는 Thinking mode로 정확도 74.9%를 기록해 o3의 69.1%와 GPT-4o의 30.8%를 앞질렀다. 다국어 코드 편집을 평가하는 Aider Polyglot 벤치마크에서도 GPT-5는 88%를 기록했으며, o3는 79.6%, GPT-4o는 25.8%에 그쳤다. 이 결과는 특히 고급 추론이 필요한 상황에서 GPT-5가 복잡한 엔지니어링 워크플로를 훨씬 더 잘 처리한다는 점을 보여 준다.

참고로, o3 벤치마크는 다소 혼란스럽습니다. 정확도가 69%인데도 비(Thinking) 설정보다 낮게 보이는 이유가 무엇일까요?
추가 벤치마크






구형 ChatGPT 모델 사용 중단
GPT-5 출시의 일환으로 OpenAI는 ChatGPT의 모든 구형 모델을 사용 중단할 예정이다. 이에 따라 GPT-3.5, GPT-4, GPT-4-turbo를 포함한 모든 레거시 변형 모델이 플랫폼에서 완전히 제거된다. 모든 사용자는 GPT-5 또는 그 변형으로 전환된다. 이 변화는 모든 사용 등급 전반에서 GPT-5가 통합된 고성능 대체재가 될 것이라는 OpenAI의 확신을 보여 준다.
GPT-5 액세스 등급화와 향후 전환 정책
GPT-5로의 전환은 등급화된 시스템을 통해 진행된다. 무료 등급 사용자는 처음에는 GPT-5로 시작하지만, 이후 경량 변형인 GPT-5 mini로 전환된다. Plus 구독자는 무료 등급보다 더 높은 사용 한도가 적용된 GPT-5 모델에 접근할 수 있다. Pro 사용자는 GPT-5에 무제한으로 접근할 수 있어, 가장 진보된 버전에 끊김 없이 접근해야 하는 사용자에게 최적의 선택이 된다.
신뢰성, 학술 벤치마크, 엔지니어링 과제 전반에서 최고 성능을 보이며 GPT-5는 앞으로 ChatGPT의 핵심 토대가 되었다. OpenAI는 모델 라인업을 GPT-5 중심으로 통합하고 있으며, 일상적 사용부터 전문적 사용까지 모두를 위한 단일 표준으로 GPT-5를 자리매김하고 있다.
Add a comment