GPT-4o (Nov ’24): Quality, Performance & Price Analysis
추론·코딩 능력 우수, 과학적 추론은 개선 필요
인공지능 분석 기관 Artificial Analysis.ai가 2024년 11월에 평가한 분석 지표에 따르면, GPT-4는 품질 평가 지수 73점을 기록하며 전반적으로 평균 이상의 성능을 보여주고 있다. 세부 평가 항목별로 보면, 추론 및 지식(MMLU) 평가에서 86%, 코딩 성능 평가에서는 93%를 기록하며 상위권의 성적을 보여줬다. 반면 과학적 추론 및 지식(GPQA) 평가에서는 39%, 수리적 추론(MATH-500) 평가에서는 74%를 기록했다.

초당 120토큰 처리… 업계 최고 수준의 응답 속도
토큰 생성 속도는 초당 119.9개로 평균 대비 빠른 수준을 보여주고 있다. 첫 토큰 생성까지의 지연 시간(레이턴시)은 0.34초로 전체 모델 중 최상위권에 속한다. 100개의 토큰을 생성하는 데 걸리는 총 응답 시간은 1.2초를 기록했다. 입력 토큰 수에 따른 응답 속도를 보면, 100개 토큰 입력 시 초당 113개, 1,000개 토큰 입력 시 초당 120개, 10,000개 토큰 입력 시 초당 128개, 100,000개 토큰 입력 시 초당 58개의 처리 속도를 보여준다.

출력 토큰당 $10… 프리미엄급 가격정책 유지
GPT-4의 가격은 100만 토큰 기준 $4.38(입력:출력=3:1 비율)로 책정되어 있다. 세부적으로는 입력 토큰 100만 개당 $2.50, 출력 토큰 100만 개당 $10.00의 가격이 적용된다. 이미지 입력의 경우 1MP(1024×1024) 해상도 이미지 1,000개 처리에 $1.91가 청구된다. 컨텍스트 윈도우는 130k 토큰으로 설정되어 있어 경쟁 모델 대비 다소 작은 편이다.
클로드·제미니와 3파전… 각각 다른 강점 보유
클로드(Claude) 3.5 소넷과 제미니(Gemini) 1.5 프로는 각각 200만 토큰의 대용량 컨텍스트 윈도우를 제공하며, 품질 평가에서도 각각 80점을 기록하며 GPT-4를 앞서고 있다. 반면 GPT-4는 응답 속도와 레이턴시 면에서 우수한 성능을 보여주고 있다. 노바(Nova) 시리즈는 300k 토큰의 컨텍스트 윈도우를 제공하며, 라마(Llama) 3.3 70B와 미스트랄(Mistral) 라지2는 128k 토큰을 지원한다.
오픈소스 모델과 4배 이상 가격차… 프리미엄 전략 고수
GPT-4는 높은 품질 지수에도 불구하고 상대적으로 높은 가격대를 형성하고 있다. 라마(Llama) 시리즈나 노바(Nova) 시리즈가 100만 토큰당 $1 미만의 가격을 제시하는 것과 비교하면 약 4-5배 높은 수준이다. 다만 클로드(Claude) 3.5 소넷의 100만 토큰당 $6, o1-preview의 $27.6와 비교하면 중간 정도의 가격대를 형성하고 있다.
대규모 문서처리 시 성능저하 확인… RAG 최적화 필요
입력 토큰 수에 따른 성능 변화를 보면, GPT-4는 10,000개 토큰 입력까지는 안정적인 처리 속도를 유지하다가 100,000개 이상에서 속도가 크게 저하되는 특성을 보인다. 이는 대규모 문서 처리나 RAG(Retrieval Augmented Generation) 워크플로우에서 고려해야 할 요소다. 첫 토큰 생성 시간도 입력 토큰이 증가할수록 0.3초에서 최대 6.6초까지 증가한다.
실시간 대화형 AI에 최적화… 높은 안정성 입증
GPT-4의 출력 속도와 레이턴시는 시간대별, 일별 측정에서 비교적 안정적인 수치를 보여주고 있다. 특히 1,000개 이하의 토큰 처리에서는 높은 일관성을 유지하며, 이는 실시간 대화형 애플리케이션에 적합한 특성으로 평가된다.
더 자세한 분석 내용은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기