오픈AI(OpenAI)가 16일(현지 시간) 기존보다 더 똑똑하고 강력한 성능을 갖춘 최신 AI 모델인 ‘o3’와 ‘o4-mini’를 출시했다. 이번에 공개된 모델들은 더 오래 생각한 후 응답하도록 훈련된 o 시리즈의 최신작으로, 단순 호기심을 가진 일반 사용자부터 고급 연구자에 이르기까지 다양한 사용자층을 위한 챗GPT(ChatGPT) 기능의 비약적 발전을 보여준다.
이번 모델의 가장 큰 특징은 챗GPT 내의 모든 도구를 에이전트적으로 활용하고 조합할 수 있다는 점이다. 웹 검색, 파이썬을 통한 파일 분석, 시각적 입력에 대한 심층 분석, 이미지 생성 등 다양한 기능을 포함하고 있다. 특히 이 모델들은 도구를 언제, 어떻게 사용할지 추론하며 일반적으로 1분 이내에 상세하고 사려 깊은 답변을 제공할 수 있도록 훈련되었다. 오픈AI는 “최첨단 추론 능력과 완전한 도구 액세스가 결합되어 학술 벤치마크와 실제 작업에서 상당히 강력한 성능을 발휘하며, 지능과 유용성 모두에서 새로운 기준을 세웠다”고 밝혔다.
o3는 코딩, 수학, 과학, 시각적 인식 등 여러 분야에서 최첨단 기술을 선보이는 오픈AI의 가장 강력한 추론 모델이다. 코드포스(Codeforces), SWE-bench(특별한 모델별 스캐폴드 구축 없이), MMMU 등의 벤치마크에서 최고 성능을 기록했다. 이 모델은 복잡한 다면적 분석이 필요하고 즉각적인 답변이 명확하지 않은 복잡한 쿼리에 이상적이다. 특히 이미지, 차트, 그래픽을 분석하는 시각적 작업에서 뛰어난 성능을 보인다.
외부 전문가들의 평가에 따르면, o3는 어렵고 실제적인 작업에서 오픈AI o1보다 중대한 오류를 20% 적게 범하며, 특히 프로그래밍, 비즈니스/컨설팅, 창의적 아이디어 제시 분야에서 뛰어난 성능을 보였다. 초기 테스터들은 사고 파트너로서의 분석적 엄격함과 생물학, 수학, 공학 맥락에서 특히 새로운 가설을 생성하고 비판적으로 평가하는 능력을 강조했다.
o4-mini는 빠르고 비용 효율적인 추론을 위해 최적화된 더 작은 모델이다. 크기와 비용 대비 놀라운 성능을 보이며, 특히 수학, 코딩, 시각적 작업에서 뛰어나다. 2024년과 2025년 AIME 벤치마크에서 가장 좋은 성능을 기록한 모델이다. 전문가 평가에서도 전임자인 o3-mini보다 비 STEM 작업과 데이터 과학 같은 영역에서 더 우수한 성능을 보였다. 효율성 덕분에 o3보다 훨씬 높은 사용량 제한을 지원하여, 추론이 필요한 질문에 대해 높은 처리량과 볼륨을 제공하는 강력한 옵션이다.
외부 전문가 평가자들은 두 모델 모두 이전 버전보다 지시를 따르는 능력이 향상되었고, 개선된 지능과 웹 소스 포함 덕분에 더 유용하고 검증 가능한 응답을 제공한다고 평가했다. 이전 버전의 추론 모델과 비교하여, 이 두 모델은 기억과 과거 대화를 참조하여 응답을 더 개인화하고 관련성 있게 만들어 더 자연스럽고 대화적인 느낌을 준다.
오픈AI o3 개발 과정에서, 대규모 강화 학습이 GPT 시리즈 사전 훈련에서 관찰된 “더 많은 컴퓨팅 = 더 나은 성능” 트렌드와 동일한 패턴을 보인다는 것을 확인했다. 이번에는 RL에서 확장 경로를 재추적하면서 훈련 컴퓨팅과 추론 시간에 추가적인 규모를 적용했음에도 여전히 명확한 성능 향상을 보였다. 두 모델 모두 강화 학습을 통해 도구 사용을 훈련받았는데, 단순히 도구 사용 방법뿐만 아니라 언제 사용할지에 대한 추론도 배웠다. 원하는 결과에 따라 도구를 배치하는 능력은 특히 시각적 추론과 다단계 워크플로우가 포함된 상황에서 더 유능하게 만든다.
이번 모델은 처음으로 사고 과정에 이미지를 직접 통합할 수 있다. 단순히 이미지를 보는 것이 아니라, 그것으로 ‘생각’한다. 이는 시각적, 텍스트적 추론을 혼합한 새로운 문제 해결 방식을 열어준다. 이러한 능력은 다중모달 벤치마크 전반에 걸쳐 최첨단 성능에 반영되었다. 사람들은 화이트보드 사진, 교과서 다이어그램, 손으로 그린 스케치를 업로드할 수 있으며, 모델은 이미지가 흐릿하거나 반전되었거나 품질이 낮더라도 해석할 수 있다. 도구 사용을 통해 모델은 추론 과정의 일부로 즉시 이미지를 조작하여 회전, 확대, 변형할 수 있다.
오픈AI o3와 o4-mini는 챗GPT 내 도구에 완전히 접근할 수 있으며, API의 함수 호출을 통해 사용자 지정 도구에도 접근할 수 있다. 이 모델들은 문제를 해결하는 방법에 대해 추론하고, 일반적으로 1분 이내에 상세하고 사려 깊은 답변을 올바른 출력 형식으로 생성하기 위해 언제, 어떻게 도구를 사용할지 선택하도록 훈련되었다.
챗GPT 플러스, 프로, 팀 사용자는 오늘부터 모델 선택기에서 o3, o4-mini, o4-mini-high를 볼 수 있으며, 이는 o1, o3-mini, o3-mini-high를 대체한다. 챗GPT 엔터프라이즈와 에듀 사용자는 일주일 후에 접근할 수 있다. 무료 사용자는 쿼리를 제출하기 전에 작성기에서 ‘생각’을 선택하여 o4-mini를 시도할 수 있다. 모든 플랜의 속도 제한은 이전 모델 세트와 동일하게 유지된다. 오픈AI는 몇 주 안에 완전한 도구 지원을 갖춘 오픈AI o3-pro를 출시할 예정이다. 현재 프로 사용자는 여전히 o1-pro에 접근할 수 있다. o3와 o4-mini는 채팅 완료 API와 응답 API를 통해 개발자들에게도 제공된다.
해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 오픈AI
기사는 클로드와 챗gpt를 활용해 작성되었습니다.