오픈AI, '스트로베리' 로 불리던 추론 AI 모델 'O1' 시리즈 공개

오픈AI(OpenAI)가 복잡한 문제 해결에 특화된 새로운 인공지능(AI) 모델 ‘O1’ 시리즈를 공개했다. O1은 기존 모델보다 더 오랜 시간 ‘생각’한 후 응답하도록 설계되어 과학, 코딩, 수학 분야에서 더 어려운 문제를 해결할 수 있다고 오픈AI는 밝혔다. 이번 발표에는 O1의 주력 모델인 ‘O1-preview’와 함께 비용 효율적인 버전인 ‘O1-mini’도 포함되었다.

강화된 추론 능력으로 복잡한 문제 해결

오픈AI에 따르면 O1은 물리학, 화학, 생물학 분야의 난해한 벤치마크 과제에서 박사과정 학생들과 유사한 수준의 성능을 보였다. 특히 수학과 코딩 분야에서 두각을 나타냈는데, 국제 수학 올림피아드(IMO) 예선 시험에서 기존 GPT-4 모델이 13%의 정답률을 보인 것에 비해 O1은 83%의 정답률을 기록했다.

코딩 능력 평가에서도 O1은 코드포스(Codeforces) 대회에서 상위 89% 수준의 성적을 거뒀다. 이는 기존 모델들보다 크게 향상된 결과다.

O1의 주요 특징은 ‘사고 연쇄(Chain of Thought)’ 기술을 활용한다는 점이다. 이 기술을 통해 O1은 사람처럼 문제를 해결하기 전에 더 많은 시간을 들여 생각할 수 있게 되었다. 훈련 과정에서 O1은 사고 과정을 정제하고, 다양한 전략을 시도하며, 자신의 실수를 인식하는 법을 학습했다.

비용 효율적인 O1-mini 모델 출시

O1 시리즈의 일환으로 오픈AI는 O1-mini 모델도 함께 공개했다. O1-mini는 O1-preview보다 80% 저렴한 비용으로 사용할 수 있으면서도 STEM(과학, 기술, 공학, 수학) 분야에서 뛰어난 성능을 보이는 것이 특징이다.

O1-mini는 고등학교 수준의 수학 대회인 AIME(American Invitational Mathematics Examination)에서 70%의 정답률을 기록했는데, 이는 O1-preview(44.6%)를 크게 앞서는 결과다. 코딩 능력 평가에서도 O1-mini는 코드포스에서 1650의 엘로(Elo) 레이팅을 달성해 상위 86% 수준의 성능을 보였다.

오픈AI는 “O1-mini가 STEM 추론에 최적화되어 있어 광범위한 세계 지식이 필요 없는 응용 프로그램에 비용 효율적인 모델이 될 것”이라고 설명했다.

안전성과 윤리성 강화

오픈AI는 O1 시리즈의 개발 과정에서 안전성과 윤리성에 큰 비중을 뒀다. 새로운 안전 훈련 접근법을 통해 O1이 안전 및 정렬(Alignment) 지침을 더 효과적으로 준수할 수 있게 했다고 밝혔다.

O1은 가장 어려운 ‘탈옥(Jailbreaking)’ 테스트에서 GPT-4가 22점(0-100점 척도)을 받은 것에 비해 84점을 기록했다. 이는 O1이 안전 규칙을 우회하려는 시도에 대해 더 강력하게 대응할 수 있음을 의미한다.

O1-mini 역시 O1-preview와 동일한 정렬 및 안전 기술을 사용해 훈련되었다. 내부 버전의 스트롱리젝트(StrongREJECT) 데이터셋에서 O1-mini는 GPT-4보다 59% 높은 탈옥 방지 능력을 보였다.

오픈AI는 또한 미국과 영국의 AI 안전 연구소와 협력 계약을 체결하고, 이들 기관에 O1의 연구 버전에 대한 조기 접근 권한을 부여했다. 이는 모델의 공개 전후로 연구, 평가, 테스트를 수행하는 과정을 확립하는 중요한 첫 걸음이라고 회사 측은 설명했다.

시스템 카드를 통한 투명성 제고

오픈AI는 O1 시리즈의 안전성 평가 결과를 상세히 기록한 ‘시스템 카드(System Card)’를 함께 공개했다. 시스템 카드에는 O1의 현재 안전 문제 해결 방안과 미래 위험에 대한 대비책이 포함되어 있다.

시스템 카드에 따르면, O1은 ‘준비성 프레임워크(Preparedness Framework)’ 평가에서 전반적으로 ‘중간’ 수준의 위험도를 기록했다. 특히 사이버보안과 모델 자율성 분야에서는 ‘낮음’ 수준, CBRN(화학, 생물학, 방사능, 핵) 및 설득력 분야에서는 ‘중간’ 수준의 위험도를 보였다.

오픈AI의 안전 자문 그룹, 안전 및 보안 위원회, 그리고 이사회는 O1에 적용된 안전 및 보안 프로토콜과 심층적인 준비성 평가를 검토한 후 O1의 출시를 승인했다고 밝혔다.

복잡한 문제 해결 필요한 분야 활용 예상

O1은 특히 과학, 코딩, 수학 등 복잡한 문제 해결이 필요한 분야에서 유용하게 활용될 것으로 예상된다. 예를 들어 의료 연구자들은 세포 시퀀싱 데이터 주석 작업에, 물리학자들은 양자 광학에 필요한 복잡한 수학 공식 생성에, 개발자들은 다단계 워크플로우 구축 및 실행에 O1을 사용할 수 있다.