• Home
  • AI Report
  • ‘AI vs 인간’ 지능 격차 좁혀진다…AI 지능 측정해보니 ‘인간의 70% 수준’

‘AI vs 인간’ 지능 격차 좁혀진다…AI 지능 측정해보니 ‘인간의 70% 수준’

GAIA: a benchmark for General AI Assistants
이미지출처: H2O.ai 블로그

GAIA: a benchmark for General AI Assistants



작년보다 6배 성능 향상…AI 지능 진화 속도 가속

엔드투엔드(End-to-End) 생성형AI 솔루션 기업 H2O.ai가 자사의 AI 에이전트 ‘h2oGPTe’로 GAIA(General AI Assistants) 벤치마크에서 65%의 점수를 기록하며 1위를 달성했다. H2O.ai의 h2oGPTe 에이전트는 65%의 점수를 달성해 구글의 랭펀 에이전트(Langfun Agent, 49%), 마이크로소프트 리서치(38%), 허깅페이스(33%)를 큰 차이로 제치고 1위를 차지했다. 이는 범용 AI 에이전트 분야에서 H2O.ai의 우위를 입증하는 획기적인 성과다.

GAIA 벤치마크는 메타-페어(Meta-FAIR), 메타-젠AI(Meta-GenAI), 허깅페이스, 오토GPT(AutoGPT) 팀이 공동 개발한 평가 지표로, 실제 업무 환경에서 AI의 추론 능력과 다중 모달 처리, 도구 활용 능력을 종합적으로 평가한다.

GAIA a benchmark for General AI Assistants



GAIA, 300개 실무 과제로 AI 실용성 검증

GAIA는 실제 업무 환경에서 AI 시스템의 실용성을 측정하는 벤치마크다. 수백 개의 과제로 구성되어 있으며, 각 과제는 심도 있는 조사, 데이터 분석, 문서 처리, 추론 능력을 요구한다. 대학 학위 소지자 기준 인간은 이 벤치마크에서 92%의 점수를 기록하며, 300개의 테스트를 모두 해결하는 데 수일이 소요된다. h2oGPTe 에이전트는 경쟁사들을 제치고 일관된 견고성, 정확성, 효율성을 보여주며 숙련된 인력이 필요한 기업 활용 사례에 대한 준비가 완료되었음을 입증했다.

H2O.ai는 복잡한 구조 대신 적응성과 실용성을 강조한 접근 방식을 채택했다. 안트로픽(Anthropic)의 소네트 3.5(Sonnet 3.5) 모델을 기반으로 하여 오디오-비주얼 이해와 추론을 위한 특화 모델들을 결합했다. 특히 단일 에이전트 아키텍처, 모듈식 도구 통합, 강력한 보안 장치 등을 통해 실제 업무 환경에서 필요한 다양한 작업을 효과적으로 처리할 수 있도록 설계했다.

GAIA a benchmark for General AI Assistants
GAIA a benchmark for General AI Assistants



인간 지능까지 30% 남았다

H2O.ai의 창업자이자 CEO인 스리 암바티(Sri Ambati)는 이번 성과에 대해 “AI가 GAIA 벤치마크에서 인간 수준의 일반지능까지 단 30%만을 남겨두게 됐다”고 설명했다. 그는 GAIA의 개방형 문제가 객관식 문제를 활용하는 MMLU보다 지능을 측정하는 데 더 적합하다고 강조했다. 특히 주목할 만한 점은 불과 1년 전만 해도 생성형 AI 생태계 전체가 가장 어려운 AGI 벤치마크에서 10%의 정확도도 달성하지 못했다는 것이다.

H2O.ai의 제작자들은 추론, 멀티모달 이미지, 비디오, 언어 이해, 코드 생성 및 실행을 위한 세계 최고의 모델들을 활용해 h2oGPTe 에이전트를 구축했다. 이를 통해 클로드-3.5-소넷(Claude-3.5-Sonnet)을 사용한 구글 딥마인드의 이전 기록을 15% 차이로 뛰어넘었으며, 오픈AI의 o1 모델을 활용한 마이크로소프트 리서치의 마그네틱-1(Magentic-1) 에이전트보다 27% 높은 성능을 보였다.

기업용 AI 플랫폼으로서의 가치

h2oGPTe는 문서 질의응답, 모델 평가, 문서 AI, 에이전트 기능 등을 제공하는 기업용 플랫폼이다. 파이썬(Python)과 배시(Bash) 코드 실행, 웹 브라우징, 다중 모달 이해, 파일 처리, 데이터 과학 모델링 등 다양한 도구를 지원한다.

마이크로소프트 CEO 사티아 나델라(Satya Nadella)가 언급했듯이, 기업 소프트웨어의 미래는 독립된 애플리케이션이 아닌 여러 도구와 데이터 소스를 유연하게 조율할 수 있는 지능형 에이전트에 있다. H2O.ai의 이번 GAIA 벤치마크 성과는 이러한 미래를 선도하고 있음을 보여준다.

AI 시장 ‘새 강자’ 부상한 H2O.ai

2012년에 설립된 H2O.ai는 생성형 AI 민주화의 선두에 서 있다. H2O.ai의 오픈소스 생성형 AI와 기업용 h2oGPTe는 문서 AI와 수상 경력이 있는 자동 ML 드라이버리스 AI와 함께 AT&T, 커먼웰스 뱅크 오브 오스트레일리아, 치포틀레, 싱텔, 워크데이, 프로그레시브 인슈어런스, AES를 포함한 20,000개 이상의 글로벌 기업과 포춘 500대 기업의 절반 이상을 변화시켰다.

H2O.ai는 델, 딜로이트, 언스트앤영(EY), 프라이스워터하우스쿠퍼스(PwC), 엔비디아, 스노우플레이크, AWS, 구글 클라우드 플랫폼(GCP), 마이크로소프트 애저와 파트너십을 맺고 있다. H2O.ai의 ‘AI for Good’ 프로그램은 교육, 헬스케어, 환경 보존을 발전시키기 위해 비영리 단체, 재단, 커뮤니티를 지원하고 있다. 전 세계 200만 명의 데이터 과학자로 구성된 활발한 커뮤니티를 보유한 H2O.ai는 모든 사용자를 위한 가치 있는 AI 애플리케이션을 공동 제작하는 것을 목표로 하고 있다.

H2O.ai는 커먼웰스 뱅크, 엔비디아, 골드만삭스, 웰스파고, 캐피털원, 넥서스 벤처스, 뉴욕 라이프를 포함한 투자자들로부터 2억 5600만 달러의 투자를 유치했다. 기업용 h2oGPTe 1.6 버전에는 에이전트 기능이 포함되어 있으며, 모든 퍼블릭 클라우드, 가상 프라이빗 클라우드, 온프레미스 환경에서 사용할 수 있다.

해당 기사의 원문은 H2O.ai 공식 블로그에서 볼 수 있으며, H2O.ai가 연구한 GAIA에 대한 논문 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




‘AI vs 인간’ 지능 격차 좁혀진다…AI 지능 측정해보니 ‘인간의 70% 수준’ – AI 매터스