Gemini 1.5 Pro

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다…

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는…

MEGA-BENCH : SCALING MULTIMODAL EVALUATION TO OVER 500 REAL-WORLD TASKS

MEGA-BENCH, AI 모델 평가의 새 지평을 열다

10월 16, 2024

일리노이 대학교 어바나-샴페인과 마이크로소프트 연구소가 공동 개발한 MEGA-BENCH가 AI 모델 평가 방식에 혁신을 가져올 것으로 기대를 모으고 있다.…

Gemini 1.5 Pro – AI 매터스 l AI Matters