앤트로픽(Anthropic)이 자사의 AI 어시스턴트 클로드(Claude)에서 코딩 지식 없이도 AI 기반 앱을 제작할 수 있는 새로운 기능을 25일(현지 시간)…
Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는…
오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이…