앤트로픽(Anthropic)이 자사의 AI 어시스턴트 클로드(Claude)에서 코딩 지식 없이도 AI 기반 앱을 제작할 수 있는 새로운 기능을 25일(현지 시간) 발표했다. 이번 업데이트는 아티팩트(Artifacts) 기능을 대폭…
Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는 ‘벤딩-벤치’ 개발 대형 언어 모델(LLM)은 짧은…
오픈AI(OpenAI)가 인공지능(AI) 에이전트의 첨단 연구 논문 이해 및 재현 능력을 평가하는 새로운 벤치마크 ‘PaperBench’를 출시했다. 그러나 흥미롭게도 이 평가에서 오픈AI의 자체 모델이 아닌 경쟁사…