AI 테스트

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다…

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는…

Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis

AI 챗봇도 치매에 걸릴까? 최신 AI 모델도 경도인지장애…

12월 27, 2024

Age against the machine—susceptibility of large language modelsto cognitive impairment: cross sectional analysis AI 의료진 시대, 그들도 인지장애에서…

AI 테스트 – AI 매터스