Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는…
Age against the machine—susceptibility of large language modelsto cognitive impairment: cross sectional analysis AI 의료진 시대, 그들도 인지장애에서…