인공지능(AI) 모델이 문제를 더 오래 ‘생각’한다고 해서 반드시 더 나은 답을 내놓는 것은 아니라는 연구 결과가 나왔다. 추론 시간이 길어질수록 성능이 급격히 저하되는 ‘역스케일링’…
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models 1,113개 실제 의료 사례로 검증한 AI의 한계 최첨단 대규모 언어 모델(LLM)조차 복잡한 의료 진단 추론에서는 예상보다…