인공지능(AI) 모델이 문제를 더 오래 ‘생각’한다고 해서 반드시 더 나은 답을 내놓는 것은 아니라는 연구 결과가 나왔다. 추론…
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models 1,113개 실제 의료 사례로 검증한 AI의 한계 최첨단 대규모 언어…