인공지능(AI) 기술이 빠르게 발전하면서 AI 모델의 성능을 정확하게 평가하는 것이 중요한 과제로 떠올랐다. 특히 대규모 언어 모델(LLM)의 등장으로 AI의 능력이 비약적으로 향상되면서, 이를 제대로…