Search

LLM 평가

AI에게 그림 그리라고 했더니... '>' 와 '

AI에게 그림 그리라고 했더니… ‘<‘ 와 ‘>’ 구분도 못했다

11월 10, 2025

중국 텐센트 유투랩 연구팀이 AI의 ‘그림 그리기 능력’을 테스트하는 새로운 평가 방법을 개발했다. 이름은 ‘LTD-Bench’다. 기존에는 AI 성능을 숫자로만 평가했지만, 이제는 AI가 직접 그린…

Spiritual-LLM : Gita Inspired Mental Health Therapy In the Era of LLMs

AI가 힌두교 경전 배워서 심리상담사 됐다… 기존 상담봇보다 122% 성과 뛰어나

6월 26, 2025

Spiritual-LLM : Gita Inspired Mental Health Therapy In the Era of LLMs 아일랜드 골웨이 대학교(University of Galway) 데이터사이언스연구소와 인도 IIIT 델리의 MIDAS Lab 공동…

AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals

AI가 AI를 평가하면 생기는 일? ‘도움 드릴 수 없습니다’ 답변을 32% 더 좋아해

5월 23, 2025

AI vs. Human Judgment of Content Moderation:LLM-as-a-Judge and Ethics-Based Response Refusals GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트 높은 점수 대규모 언어 모델(LLM)이 다른…

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

AI에게 자판기 운영 시켜봤더니… 클로드 3.5 소넷, 인간보다 185만원 더 벌어

5월 13, 2025

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는 ‘벤딩-벤치’ 개발 대형 언어 모델(LLM)은 짧은…

Inference-Time Scaling for Generalist Reward Modeling

“더 큰 AI보다 더 오래 생각하는 AI가 이긴다” 딥시크의 혁신적 추론 확장 기술 공개

4월 16, 2025

Inference-Time Scaling for Generalist Reward Modeling 27배 더 작은 AI가 더 많이 ‘생각’하면 대형 모델을 이긴다: 추론 시간 확장성의 원리 대규모 언어 모델(LLM, Large…

LLM 평가 – AI 매터스