중국 텐센트 유투랩 연구팀이 AI의 ‘그림 그리기 능력’을 테스트하는 새로운 평가 방법을 개발했다. 이름은 ‘LTD-Bench’다. 기존에는 AI 성능을…
Spiritual-LLM : Gita Inspired Mental Health Therapy In the Era of LLMs 아일랜드 골웨이 대학교(University of Galway) 데이터사이언스연구소와…
AI vs. Human Judgment of Content Moderation:LLM-as-a-Judge and Ethics-Based Response Refusals GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트…
Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents3 2천만 토큰 넘는 장기 실험, AI 에이전트의 일관성 측정하는…
Inference-Time Scaling for Generalist Reward Modeling 27배 더 작은 AI가 더 많이 ‘생각’하면 대형 모델을 이긴다: 추론 시간…