Search

  • Home
  • AI 평가 시스템

AI 평가 시스템

The Biased Samaritan: LLM biases in Perceived Kindness

“10대는 이기적, 노인은 친절?” AI 모델 10개의 나이·성별·인종…

6월 17, 2025

The Biased Samaritan: LLM biases in Perceived Kindness 대형 언어모델(Large Language Models, LLMs)이 다양한 분야에서 널리 활용되면서, 이들…

PARTNR: Planning and Reasoning for Robot-Human Partnerships

AI 로봇과 함께 살 날 멀지 않았다… 메타,…

2월 11, 2025

PARTNR: Planning and Reasoning for Robot-Human Partnerships AI 로봇의 첫 실증 평가: 10만 건 테스트 중 30% 성공…

Improving Your Model Ranking on Chatbot Arena by Vote Rigging

AI 챗봇 평가 플랫폼의 치명적 결함 발견… 수백…

2월 7, 2025

Improving Your Model Ranking on Chatbot Arena by Vote Rigging 170만 건의 투표 데이터로 입증된 챗봇 아레나의 취약점…

Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries

생성형 AI의 장문 이해력 평가: GPT-4와 Claude 3의…

10월 8, 2024

최근 구글 딥마인드 연구진이 발표한 ‘Michelangelo’ 평가 방식은 최신 대규모 언어 모델들의 장문 이해 능력을 테스트하는 새로운 기준을…

AI 평가 시스템 – AI 매터스 l AI Matters