Search

  • Home
  • AI 평가 시스템

AI 평가 시스템

Training LLMs for Honesty via Confessions

챗GPT가 거짓말하면 스스로 자백하게 만든다… 오픈AI, ‘고백’ 시스템 공개

12월 4, 2025

오픈AI가 AI 챗봇이 자신의 실수와 잘못을 스스로 보고하도록 만드는 새로운 기술을 개발했다. ‘GPT-5-Thinking’에 적용된 이 ‘고백’ 시스템은 AI가 거짓말을 하거나 지시를 어겼을 때 이를…

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

오락가락하는 챗GPT 성격, 이유 찾았다… 앤트로픽, AI 성격 변화 실시간 감시 시스템 개발

8월 4, 2025

챗GPT 같은 대화형 AI가 갑자기 위험한 말을 하거나 이상하게 행동하는 현상을 해결할 수 있는 새로운 방법이 나왔다. 앤트로픽 연구팀은 AI 모델 내부에서 특정 성격을…

The Biased Samaritan: LLM biases in Perceived Kindness

“10대는 이기적, 노인은 친절?” AI 모델 10개의 나이·성별·인종 편견 분석

6월 17, 2025

The Biased Samaritan: LLM biases in Perceived Kindness 대형 언어모델(Large Language Models, LLMs)이 다양한 분야에서 널리 활용되면서, 이들 모델이 가진 편향성에 대한 우려가 커지고…

PARTNR: Planning and Reasoning for Robot-Human Partnerships

AI 로봇과 함께 살 날 멀지 않았다… 메타, 인간과의 협업 테스트 결과 “가사일 60% 도와줄 수 있어”

2월 11, 2025

PARTNR: Planning and Reasoning for Robot-Human Partnerships AI 로봇의 첫 실증 평가: 10만 건 테스트 중 30% 성공 메타(Meta)가 인공지능(AI) 로봇과 인간이 협업해 집안일을…

Improving Your Model Ranking on Chatbot Arena by Vote Rigging

AI 챗봇 평가 플랫폼의 치명적 결함 발견… 수백 번의 투표로 순위 조작 가능해

2월 7, 2025

Improving Your Model Ranking on Chatbot Arena by Vote Rigging 170만 건의 투표 데이터로 입증된 챗봇 아레나의 취약점 홍콩과학기술대학교와 Sea AI Lab 연구진이 공개한…

Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries

생성형 AI의 장문 이해력 평가: GPT-4와 Claude 3의 성능 비교

10월 8, 2024

최근 구글 딥마인드 연구진이 발표한 ‘Michelangelo’ 평가 방식은 최신 대규모 언어 모델들의 장문 이해 능력을 테스트하는 새로운 기준을 제시했다. 이 평가 방식은 기존의 ‘건초더미…

AI 평가 시스템 – AI 매터스