PARTNR: Planning and Reasoning for Robot-Human Partnerships AI 로봇의 첫 실증 평가: 10만 건 테스트 중 30% 성공…
Improving Your Model Ranking on Chatbot Arena by Vote Rigging 170만 건의 투표 데이터로 입증된 챗봇 아레나의 취약점…
최근 구글 딥마인드 연구진이 발표한 ‘Michelangelo’ 평가 방식은 최신 대규모 언어 모델들의 장문 이해 능력을 테스트하는 새로운 기준을…