삼성전자, AI 업무 생산성 측정 지표 '트루벤치' 공개… 실무 환경 적극 반영

삼성전자가 기업 업무 환경에서 AI 모델의 실질적인 성능을 평가할 수 있는 자체 벤치마크 ‘트루벤치(TRUEBench)’를 개발해 공개했다고 25일(한국 시각) 발표했다. 트루벤치는 ‘신뢰할 수 있는 실제 사용 평가 벤치마크(Trustworthy Real-world Usage Evaluation Benchmark)’의 줄임말로, 삼성전자 DX부문의 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 토대로 개발했다.

기존 AI 벤치마크 대부분이 영어 중심이고 한 번 또는 제한된 횟수의 대화만을 평가해 실제 업무 생산성 성능을 정확히 측정하기 어렵다는 문제를 해결하기 위해 만들어졌다. 실제로 많은 기업이 업무 전반에 AI를 도입하고 있지만, 기존 평가 도구로는 실무에서의 AI 활용도를 제대로 파악하기 힘든 상황이었다.

트루벤치는 10개 카테고리와 46개 업무, 총 2,485개의 세분화된 평가 항목으로 구성됐다. 평가 항목에는 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크리스트가 반영됐다.

특히 사용자의 짧은 요청부터 최대 2만 자의 긴 문서 요약까지 폭넓은 업무 상황을 다루며, 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있다. 응답 결과에 대한 평균 길이 등도 공개해 성능과 효율성 지표를 동시에 비교 가능하다.

트루벤치는 영어, 한국어, 일본어, 중국어, 스페인어 등 총 12개 언어를 지원한다. 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다.

AI 모델 성능 평가의 객관성을 확보하기 위해 AI 교차 검증 시스템도 도입했다. 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며, 지속적인 교차 검증을 통해 정교한 평가 기준을 완성한다. 이를 통해 주관적 편향을 최소화하고 일관성 있는 결과를 제공한다.

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드를 공개했다.

해당 기사의 원문은 삼성전자 뉴스룸에서 확인 가능하다.

이미지 출처: 삼성전자

삼성전자, AI 업무 생산성 측정 지표 ‘트루벤치’ 공개… 실무 환경 적극 반영

AI가 제안서부터 재무보고서까지 ‘완성 파일’로 뚝딱… 중국 GLM-5 충격

앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오

“개인 컴퓨터로 초거대 AI 학습 가능해진다”… 12배 빠른 신기술 등장

앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성

요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… “대화로 맛집 찾고 주문까지”

Highlight

오픈클로 창시자, “앱의 80%가 사라질 것”

“AI가 AI를 만드는 시대 열렸다”… 오픈AI, 자기 학습 모델 ‘GPT-5.3-Codex’ 공개

“AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요”… 오픈AI, 기업용…

카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산

“챗GPT 5.2 제쳤다”… 앤트로픽, 클로드 Opus 4.6 신모델 공개