Search

삼성전자, AI 업무 생산성 측정 지표 ‘트루벤치’ 공개… 실무 환경 적극 반영

삼성전자, AI 업무 생산성 측정 지표 '트루벤치' 공개… 실무 환경 적극 반영
이미지 출처: 삼성전자

삼성전자가 기업 업무 환경에서 AI 모델의 실질적인 성능을 평가할 수 있는 자체 벤치마크 ‘트루벤치(TRUEBench)’를 개발해 공개했다고 25일(한국 시각) 발표했다. 트루벤치는 ‘신뢰할 수 있는 실제 사용 평가 벤치마크(Trustworthy Real-world Usage Evaluation Benchmark)’의 줄임말로, 삼성전자 DX부문의 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 토대로 개발했다.

기존 AI 벤치마크 대부분이 영어 중심이고 한 번 또는 제한된 횟수의 대화만을 평가해 실제 업무 생산성 성능을 정확히 측정하기 어렵다는 문제를 해결하기 위해 만들어졌다. 실제로 많은 기업이 업무 전반에 AI를 도입하고 있지만, 기존 평가 도구로는 실무에서의 AI 활용도를 제대로 파악하기 힘든 상황이었다.

트루벤치는 10개 카테고리와 46개 업무, 총 2,485개의 세분화된 평가 항목으로 구성됐다. 평가 항목에는 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크리스트가 반영됐다.

특히 사용자의 짧은 요청부터 최대 2만 자의 긴 문서 요약까지 폭넓은 업무 상황을 다루며, 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있다. 응답 결과에 대한 평균 길이 등도 공개해 성능과 효율성 지표를 동시에 비교 가능하다.

트루벤치는 영어, 한국어, 일본어, 중국어, 스페인어 등 총 12개 언어를 지원한다. 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다.

AI 모델 성능 평가의 객관성을 확보하기 위해 AI 교차 검증 시스템도 도입했다. 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며, 지속적인 교차 검증을 통해 정교한 평가 기준을 완성한다. 이를 통해 주관적 편향을 최소화하고 일관성 있는 결과를 제공한다.

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드를 공개했다.

해당 기사의 원문은 삼성전자 뉴스룸에서 확인 가능하다.

이미지 출처: 삼성전자

딜라이트_이벤터스 강의 상세 페이지 디자인_심화실습편_770x200 배너



삼성전자, AI 업무 생산성 측정 지표 ‘트루벤치’ 공개… 실무 환경 적극 반영 – AI 매터스 l AI Matters