AI 벤치마크 전문가가 최신 딥시크(DeepSeek) R1 모델의 훈련 데이터가 기존 오픈AI(OpenAI) 합성 데이터에서 구글 제미나이(Gemini) 합성 데이터로 전환되었을 가능성을 제기했다. AI 모델 평가 플랫폼 EQ벤치(EQ-Bench)를 운영하는 샘 페치(Sam Paech)는 지난달 30일(현지 시간) 자신의 X를 통해 “새로운 딥시크 R1이 조금 다르게 들리는 이유가 궁금하다면, 오픈AI 합성 출력에서 제미나이 합성 출력으로 훈련 데이터를 전환했을 가능성이 있다”고 밝혔다.
페치는 자신이 개발한 ‘슬롭 포렌식(Slop Forensics)’ 분석 도구를 활용해 이같은 결론에 도달했다고 설명했다. 이 도구는 각 AI 모델의 ‘슬롭 프로필(Slop Profile)’을 추출한 후 생물정보학 도구를 사용해 모델 간 계보를 추론하는 방식으로 작동한다. 슬롭 프로필은 인간 기준선 대비 AI 모델 출력에서 과도하게 사용되는 단어와 n-그램을 의미한다. 페치는 “먼저 각 모델에서 슬롭 프로필을 추출하고, 이후 일반적으로 DNA 정렬에 사용되는 생물정보학 도구를 활용해 모델 계보를 추론한다”고 설명했다.
페치가 공개한 분석 결과에 따르면, 새로운 딥시크 R1 모델은 기존 모델들과 다른 패턴을 보였다. 그는 자신의 창작 글쓰기 평가 과정에서 각 모델에 대한 슬롭 프로필을 생성하며, 이를 통해 모델 간 유사성을 분석한다고 밝혔다.
일부 전문가들은 이러한 분석의 한계를 지적하기도 했다. 한 사용자는 “n-그램 유사성이 다른 모델의 출력으로 훈련했다는 증거로 얼마나 유효한가”라며 “상위 입력을 공유할 수도 있지 않나”라고 반문했다.
해당 기사에 인용한 게시물은 링크에서 확인 가능하다.
이미지 출처: 딥시크