딥시크, 챗GPT 대신 제미나이 데이터로 바꿔 ‘R1’ 훈련했나? 의혹 점화

AI 벤치마크 전문가가 최신 딥시크(DeepSeek) R1 모델의 훈련 데이터가 기존 오픈AI(OpenAI) 합성 데이터에서 구글 제미나이(Gemini) 합성 데이터로 전환되었을 가능성을 제기했다. AI 모델 평가 플랫폼 EQ벤치(EQ-Bench)를 운영하는 샘 페치(Sam Paech)는 지난달 30일(현지 시간) 자신의 X를 통해 “새로운 딥시크 R1이 조금 다르게 들리는 이유가 궁금하다면, 오픈AI 합성 출력에서 제미나이 합성 출력으로 훈련 데이터를 전환했을 가능성이 있다”고 밝혔다.

If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025

페치는 자신이 개발한 ‘슬롭 포렌식(Slop Forensics)’ 분석 도구를 활용해 이같은 결론에 도달했다고 설명했다. 이 도구는 각 AI 모델의 ‘슬롭 프로필(Slop Profile)’을 추출한 후 생물정보학 도구를 사용해 모델 간 계보를 추론하는 방식으로 작동한다. 슬롭 프로필은 인간 기준선 대비 AI 모델 출력에서 과도하게 사용되는 단어와 n-그램을 의미한다. 페치는 “먼저 각 모델에서 슬롭 프로필을 추출하고, 이후 일반적으로 DNA 정렬에 사용되는 생물정보학 도구를 활용해 모델 계보를 추론한다”고 설명했다.

페치가 공개한 분석 결과에 따르면, 새로운 딥시크 R1 모델은 기존 모델들과 다른 패턴을 보였다. 그는 자신의 창작 글쓰기 평가 과정에서 각 모델에 대한 슬롭 프로필을 생성하며, 이를 통해 모델 간 유사성을 분석한다고 밝혔다.

일부 전문가들은 이러한 분석의 한계를 지적하기도 했다. 한 사용자는 “n-그램 유사성이 다른 모델의 출력으로 훈련했다는 증거로 얼마나 유효한가”라며 “상위 입력을 공유할 수도 있지 않나”라고 반문했다.

해당 기사에 인용한 게시물은 링크에서 확인 가능하다.

이미지 출처: 딥시크

딥시크, 챗GPT 대신 제미나이 데이터로 바꿔 ‘R1’ 훈련했나? 의혹 점화

클릭 한 번으로 작곡가 됐다…제미나이 ‘Lyria3’ 사용기

충전기 만들던 앤커가 AI 녹음기를 내놨다…”배터리 회사는 옛말”

챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에

말로 코딩하는 시대 열렸다…앤트로픽 ‘클로드 코드’에 음성 모드 탑재

“진정하세요” 이제 그만…오픈AI, 챗GPT의 ‘오글거리는’ 말투 고친다

Highlight

구글, 이미지 생성 모델 ‘나노 바나나 2’ 공개…4K 해상도에 속도까지 잡았다

제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다… 한국서도 적용

갤럭시 S26 AI 기능, 갤럭시에서 아이폰의 향기가 난다

“AI 개발은 기타 배우기와 같다”…오픈클로 개발자가 전하는 AI 빌더 생존법

잭 도시, 직원 절반 잘랐다…”당신 회사도 곧 같은 길 걷게 될…