일본 와세다대학교 연구팀이 법률 문서와 일반 글, 그리고 AI가 쓴 글의 언어 특징을 비교했다. 해당 논문에 따르면, 이번 연구는 프랑스어, 영어, 독일어 등 여러 언어의 법률 문서를 분석했으며, 법률 문서만의 독특한 패턴을 발견했다.
특히 챗GPT 같은 AI는 법률 문서의 반복성과 정밀한 패턴을 충분히 재현하지 못한다는 점이 통계적으로 확인되었다. 연구팀은 기존의 분류나 정확도 중심 분석과 달리, 수학적 근거를 명확히 제시하며 각 텍스트가 얼마나 빠르게 새 단어를 쓰는지, 같은 단어를 얼마나 자주 반복하는지 등을 숫자로 측정했다.
법률 문서는 같은 용어를 일관되게 사용한다
연구팀은 프랑스 민법, 미국 연방법, 호주 법령, 법원 판결문, 특허 문서, 계약서 등을 분석했다. 법률 문서를 쓰는 방식에는 특징이 있었다. 글이 길어져도 새로운 단어를 천천히 추가하고, 이미 쓴 단어를 계속 반복해서 사용한다는 점이다. 예를 들어 소설은 다양한 표현을 쓰지만, 법률 문서는 한 번 정한 표현을 끝까지 똑같이 쓴다.
또한 법률 문서는 특정 단어들이 특정 부분에서 집중적으로 나타났다. 이는 법률 용어를 일관되게 쓴다는 뜻이다. 같은 개념을 설명할 때도 똑같은 표현을 그대로 사용했다. 법률 문서는 일반 글에 비해 압축률이 확연히 높아, 반복적 표현과 일관된 용어 사용이 두드러진 것으로 나타났다. 위키피디아는 문학보다 약간 높은 수치를 보였는데, 이는 주제별 폭넓은 내용과 일관된 편집 관례가 섞여 있기 때문이다.
법률 문서 종류마다 패턴이 다르다
법률 문서 안에서도 종류에 따라 차이가 있었다. 법령은 가장 정형화된 패턴을 보였다. 특히 미국 연방법은 새 단어를 가장 천천히 추가했고, 같은 표현을 가장 많이 반복했다. 프랑스 민법전도 비슷한 경향을 보였으며, 호주 법령은 법령 중에서 가장 높은 압축률을 기록했다. 법령은 한 글자 한 글자를 정확하게 써야 하기 때문에 이런 특징이 나타난다.
법원 판결문은 법령보다는 자유로웠지만 여전히 일반 글보다는 구조가 명확했다. 계약서는 종류에 따라 달랐다. 특허 문서와 독일 계약서는 새 단어를 빠르게 추가하면서도 같은 표현을 반복적으로 썼다. 반면 계약 조항만 모은 자료는 단일 조항 단위의 이질적인 샘플들이 섞여 있어 판결문과 비슷한 패턴을 보였다.
챗GPT가 쓴 글은 법률 문서의 통계적 특징을 재현하지 못했다
챗GPT가 만든 글은 법률 문서와는 다른 패턴을 보였다. 뉴스든, 다시 쓰기든, 법률 스타일 판결문이든 모두 일반 글의 패턴과 비슷했다. 특히 주목할 점은 챗GPT가 만든 글들이 모두 비슷한 좁은 범위 안에 밀집되어 있다는 것이다. 이는 AI의 글쓰기 방식이 다양하지 않고 획일적이라는 것을 보여준다.
챗GPT가 만든 글은 법률 문서만큼 같은 표현을 일관되게 반복하지 않았다. 연구팀은 챗GPT가 자연스러운 문장은 잘 만들지만, 법률 문서의 통계적 특징을 충분히 재현하지는 못한다고 설명했다. 이는 현재의 언어 모델이 법률 작성의 정밀하고 반복적인 표현 방식을 완전히 학습하지 못했다는 것을 의미한다. 연구팀은 AI가 법률 문서를 제대로 작성하려면 법률 전문 데이터로 별도의 특화 학습이 필요하다고 강조했다.
여러 방법으로 함께 확인해야 정확하다
이전 연구들은 다른 방법으로 법률 문서와 일반 글을 구분하려 했다. 특히 정규화 엔트로피라는 지표를 사용했는데, 이전 연구자들은 이 값을 매우 좁은 구간으로 제한해 표시함으로써 차이를 시각적으로 과장했다. 연구팀이 다시 확인해 보니 그 방법만으로는 정확하지 않았다.
반면 얼마나 같은 표현을 반복하는지 확인하는 방법은 효과가 있었다. 소설과 위키피디아는 반복이 가장 적었고, 법률 문서는 반복이 가장 많았다. 흥미롭게도 챗GPT가 생성한 일부 법률 스타일 글은 인간이 쓴 법령과 비슷한 수준의 반복률을 보였다. 이는 반복 측정만으로는 한계가 있다는 증거다.
하지만 여러 가지 방법을 함께 사용하면 더 정확하게 구분할 수 있었다. 새 단어 추가 속도와 반복 패턴을 동시에 보면, AI가 만든 글은 서로 비슷한 좁은 영역에 모여 있어 단어 사용 방식의 다양성이 부족하다는 것을 명확히 확인할 수 있었다.
FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 이 연구는 무엇을 측정한 건가요?
연구팀은 글이 길어질 때 새로운 단어가 얼마나 빠르게 나타나는지, 같은 단어가 얼마나 자주 반복되는지를 숫자로 측정했습니다. 이를 통해 법률 문서, 일반 글, AI가 만든 글의 차이를 비교했습니다.
Q2. 법률 문서는 왜 같은 용어를 반복하나요?
법률은 정확해야 합니다. 같은 개념을 다르게 표현하면 다른 의미로 해석될 수 있습니다. 그래서 한 번 정한 용어를 끝까지 똑같이 사용합니다. 예를 들어 ‘계약자’라는 단어를 한 번 쓰면 끝까지 ‘계약자’로만 씁니다.
Q3. AI는 왜 법률 문서의 패턴을 재현하지 못하나요?
AI는 주로 일반적인 글로 학습했습니다. 소설, 뉴스, 대화 등 다양한 표현을 쓰는 글로 배웠기 때문에, 같은 표현을 끝까지 일관되게 반복하는 법률 문서의 방식을 충분히 배우지 못했습니다. 법률 문서를 잘 쓰려면 법률 자료로 따로 특화 학습해야 합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Scale-free Characteristics of Multilingual Legal Texts
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.