Search

챗GPT·제미나이 검색 상위 노출되는 글은 따로 있다? 노출 36% 높이는 AutoGEO의 비밀

What Generative Search Engines Like and How to Optimize Web Content Cooperatively
이미지 출처: 이디오그램 생성

구글 AI 오버뷰와 챗GPT로 대표되는 생성형 검색엔진이 검색 시장에 자리 잡으면서, 웹 콘텐츠 제공자들의 새로운 고민이 시작됐다. 전통적인 검색엔진에서는 페이지 순위가 중요했지만, 생성형 검색엔진은 여러 문서를 종합해 하나의 답변을 만들어내기 때문에 자신의 콘텐츠가 그 답변 안에 얼마나 인용되는지가 핵심이 됐기 때문이다. 더욱이 생성형 검색엔진이 어떤 콘텐츠를 선호하는지 파악하기는 쉽지 않았다.

이러한 문제를 해결하기 위해 카네기 멜런대학교 연구팀이 ‘AutoGEO’ 프레임워크를 발표했다. AutoGEO는 생성형 검색엔진이 선호하는 콘텐츠 특성을 자동으로 학습하고, 이를 바탕으로 웹 문서를 최적화하는 시스템이다. 기존의 수동적 휴리스틱 방식과 달리, AutoGEO는 대규모 언어모델을 활용해 검색엔진의 선호도 규칙을 체계적으로 추출하고, 이를 통해 콘텐츠 노출도를 평균 35.99% 향상시키면서도 대부분의 품질 지표는 기존 수준을 유지하거나 일부는 소폭 개선하는 성과를 거뒀다.

생성형 검색엔진 시대의 필수 전략, GEO란 무엇인가

생성형 검색엔진 최적화(Generative Engine Optimization, GEO)는 기존 검색엔진 최적화(SEO)의 진화된 형태다. 전통적인 검색엔진이 웹페이지 순위를 결정했다면, 생성형 검색엔진은 여러 문서를 분석해 통합된 자연어 응답을 생성한다. 이 과정에서 어떤 문서의 내용이 얼마나 많이, 어느 위치에 인용되는지가 콘텐츠의 가시성을 결정한다.

연구팀은 문서 가시성을 측정하기 위해 세 가지 지표를 활용했다. 첫째, 응답에서 해당 문서를 인용한 문장의 단어 수를 정규화한 워드 카운트(Word), 둘째, 인용 텍스트의 위치 기반 가중치를 반영한 포지션 카운트(Pos), 셋째, 이 두 지표를 통합한 종합 점수(Overall)다. 사파리에서 기록된 검색량 감소는 생성형 검색엔진의 영향력이 현실에 반영되기 시작했음을 시사한다.

기존 GEO 방식은 주로 대규모 언어모델에 수동으로 설계된 휴리스틱을 프롬프트로 입력해 문서를 재작성하는 방법에 의존했다. 하지만 이러한 접근은 생성형 검색엔진의 근본적인 선호도를 체계적으로 이해하지 못했고, 콘텐츠 노출도만 높이려다 검색 품질을 저하시키는 부작용을 초래하기도 했다.

선호도 규칙 자동 발견, AutoGEO의 핵심 메커니즘

AutoGEO의 가장 큰 혁신은 생성형 검색엔진의 선호도 규칙을 자동으로 학습하는 파이프라인이다. 연구팀은 이를 위해 네 가지 핵심 구성요소를 설계했다. 먼저 ‘설명자(Explainer)’는 검색 결과에서 가시성 차이가 큰 문서 쌍을 비교 분석해 차이점을 자연어로 설명한다. 이어서 ‘추출자(Extractor)’는 이러한 설명에서 핵심 인사이트를 간결한 형태로 정리한다.

수만 개의 인사이트를 효율적으로 처리하기 위해 연구팀은 계층적 병합 전략을 도입했다. ‘병합자(Merger)’는 인사이트를 관리 가능한 크기의 청크로 나눈 후, 각 청크를 독립적으로 병합하고 이를 재귀적으로 통합해 최종 규칙 세트를 생성한다. 마지막으로 ‘필터(Filter)’는 모호하거나 불필요한 규칙을 제거하고, 검색엔진의 실질적인 선호도를 반영하는 규칙만 남긴다.

이 과정을 통해 추출된 규칙들은 구체적이고 실행 가능한 형태를 띤다. 예를 들어 연구 질문 도메인에서는 “주제를 포괄적으로 다루되 모든 핵심 측면과 하위 주제를 다룰 것”, “근본 원인과 메커니즘, 맥락을 설명해 ‘어떻게’와 ‘왜’를 명확히 할 것” 같은 규칙이 도출됐다. 반면 전자상거래 도메인에서는 “단계별 가이드나 명확한 권장사항 같은 실행 가능한 정보 제공”이 고유한 규칙으로 나타났다.

What Generative Search Engines Like and How to Optimize Web Content Cooperatively


API 기반과 소형 모델, 두 가지 GEO 솔루션

AutoGEO는 추출된 선호도 규칙을 활용해 두 가지 형태의 GEO 모델을 구축한다. 첫 번째는 ‘AutoGEO(API)’로, 강력한 대규모 언어모델 API에 규칙을 프롬프트로 직접 삽입하는 방식이다. 별도의 학습 없이 즉시 적용 가능하며, 실험에서 가장 높은 성능 향상을 보였다. 제미나이 검색엔진 기준으로 Researchy-GEO 데이터셋에서 기존 최고 성능 기법 대비 가시성 지표를 최대 50.99% 개선했다.

두 번째는 ‘AutoGEO(Mini)’로, 비용 효율성에 초점을 맞춘 소형 모델이다. 연구팀은 1.7B 파라미터 규모의 Qwen3 모델을 기반으로 강화학습 프레임워크를 구축했다. 먼저 AutoGEO(API)를 교사 모델로 활용해 고품질 재작성 데이터셋을 합성하고, 이를 통해 모델을 지도학습 방식으로 초기화했다. 이후 그룹 상대 정책 최적화(GRPO) 기법으로 추가 학습을 진행했다.

강화학습 단계에서는 세 가지 보상 신호를 조합해 활용했다. 결과 보상(Outcome Reward)은 재작성된 문서의 가시성 향상 정도를, 규칙 보상(Rule Reward)은 추출된 선호도 규칙 준수 비율을, 의미 보상(Semantic Reward)은 원본 문서와의 의미적 일관성을 측정한다. 특히 의미 보상은 핵심 요점 재현율과 모순 지표를 활용해 협력적 재작성을 장려한다. 이렇게 세 가지 보상 신호를 조합해 적용한 AutoGEO(Mini)는 AutoGEO(API) 대비 약 0.0071배의 비용만으로도 평균 20.99%의 성능 향상을 달성했다.

도메인별 차이와 범용성, 실험으로 입증된 효과

연구팀은 세 가지 데이터셋에서 AutoGEO의 성능을 검증했다. 기존의 GEO-Bench 외에 전자상거래 질문 416개로 구성된 E-commerce 데이터셋과 심층 연구 질문 1,000개로 구성된 Researchy-GEO 데이터셋을 새롭게 구축했다. 각 데이터셋은 ClueWeb22 코퍼스에서 밀집 검색 방식으로 추출한 5개의 후보 문서와 연결됐다.

흥미로운 발견은 생성형 검색엔진의 선호도가 도메인과 언어모델에 따라 다르게 나타난다는 점이다. 같은 Researchy-GEO 데이터셋이라도 제미나이와 GPT 간 규칙 중복도는 78.95%, 제미나이와 클로드 간은 84.21%였다. 이는 각 언어모델이 상당 부분 공통된 선호도를 공유하지만, 동시에 고유한 특성도 지닌다는 의미다. 반면 같은 제미나이 엔진을 사용해도 Researchy-GEO와 GEO-Bench 간 중복도는 88.24%인 반면, 전자상거래 데이터셋과는 34.78%에 그쳤다. 도메인 특성이 크게 다르면 선호도 규칙도 달라진다는 방증이다.

규칙의 전이 가능성 실험에서는 엔진별 맞춤 규칙이 최고 성능을 보였지만, 다른 엔진의 규칙을 적용해도 기본 성능 대비 개선 효과가 있었다. 특히 같은 도메인 내에서는 규칙 전이가 효과적이었다. 개별 규칙 기여도 분석 결과, 모든 규칙이 측정 가능한 성능 향상을 제공했으며, 전체 규칙 세트가 단일 규칙보다 일관되게 우수한 성과를 냈다. 이는 AutoGEO가 의미 있고 실행 가능한 선호도를 노이즈 없이 추출했음을 입증한다.

검색 품질 유지하는 협력적 최적화 전략

AutoGEO의 또 다른 강점은 콘텐츠 가시성을 높이면서도 생성형 검색엔진의 응답 품질에 부정적 영향을 주지 않는다는 점이다. 연구팀은 DeepResearchGym 프레임워크를 활용해 생성된 응답의 관련성, 신뢰성, 품질을 평가했다. 제미나이, GPT, 클로드 세 가지 검색엔진에서 테스트한 결과, AutoGEO 방식은 기본 시스템 대비 응답 품질 지표를 유지하거나 일부 지표에서는 소폭 향상시켰다.

특히 악의적인 적대적 기법들과 비교했을 때 차이가 극명했다. 하이재킹 공격과 독성 공격 같은 적대적 방법들은 가시성을 높이는 데는 성공했지만, 핵심 요점 재현율과 명확성, 통찰력 등 응답 품질 지표에서 기본 시스템보다 낮은 점수를 기록했다. 반면 AutoGEO는 가시성과 품질 사이의 균형 잡힌 트레이드오프를 달성했다.

가장 어려운 시나리오인 낮은 가시성 문서에 대한 테스트에서도 AutoGEO의 강건성이 입증됐다. Researchy-GEO 데이터셋에서 기본 가시성이 9.67%에 불과한 문서들을 대상으로 한 실험에서, 최고 성능 기준선인 유창성 최적화는 16.78%로 향상하는 데 그쳤지만, AutoGEO(API)는 35.83%, AutoGEO(Mini)는 30.24%까지 끌어올렸다. 이러한 향상 과정에서도 정밀도, 재현율, 명확성 등 검색 품질 지표는 기본 수준을 유지했다.

콘텐츠 품질이 곧 최적화

이번 연구가 던지는 가장 중요한 메시지는 명확하다. 생성형 AI 시대의 콘텐츠 최적화는 검색엔진을 속이는 기술이 아니라, 본질적으로 좋은 콘텐츠를 만드는 것과 같은 방향이라는 점이다. AutoGEO가 학습한 선호도 규칙들을 보면 포괄적 설명, 논리적 구조, 구체적 증거 제시 등 모두 사용자에게도 가치 있는 요소들이다.

특히 주목할 점은 도메인별로 최적화 전략이 달라야 한다는 발견이다. 연구 콘텐츠에서는 심층 분석이, 전자상거래에서는 실행 가능한 가이드가 더 중요하다. 이는 콘텐츠 제작자들이 자신의 분야 특성을 이해하고 그에 맞는 전략을 수립해야 함을 의미한다. 또한 AutoGEO(Mini) 같은 경량 모델은 콘텐츠 작성 과정에서 실시간 피드백 도구로 활용될 가능성을 보여준다. 다만 과도한 최적화가 콘텐츠의 독창성을 해치지 않도록, 이러한 도구는 보조 수단으로만 활용해야 할 것이다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 생성형 검색엔진 최적화(GEO)는 기존 SEO와 어떻게 다른가요?

A. 전통적인 SEO가 검색 결과 페이지에서 웹사이트의 순위를 높이는 데 집중했다면, GEO는 생성형 AI가 만드는 통합 응답 안에서 특정 문서의 내용이 얼마나 많이 인용되는지를 최적화합니다. 구글 AI 오버뷰나 챗GPT 같은 생성형 검색엔진은 여러 문서를 분석해 하나의 자연어 답변을 만들기 때문에, 답변 속에서 자신의 콘텐츠가 눈에 띄게 노출되도록 하는 것이 중요합니다.

Q. AutoGEO는 어떻게 검색엔진의 선호도를 학습하나요?

A. AutoGEO는 대규모 언어모델을 활용해 네 단계로 선호도를 학습합니다. 먼저 가시성 차이가 큰 문서 쌍을 비교해 차이점을 설명하고, 이를 간결한 인사이트로 추출합니다. 이후 수천 개의 인사이트를 계층적으로 병합해 일관된 규칙으로 만들고, 마지막으로 모호한 규칙을 걸러내 실질적인 선호도만 남깁니다. 이 과정은 전부 자동으로 진행되며 인간의 개입이 필요 없습니다.

Q. AutoGEO를 사용하면 검색 결과의 품질이 나빠지지 않나요?

A. 연구 결과에 따르면 AutoGEO는 콘텐츠 노출도를 높이면서도 검색 응답의 품질에 부정적 영향을 주지 않도록 설계됐습니다. 강화학습 과정에서 세 가지 보상 신호를 조합해 사용하는데, 가시성 향상뿐 아니라 추출된 규칙 준수와 원본 문서와의 의미적 일관성도 함께 평가합니다. 실험 결과 악의적인 최적화 기법들과 달리 AutoGEO는 응답의 사실 정확성, 명확성, 통찰력 등의 지표를 기본 수준으로 유지하거나 일부 향상시켰습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: What Generative Search Engines Like and How to Optimize Web Content Cooperatively

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




챗GPT·제미나이 검색 상위 노출되는 글은 따로 있다? 노출 36% 높이는 AutoGEO의 비밀 – AI 매터스