GEO 구현의 기술적 토대: LLM이 인용하고 싶어하는 문서 구조의 설계 원리
GEO(Generative Engine Optimization)는 기존 SEO의 확장이 아닌 별도의 최적화 영역이다. LLM이 문서를 인용할 때 선호하는 구조적 패턴과, AI 검색 엔진에 최적화된 콘텐츠 설계 원리를 기술적 관점에서 분석한다.
GEO(Generative Engine Optimization)는 기존 SEO의 확장이 아니다. 검색엔진 결과 페이지(SERP)의 블루링크를 점유하는 것과, LLM 기반 생성형 엔진(Google AI Overview, Perplexity, ChatGPT Search)이 응답을 생성할 때 1차 출처로 인용하는 것은 근본적으로 다른 기술적 문제다. 전자는 PageRank와 키워드 매칭의 영역이고, 후자는 LLM의 Retrieval-Augmented Generation(RAG) 파이프라인에서 문서가 선택되는 조건의 영역이다.
Princeton 대학의 GEO 연구 논문("GEO: Generative Engine Optimization", 2023)은 이 차이를 실증적으로 분석했다. 연구 결과에 따르면, LLM이 외부 문서를 인용할 확률을 가장 크게 높이는 요소는 세 가지로 집약된다. 첫째, 명시적 통계 인용(Cite Sources). "~에 따르면"과 같은 출처 표기가 포함된 문장은 인용 확률이 40% 상승했다. 둘째, 유창성 최적화(Fluency Optimization). 문법적으로 정확하고 간결한 문장 구조가 LLM의 응답 생성 시 병합(Merge)에 유리했다. 셋째, 권위 신호(Authoritative Tone). 단정적 서술("~이다", "~해야 한다")이 추측형 서술("~일 수 있다", "~로 보인다")보다 인용 빈도가 높았다.
이를 웹 기술로 구현하는 방법은 HTML의 시맨틱 구조와 JSON-LD의 조합이다. LLM의 RAG 시스템은 문서를 청크(Chunk) 단위로 분절하여 벡터 임베딩으로 변환한다. 이때 <h2>, <h3>, <h4>의 헤딩 계층이 명확한 문서는 청크 경계가 자연스럽게 형성되어 정보 검색 정확도가 향상된다. 반면 헤딩 없이 긴 텍스트가 이어지는 문서는 청크 분절 시 맥락이 손실되어 인용 대상에서 탈락할 확률이 높아진다.
<!-- GEO 최적화 문서 구조 예시 -->
<article>
<h1>Core Web Vitals 최적화 완벽 가이드</h1>
<h2>LCP(Largest Contentful Paint) 개선</h2>
<p>Google의 공식 문서에 따르면, LCP는 2.5초 이내를 ...</p>
<h3>이미지 최적화를 통한 LCP 개선</h3>
<p>WebP 포맷 전환 시 평균 30-40%의 파일 크기 감소가 ...</p>
</article>
실무 구현 체크리스트로 정리한다. 첫째, 모든 콘텐츠 페이지에 <h2>를 기준으로 300~500자 단위의 논리적 섹션을 구성한다. 둘째, 핵심 주장이 담긴 문장에는 반드시 출처를 명시한다("Google Search Central에 따르면", "W3C 표준에서는"). 셋째, FAQ 섹션을 추가하여 질문-응답 쌍(Q&A Pair)을 명시적으로 마크업한다. FAQPage 스키마를 적용하면 LLM이 질의와 응답의 매칭을 더 정확하게 수행한다. 넷째, 추측형 서술을 최소화하고, 데이터에 기반한 단정적 서술을 기본 문체로 채택한다.