인사이트테크니컬 SEO

크롤링 예산 최적화: 대규모 사이트에서 Googlebot의 효율을 극대화하는 기술적 방법

요약 (Excerpt)

크롤링 예산(Crawl Budget)은 크롤링 속도 제한과 크롤링 수요의 곱으로 결정된다. 대규모 사이트에서 Googlebot의 크롤링 효율을 극대화하기 위한 robots.txt, URL 정규화, 인덱스 관리 기술 전략을 정리한다.

읽기 4 2026. 3. 23.

크롤링 예산(Crawl Budget)은 Googlebot이 특정 사이트에 할당하는 크롤링 리소스의 총량이다. Google의 Gary Illyes는 이를 "크롤링 속도 제한(Crawl Rate Limit)"과 "크롤링 수요(Crawl Demand)"의 곱으로 정의했다. 페이지 수가 수천 개 이하인 소규모 사이트에서 크롤링 예산은 사실상 문제가 되지 않는다. 그러나 수만~수백만 페이지를 보유한 대규모 이커머스, 뉴스, 포럼 사이트에서는 크롤링 예산의 낭비가 신규 콘텐츠의 인덱싱 지연으로 직결된다.

크롤링 예산이 낭비되는 주요 원인은 네 가지로 분류된다. 첫째, 파라미터 기반 중복 URL이다. ?sort=price&color=red&page=3과 같은 필터 조합이 수십만 개의 중복 URL을 생성하면, Googlebot은 동일한 콘텐츠를 반복 크롤링한다. 둘째, 소프트 404 페이지다. 실제 콘텐츠가 없지만 200 상태 코드를 반환하는 페이지는 크롤링 리소스를 소모할 뿐 인덱싱 가치가 전혀 없다. 셋째, 무한 크롤링 함정(Crawler Trap)이다. 캘린더 위젯이나 세션 ID 기반 URL이 무한히 생성되는 구조는 Googlebot을 끝없는 루프에 빠뜨린다. 넷째, 느린 서버 응답 속도다. 페이지 로딩에 5초 이상 걸리면 Googlebot은 크롤링 속도를 자발적으로 줄인다.

대응 전략은 원인별로 구체적이어야 한다. 파라미터 중복은 Google Search Console의 "URL 매개변수" 설정과 canonical 태그로 처리한다. 불필요한 파라미터 조합은 robots.txtDisallow로 사전에 차단한다. 소프트 404는 서버 레벨에서 실제 404 상태 코드를 반환하도록 수정해야 하며, Search Console의 "색인 생성 범위" 리포트에서 "크롤링됨 - 현재 색인이 생성되지 않음" 항목을 정기적으로 모니터링한다.

# robots.txt: 크롤링 예산 낭비 방지 예시
User-agent: Googlebot
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /search/
Disallow: /internal/admin/

Sitemap: https://example.com/sitemap-index.xml

서버 응답 속도 개선은 크롤링 예산 확보의 가장 직접적인 방법이다. Google Search Central의 공식 문서 "Large site owner's guide to managing your crawl budget"에서는 "서버 응답 시간이 2초 이상인 경우 크롤링 효율이 현저히 저하된다"고 명시하고 있다. CDN 적용, 서버 사이드 캐싱, 데이터베이스 쿼리 최적화는 SEO 이전에 인프라 레벨에서 선행되어야 할 작업이다.

구현 체크리스트는 다음과 같다. 첫째, Search Console의 "크롤링 통계" 리포트에서 일일 크롤링 요청 수와 평균 응답 시간을 주 1회 점검한다. 둘째, XML 사이트맵에는 인덱싱 대상 페이지만 포함하고, noindex 페이지나 리디렉트 URL은 제거한다. 셋째, 중복 URL 생성 가능성이 있는 파라미터는 robots.txt에서 사전 차단하고, 정규화 대상에는 canonical 태그를 적용한다. 넷째, 서버 응답 시간을 1초 이내로 유지하기 위한 성능 모니터링을 상시 운영한다.

이정민

SEO팀 책임

이정민

자바스크립트 렌더링, 코어 웹 바이탈 개선, 대규모 크롤링 예산(Crawl Budget) 최적화 등 테크니컬 SEO 퍼포먼스를 전담합니다.

SEO SOVISS 전체 집필진 보기 →