중급Google

크롤 버짓(Crawl Budget) 최적화: 대규모 사이트 전략

핵심 요약 (TL;DR)

크롤 버짓의 정의(크롤 수요·크롤 용량), 대규모 사이트에서 버짓이 낭비되는 원인과 robots.txt·noindex·canonical로 효율을 높이는 전략을 설명합니다.

읽기 15 2025-03-22

크롤 버짓이란 무엇인가

크롤 버짓(Crawl Budget)은 Googlebot이 특정 기간 내에 한 사이트에서 크롤링하는 페이지 수입니다. Google의 공식 문서에 따르면 크롤 버짓은 두 가지 요소로 결정됩니다.

요소설명
크롤 속도 한도 (Crawl Rate Limit) 서버에 과부하를 주지 않기 위해 구글이 스스로 설정하는 크롤링 속도 상한선. 서버 응답 시간이 느릴수록 크롤 속도가 낮아짐.
크롤 수요 (Crawl Demand) 사이트의 인기도와 URL의 신선도에 따라 구글이 크롤링하고 싶어 하는 정도. 인기 있는 페이지, 새 콘텐츠는 더 자주 크롤링.

크롤 버짓이 중요한 시점: 소규모 사이트(수천 페이지 이하)는 크롤 버짓이 거의 문제되지 않습니다. 수십만~수백만 페이지 이상의 대규모 사이트 또는 크롤링 속도가 느린 사이트에서 핵심 이슈가 됩니다.

크롤 버짓을 낭비하는 5가지 주요 요인

요인설명해결 방법
URL 파라미터 남용 ?sort=, ?filter=, ?page= 등으로 수천 개의 중복 URL 생성 canonical 설정 + GSC 파라미터 도구에서 무시 처리
세션 ID가 URL에 포함 사용자마다 다른 URL 생성 (무한한 중복) 쿠키 기반 세션으로 전환, URL 파라미터 제거
저품질 페이지 과다 내용이 거의 없는 자동 생성 페이지 수천 개 noindex 처리 또는 통합·삭제
무한 스크롤/페이지네이션 크롤러가 끝없이 페이지를 탐색 robots.txt로 무한 페이지 경로 차단 또는 노출 페이지 수 제한
느린 서버 응답 TTFB가 높아 크롤러 속도 저하 CDN 도입, 서버 성능 최적화, 캐싱 설정

크롤 버짓 최적화 전략

1. 중요하지 않은 URL 차단

# robots.txt — 크롤 버짓 낭비 방지
User-agent: *
Disallow: /search?        # 검색 결과 파라미터
Disallow: /filter/        # 필터 조합 페이지
Disallow: /sort/          # 정렬 변형 페이지
Disallow: /*?sessionid=   # 세션 ID 파라미터
Disallow: /tag/           # 태그 페이지 (콘텐츠 얇은 경우)

2. 내부 링크 구조 최적화

중요 페이지로 더 많은 내부 링크가 연결될수록 크롤러가 해당 페이지를 더 자주 방문합니다. 고아 페이지는 크롤 버짓에서 발견되기 어렵습니다.

3. 신선도 신호 강화

콘텐츠를 업데이트하고 lastmod를 사이트맵에 정확히 반영하면 구글이 해당 페이지를 더 자주 크롤링합니다.

4. Search Console에서 크롤링 현황 모니터링

GSC → 설정 → 크롤링 통계에서 일평균 크롤링 페이지 수와 크롤링 오류를 확인할 수 있습니다.

100K+크롤 버짓이 중요해지는 규모페이지 이상의 사이트
< 200ms이상적 서버 응답 시간TTFB 기준

크롤링 현황 확인 방법

Google Search Console 크롤링 통계

GSC → 설정 → 크롤링 통계 보고서에서 다음을 확인합니다:

  • 일평균 페이지 크롤링 수 추세
  • 크롤링별 응답 코드 분포 (404·5xx 오류 비율)
  • 파일 유형별 크롤링 현황 (HTML·CSS·JS·이미지)

서버 로그 직접 분석

웹서버 로그에서 User-Agent가 Googlebot인 요청을 필터링하면 실제 크롤링 행동을 정확히 파악할 수 있습니다.

자주 묻는 질문 (FAQ)

Q. 소규모 사이트도 크롤 버짓을 신경 써야 하나요?
대부분의 소규모 사이트(수천 페이지 이하)는 크롤 버짓 걱정이 필요 없습니다. Google은 공식 문서에서 "대부분의 사이트는 크롤 버짓이 문제되지 않는다"고 밝혔습니다. 크롤 버짓 최적화는 수십만 페이지 이상의 대규모 사이트, URL 파라미터로 수백만 개의 URL이 생성되는 이커머스 사이트, 서버 응답이 느린 사이트에서 중요합니다.
Q. GSC에서 크롤링 속도를 직접 조절할 수 있나요?
네, Google Search Console → 설정 → 크롤링 속도에서 조절할 수 있습니다. 하지만 이 설정은 크롤링 속도의 상한선만 낮추는 것이며, 속도를 높이는 것은 불가능합니다. 서버 부하 문제로 크롤링을 줄여야 할 때만 사용하세요. 근본적인 해결은 서버 성능 개선입니다.
Q. Googlebot이 크롤링하지 않는 페이지는 어떻게 하나요?
Googlebot이 크롤링하지 않는 페이지(고아 페이지)는 (1) 사이트맵에 해당 URL을 추가하고, (2) 메인 콘텐츠에서 내부 링크를 연결하고, (3) GSC에서 "URL 검사 → 색인 생성 요청"을 합니다. 근본적으로는 사이트 구조를 개선하여 중요 페이지가 3클릭 이내에 도달할 수 있도록 해야 합니다.
Q. 크롤링 빈도와 순위는 관련이 있나요?
직접적인 상관관계는 없습니다. Google은 "크롤링 빈도가 랭킹에 영향을 미치지 않는다"고 공식 밝혔습니다. 다만, 크롤 버짓이 부족하여 중요 페이지가 제때 크롤링·인덱싱되지 않으면 새 콘텐츠나 업데이트가 검색 결과에 반영되는 것이 지연될 수 있습니다.
Q. 서버 로그 분석 없이 크롤링 현황을 확인할 수 있나요?
네, GSC → 설정 → 크롤링 통계에서 기본적인 크롤링 현황(일평균 크롤링 수, 응답 코드 분포, 파일 유형별 현황)을 확인할 수 있습니다. 하지만 GSC는 샘플 데이터만 제공하므로, 정확한 크롤링 행동 분석에는 서버 로그 파일 직접 분석이 가장 정확합니다.

지금 읽으신 SEO 지식, 바로 적용해보세요!

검색엔진 최적화는 실전입니다. SEO SOVISS의 무료 분석 도구로 내 웹사이트의 오디트 점수를 즉시 확인하고 기술적 문제점을 점검해보세요.

내 웹사이트 진단하기 →
정수아

데이터분석팀 선임

정수아

GA4, Search Console 및 서버 로그 데이터를 기반으로 사용자 행동을 분석하고 트래픽 갭(Traffic Gap)을 도출합니다.

SEO SOVISS 전체 집필진 보기 →