초급GoogleNaverAI 검색

robots.txt 설계와 크롤러 제어 전략 (AI 봇 포함)

핵심 요약 (TL;DR)

robots.txt의 문법, Disallow·Allow·Crawl-delay 지시어, AI 크롤러(GPTBot·ClaudeBot) 허용 설정, 흔한 실수까지 완전 정리합니다.

읽기 12 2025-03-22

robots.txt란 무엇인가

robots.txt는 웹 서버 루트에 위치한 텍스트 파일로, 검색엔진 크롤러가 어떤 경로를 방문할 수 있는지 알려주는 크롤러 접근 제어 파일입니다. 모든 준수하는 크롤러(Googlebot, Yeti, GPTBot 등)는 첫 크롤링 전에 반드시 이 파일을 확인합니다.

중요한 오해 바로잡기: robots.txt는 보안 도구가 아닙니다. 악의적인 봇은 이를 무시할 수 있습니다. 민감한 데이터 보호는 서버 인증·방화벽으로 해야 합니다. robots.txt는 크롤링 효율을 제어하는 도구입니다.

접근 URL: https://example.com/robots.txt

robots.txt 문법 완전 가이드

# 모든 크롤러 허용 (기본)
User-agent: *
Disallow:

# 특정 경로 차단
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /login/
Disallow: /cart/
Disallow: /*.pdf$

# 사이트맵 위치 명시
Sitemap: https://example.com/sitemap.xml

# 크롤링 속도 제한 (일부 엔진 지원)
Crawl-delay: 10
디렉티브설명예시
User-agent규칙이 적용될 봇 지정. *는 모든 봇User-agent: Googlebot
Disallow크롤링 차단할 경로. 비어 있으면 전체 허용Disallow: /private/
AllowDisallow 규칙 내 예외 허용 (Googlebot 지원)Allow: /public/
SitemapXML 사이트맵 위치 명시Sitemap: https://example.com/sitemap.xml
Crawl-delay크롤링 간격(초). Googlebot은 GSC에서 별도 설정Crawl-delay: 5

와일드카드 패턴 (Googlebot만 완전 지원)

패턴의미예시
*모든 문자 0개 이상Disallow: /*.pdf$ → .pdf로 끝나는 모든 URL
$URL 끝 (end anchor)Disallow: /search$ → /search 정확히 일치

2025년 AI 크롤러 완전 가이드 (최신)

2024~2025년 들어 AI 검색·생성 서비스가 급성장하면서 수십 개의 AI 크롤러가 웹을 순회하고 있습니다. 이들을 전략적으로 제어하는 것이 GEO(생성형 AI 최적화)의 핵심입니다.

회사크롤러 이름목적권장 설정
OpenAI GPTBot GPT 모델 학습 데이터 수집 선택적 (학습 참여 거부 가능)
ChatGPT-User ChatGPT 브라우징 실시간 인용 허용 권장 (AI 인용 소스가 됨)
OAI-SearchBot ChatGPT 검색 기능 색인 허용 권장
Anthropic ClaudeBot Claude 모델 학습 데이터 수집 선택적
Claude-User Claude 실시간 웹 접근 허용 권장
Claude-SearchBot Claude 검색 색인 허용 권장
Perplexity PerplexityBot Perplexity AI 검색 색인 허용 권장
Perplexity-User 실시간 사용자 쿼리 대응 허용 권장
Google Google-Extended Gemini 모델 학습 (Googlebot과 독립) 선택적 (구글 검색에는 영향 없음)
Apple Applebot-Extended Apple AI 기능 학습 선택적

핵심 구분: AI 크롤러는 크게 두 종류입니다. 학습(Training) 크롤러는 데이터를 모아 모델을 재훈련시키며 (GPTBot, ClaudeBot, Google-Extended 등), 인용(Citation) 크롤러는 실시간 검색·답변에 내 사이트를 인용할 때 사용합니다 (ChatGPT-User, Claude-User, PerplexityBot 등). GEO를 위해서는 인용 크롤러를 반드시 허용해야 합니다.

학습 크롤러 (Training)

  • GPTBot (OpenAI)
  • ClaudeBot (Anthropic)
  • Google-Extended
  • Applebot-Extended
  • 모델 재훈련용 데이터 수집
  • 차단해도 검색 순위 무관
vs

인용 크롤러 (Citation)

  • ChatGPT-User / OAI-SearchBot
  • Claude-User / Claude-SearchBot
  • PerplexityBot
  • 실시간 답변·인용에 활용
  • 차단 시 AI 검색에서 누락
  • 허용해야 GEO 가능

추천 robots.txt 템플릿 (2025년 최신)

# =============================================
# robots.txt — SEO + GEO 최적화 템플릿 (2025)
# =============================================

# 기본: 모든 봇에게 전체 허용
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /login/
Disallow: /my-account/
Disallow: /cart/
Disallow: /checkout/
Disallow: /wp-admin/
Disallow: /search?
Disallow: /*?sessionid=

# ===== AI 학습 크롤러 선택적 차단 =====
# (학습 참여 원하지 않을 경우만 사용)
# User-agent: GPTBot
# Disallow: /

# User-agent: ClaudeBot
# Disallow: /

# User-agent: Google-Extended
# Disallow: /

# ===== GEO를 위한 AI 인용 크롤러는 허용 =====
# ChatGPT-User, OAI-SearchBot, Claude-User,
# Claude-SearchBot, PerplexityBot 은 차단하지 않음

# 사이트맵
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-blog.xml

robots.txt vs noindex 메타 태그: 올바른 선택

방법크롤링 차단?색인 차단?언제 사용?
robots.txt Disallow ✅ 차단 ❌ 직접 차단 안 됨 (링크가 있으면 여전히 색인 가능) 관리자 페이지, API, 로그인 페이지 등 크롤러 자원 낭비 방지
noindex 메타 태그 ❌ 차단 안 됨 ✅ 색인 차단 크롤링은 허용하되 검색 결과 노출 원하지 않는 페이지
둘 다 적용 ✅ 차단 ⚠️ 모순: 크롤링 차단 시 noindex를 읽을 수 없음 ❌ 권장하지 않음. noindex만 사용하는 것이 더 안전

흔한 실수: robots.txt로 차단한 페이지에 noindex를 추가하는 경우입니다. 크롤러가 페이지를 방문하지 않으면 noindex를 읽을 수 없어, 해당 페이지가 백링크로 인해 여전히 색인될 수 있습니다.

자주 묻는 질문 (FAQ)

Q. robots.txt가 없으면 어떻게 되나요?
robots.txt가 없거나 404를 반환하면, 크롤러는 사이트 전체를 크롤링 허용으로 해석합니다. 대부분의 소규모 사이트에서는 문제가 되지 않지만, 크롤 버짓이 제한된 대형 사이트에서는 관리자 페이지, 검색 결과 페이지 등 불필요한 URL까지 크롤링하여 자원을 낭비할 수 있습니다.
Q. robots.txt로 페이지를 차단하면 검색 결과에서 사라지나요?
반드시 사라지는 것은 아닙니다. robots.txt는 크롤링만 차단합니다. 다른 사이트에서 해당 URL로 백링크가 있으면 Google이 URL을 "발견"하여 제목 없이 색인할 수 있습니다. 검색 결과에서 완전히 제거하려면 noindex 메타 태그를 사용하세요. 이때 robots.txt로 해당 페이지의 크롤링을 차단하면 안 됩니다(noindex를 읽을 수 없으므로).
Q. AI 크롤러를 모두 차단해도 되나요?
가능하지만 권장하지 않습니다. 학습 크롤러(GPTBot, ClaudeBot, Google-Extended)를 차단하면 모델 학습에 사용되지 않을 뿐 검색 순위에는 영향이 없습니다. 하지만 인용 크롤러(ChatGPT-User, PerplexityBot, OAI-SearchBot)까지 차단하면 AI 검색 결과에서 완전히 누락됩니다. 2025년 AI 검색 트래픽이 빠르게 성장하고 있으므로, 인용 크롤러는 허용하는 것이 전략적으로 유리합니다.
Q. Google이 robots.txt를 무시하는 경우가 있나요?
Googlebot 자체는 robots.txt를 준수합니다. 하지만 두 가지 예외가 있습니다: (1) robots.txt로 차단된 URL이라도 외부 백링크가 있으면 URL 자체는 색인될 수 있습니다(내용 없이 URL만 표시). (2) robots.txt 파일이 5시간 이상 접근 불가(503 에러)하면, Google이 기존 캐시된 규칙 대신 "전체 허용"으로 처리할 수 있습니다.
Q. 네이버 Yeti와 Googlebot의 robots.txt 처리 차이가 있나요?
네, 주요 차이가 있습니다. (1) Yeti는 Crawl-delay 디렉티브를 지원하지만 Googlebot은 무시합니다(GSC에서 별도 설정). (2) Googlebot은 *$ 와일드카드를 완전히 지원하지만, Yeti의 와일드카드 지원은 제한적입니다. (3) 네이버 Search Advisor에서도 robots.txt 검증 도구를 제공하므로, 양쪽 모두에서 테스트하는 것을 권장합니다.

지금 읽으신 SEO 지식, 바로 적용해보세요!

검색엔진 최적화는 실전입니다. SEO SOVISS의 무료 분석 도구로 내 웹사이트의 오디트 점수를 즉시 확인하고 기술적 문제점을 점검해보세요.

내 웹사이트 진단하기 →
이정민

SEO팀 책임

이정민

자바스크립트 렌더링, 코어 웹 바이탈 개선, 대규모 크롤링 예산(Crawl Budget) 최적화 등 테크니컬 SEO 퍼포먼스를 전담합니다.

SEO SOVISS 전체 집필진 보기 →