robots.txt 설계와 크롤러 제어 전략 (AI 봇 포함)
robots.txt의 문법, Disallow·Allow·Crawl-delay 지시어, AI 크롤러(GPTBot·ClaudeBot) 허용 설정, 흔한 실수까지 완전 정리합니다.
robots.txt란 무엇인가
robots.txt는 웹 서버 루트에 위치한 텍스트 파일로, 검색엔진 크롤러가 어떤 경로를 방문할 수 있는지 알려주는 크롤러 접근 제어 파일입니다. 모든 준수하는 크롤러(Googlebot, Yeti, GPTBot 등)는 첫 크롤링 전에 반드시 이 파일을 확인합니다.
중요한 오해 바로잡기: robots.txt는 보안 도구가 아닙니다. 악의적인 봇은 이를 무시할 수 있습니다. 민감한 데이터 보호는 서버 인증·방화벽으로 해야 합니다. robots.txt는 크롤링 효율을 제어하는 도구입니다.
접근 URL: https://example.com/robots.txt
robots.txt 문법 완전 가이드
# 모든 크롤러 허용 (기본) User-agent: * Disallow: # 특정 경로 차단 User-agent: * Disallow: /admin/ Disallow: /api/ Disallow: /login/ Disallow: /cart/ Disallow: /*.pdf$ # 사이트맵 위치 명시 Sitemap: https://example.com/sitemap.xml # 크롤링 속도 제한 (일부 엔진 지원) Crawl-delay: 10
| 디렉티브 | 설명 | 예시 |
|---|---|---|
User-agent | 규칙이 적용될 봇 지정. *는 모든 봇 | User-agent: Googlebot |
Disallow | 크롤링 차단할 경로. 비어 있으면 전체 허용 | Disallow: /private/ |
Allow | Disallow 규칙 내 예외 허용 (Googlebot 지원) | Allow: /public/ |
Sitemap | XML 사이트맵 위치 명시 | Sitemap: https://example.com/sitemap.xml |
Crawl-delay | 크롤링 간격(초). Googlebot은 GSC에서 별도 설정 | Crawl-delay: 5 |
와일드카드 패턴 (Googlebot만 완전 지원)
| 패턴 | 의미 | 예시 |
|---|---|---|
* | 모든 문자 0개 이상 | Disallow: /*.pdf$ → .pdf로 끝나는 모든 URL |
$ | URL 끝 (end anchor) | Disallow: /search$ → /search 정확히 일치 |
2025년 AI 크롤러 완전 가이드 (최신)
2024~2025년 들어 AI 검색·생성 서비스가 급성장하면서 수십 개의 AI 크롤러가 웹을 순회하고 있습니다. 이들을 전략적으로 제어하는 것이 GEO(생성형 AI 최적화)의 핵심입니다.
| 회사 | 크롤러 이름 | 목적 | 권장 설정 |
|---|---|---|---|
| OpenAI | GPTBot | GPT 모델 학습 데이터 수집 | 선택적 (학습 참여 거부 가능) |
| ChatGPT-User | ChatGPT 브라우징 실시간 인용 | 허용 권장 (AI 인용 소스가 됨) | |
| OAI-SearchBot | ChatGPT 검색 기능 색인 | 허용 권장 | |
| Anthropic | ClaudeBot | Claude 모델 학습 데이터 수집 | 선택적 |
| Claude-User | Claude 실시간 웹 접근 | 허용 권장 | |
| Claude-SearchBot | Claude 검색 색인 | 허용 권장 | |
| Perplexity | PerplexityBot | Perplexity AI 검색 색인 | 허용 권장 |
| Perplexity-User | 실시간 사용자 쿼리 대응 | 허용 권장 | |
| Google-Extended | Gemini 모델 학습 (Googlebot과 독립) | 선택적 (구글 검색에는 영향 없음) | |
| Apple | Applebot-Extended | Apple AI 기능 학습 | 선택적 |
핵심 구분: AI 크롤러는 크게 두 종류입니다. 학습(Training) 크롤러는 데이터를 모아 모델을 재훈련시키며 (GPTBot, ClaudeBot, Google-Extended 등), 인용(Citation) 크롤러는 실시간 검색·답변에 내 사이트를 인용할 때 사용합니다 (ChatGPT-User, Claude-User, PerplexityBot 등). GEO를 위해서는 인용 크롤러를 반드시 허용해야 합니다.
학습 크롤러 (Training)
- GPTBot (OpenAI)
- ClaudeBot (Anthropic)
- Google-Extended
- Applebot-Extended
- 모델 재훈련용 데이터 수집
- 차단해도 검색 순위 무관
인용 크롤러 (Citation)
- ChatGPT-User / OAI-SearchBot
- Claude-User / Claude-SearchBot
- PerplexityBot
- 실시간 답변·인용에 활용
- 차단 시 AI 검색에서 누락
- 허용해야 GEO 가능
추천 robots.txt 템플릿 (2025년 최신)
# ============================================= # robots.txt — SEO + GEO 최적화 템플릿 (2025) # ============================================= # 기본: 모든 봇에게 전체 허용 User-agent: * Disallow: /admin/ Disallow: /api/ Disallow: /login/ Disallow: /my-account/ Disallow: /cart/ Disallow: /checkout/ Disallow: /wp-admin/ Disallow: /search? Disallow: /*?sessionid= # ===== AI 학습 크롤러 선택적 차단 ===== # (학습 참여 원하지 않을 경우만 사용) # User-agent: GPTBot # Disallow: / # User-agent: ClaudeBot # Disallow: / # User-agent: Google-Extended # Disallow: / # ===== GEO를 위한 AI 인용 크롤러는 허용 ===== # ChatGPT-User, OAI-SearchBot, Claude-User, # Claude-SearchBot, PerplexityBot 은 차단하지 않음 # 사이트맵 Sitemap: https://example.com/sitemap.xml Sitemap: https://example.com/sitemap-blog.xml
robots.txt vs noindex 메타 태그: 올바른 선택
| 방법 | 크롤링 차단? | 색인 차단? | 언제 사용? |
|---|---|---|---|
| robots.txt Disallow | ✅ 차단 | ❌ 직접 차단 안 됨 (링크가 있으면 여전히 색인 가능) | 관리자 페이지, API, 로그인 페이지 등 크롤러 자원 낭비 방지 |
| noindex 메타 태그 | ❌ 차단 안 됨 | ✅ 색인 차단 | 크롤링은 허용하되 검색 결과 노출 원하지 않는 페이지 |
| 둘 다 적용 | ✅ 차단 | ⚠️ 모순: 크롤링 차단 시 noindex를 읽을 수 없음 | ❌ 권장하지 않음. noindex만 사용하는 것이 더 안전 |
흔한 실수: robots.txt로 차단한 페이지에 noindex를 추가하는 경우입니다. 크롤러가 페이지를 방문하지 않으면 noindex를 읽을 수 없어, 해당 페이지가 백링크로 인해 여전히 색인될 수 있습니다.
자주 묻는 질문 (FAQ)
Q. robots.txt가 없으면 어떻게 되나요?
Q. robots.txt로 페이지를 차단하면 검색 결과에서 사라지나요?
noindex 메타 태그를 사용하세요. 이때 robots.txt로 해당 페이지의 크롤링을 차단하면 안 됩니다(noindex를 읽을 수 없으므로).Q. AI 크롤러를 모두 차단해도 되나요?
Q. Google이 robots.txt를 무시하는 경우가 있나요?
Q. 네이버 Yeti와 Googlebot의 robots.txt 처리 차이가 있나요?
Crawl-delay 디렉티브를 지원하지만 Googlebot은 무시합니다(GSC에서 별도 설정). (2) Googlebot은 *와 $ 와일드카드를 완전히 지원하지만, Yeti의 와일드카드 지원은 제한적입니다. (3) 네이버 Search Advisor에서도 robots.txt 검증 도구를 제공하므로, 양쪽 모두에서 테스트하는 것을 권장합니다.