초급GoogleNaverAI 검색

robots.txt 설계와 크롤러 제어 전략 (AI 봇 포함)

Q: Q. robots.txt가 없으면 어떻게 되나요?

robots.txt가 없거나 404를 반환하면, 크롤러는 사이트 전체를 크롤링 허용으로 해석합니다. 대부분의 소규모 사이트에서는 문제가 되지 않지만, 크롤 버짓이 제한된 대형 사이트에서는 관리자 페이지, 검색 결과 페이지 등 불필요한 URL까지 크롤링하여 자원을 낭비할 수 있습니다.

Q: Q. robots.txt로 페이지를 차단하면 검색 결과에서 사라지나요?

반드시 사라지는 것은 아닙니다. robots.txt는 크롤링만 차단합니다. 다른 사이트에서 해당 URL로 백링크가 있으면 Google이 URL을 "발견"하여 제목 없이 색인할 수 있습니다. 검색 결과에서 완전히 제거하려면 noindex 메타 태그를 사용하세요. 이때 robots.txt로 해당 페이지의 크롤링을 차단하면 안 됩니다(noindex를 읽을 수 없으므로).

Q: Q. Google이 robots.txt를 무시하는 경우가 있나요?

Googlebot 자체는 robots.txt를 준수합니다. 하지만 두 가지 예외가 있습니다: (1) robots.txt로 차단된 URL이라도 외부 백링크가 있으면 URL 자체는 색인될 수 있습니다(내용 없이 URL만 표시). (2) robots.txt 파일이 5시간 이상 접근 불가(503 에러)하면, Google이 기존 캐시된 규칙 대신 "전체 허용"으로 처리할 수 있습니다.

Q: Q. 네이버 Yeti와 Googlebot의 robots.txt 처리 차이가 있나요?

네, 주요 차이가 있습니다. (1) Yeti는 Crawl-delay 디렉티브를 지원하지만 Googlebot은 무시합니다(GSC에서 별도 설정). (2) Googlebot은 *와 $ 와일드카드를 완전히 지원하지만, Yeti의 와일드카드 지원은 제한적입니다. (3) 네이버 Search Advisor에서도 robots.txt 검증 도구를 제공하므로, 양쪽 모두에서 테스트하는 것을 권장합니다.

핵심 요약 (TL;DR)

robots.txt의 문법, Disallow·Allow·Crawl-delay 지시어, AI 크롤러(GPTBot·ClaudeBot) 허용 설정, 흔한 실수까지 완전 정리합니다.

읽기 12분 2025-03-22

robots.txt란 무엇인가

robots.txt는 웹 서버 루트에 위치한 텍스트 파일로, 검색엔진 크롤러가 어떤 경로를 방문할 수 있는지 알려주는 크롤러 접근 제어 파일입니다. 모든 준수하는 크롤러(Googlebot, Yeti, GPTBot 등)는 첫 크롤링 전에 반드시 이 파일을 확인합니다.

중요한 오해 바로잡기: robots.txt는 보안 도구가 아닙니다. 악의적인 봇은 이를 무시할 수 있습니다. 민감한 데이터 보호는 서버 인증·방화벽으로 해야 합니다. robots.txt는 크롤링 효율을 제어하는 도구입니다.

접근 URL: https://example.com/robots.txt

robots.txt 문법 완전 가이드

# 모든 크롤러 허용 (기본)
User-agent: *
Disallow:

# 특정 경로 차단
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /login/
Disallow: /cart/
Disallow: /*.pdf$

# 사이트맵 위치 명시
Sitemap: https://example.com/sitemap.xml

# 크롤링 속도 제한 (일부 엔진 지원)
Crawl-delay: 10

디렉티브	설명	예시
`User-agent`	규칙이 적용될 봇 지정. `*`는 모든 봇	`User-agent: Googlebot`
`Disallow`	크롤링 차단할 경로. 비어 있으면 전체 허용	`Disallow: /private/`
`Allow`	Disallow 규칙 내 예외 허용 (Googlebot 지원)	`Allow: /public/`
`Sitemap`	XML 사이트맵 위치 명시	`Sitemap: https://example.com/sitemap.xml`
`Crawl-delay`	크롤링 간격(초). Googlebot은 GSC에서 별도 설정	`Crawl-delay: 5`

와일드카드 패턴 (Googlebot만 완전 지원)

패턴	의미	예시
`*`	모든 문자 0개 이상	`Disallow: /*.pdf$` → .pdf로 끝나는 모든 URL
`$`	URL 끝 (end anchor)	`Disallow: /search$` → /search 정확히 일치

2025년 AI 크롤러 완전 가이드 (최신)

2024~2025년 들어 AI 검색·생성 서비스가 급성장하면서 수십 개의 AI 크롤러가 웹을 순회하고 있습니다. 이들을 전략적으로 제어하는 것이 GEO(생성형 AI 최적화)의 핵심입니다.

회사	크롤러 이름	목적	권장 설정
OpenAI	GPTBot	GPT 모델 학습 데이터 수집	선택적 (학습 참여 거부 가능)
	ChatGPT-User	ChatGPT 브라우징 실시간 인용	허용 권장 (AI 인용 소스가 됨)
	OAI-SearchBot	ChatGPT 검색 기능 색인	허용 권장
Anthropic	ClaudeBot	Claude 모델 학습 데이터 수집	선택적
	Claude-User	Claude 실시간 웹 접근	허용 권장
	Claude-SearchBot	Claude 검색 색인	허용 권장
Perplexity	PerplexityBot	Perplexity AI 검색 색인	허용 권장
Perplexity	Perplexity-User	실시간 사용자 쿼리 대응	허용 권장
Google	Google-Extended	Gemini 모델 학습 (Googlebot과 독립)	선택적 (구글 검색에는 영향 없음)
Apple	Applebot-Extended	Apple AI 기능 학습	선택적

핵심 구분: AI 크롤러는 크게 두 종류입니다. 학습(Training) 크롤러는 데이터를 모아 모델을 재훈련시키며 (GPTBot, ClaudeBot, Google-Extended 등), 인용(Citation) 크롤러는 실시간 검색·답변에 내 사이트를 인용할 때 사용합니다 (ChatGPT-User, Claude-User, PerplexityBot 등). GEO를 위해서는 인용 크롤러를 반드시 허용해야 합니다.

학습 크롤러 (Training)

GPTBot (OpenAI)
ClaudeBot (Anthropic)
Google-Extended
Applebot-Extended
모델 재훈련용 데이터 수집
차단해도 검색 순위 무관

인용 크롤러 (Citation)

ChatGPT-User / OAI-SearchBot
Claude-User / Claude-SearchBot
PerplexityBot
실시간 답변·인용에 활용
차단 시 AI 검색에서 누락
허용해야 GEO 가능

robots.txt vs noindex 메타 태그: 올바른 선택

방법	크롤링 차단?	색인 차단?	언제 사용?
robots.txt Disallow	✅ 차단	❌ 직접 차단 안 됨 (링크가 있으면 여전히 색인 가능)	관리자 페이지, API, 로그인 페이지 등 크롤러 자원 낭비 방지
noindex 메타 태그	❌ 차단 안 됨	✅ 색인 차단	크롤링은 허용하되 검색 결과 노출 원하지 않는 페이지
둘 다 적용	✅ 차단	⚠️ 모순: 크롤링 차단 시 noindex를 읽을 수 없음	❌ 권장하지 않음. noindex만 사용하는 것이 더 안전

흔한 실수: robots.txt로 차단한 페이지에 noindex를 추가하는 경우입니다. 크롤러가 페이지를 방문하지 않으면 noindex를 읽을 수 없어, 해당 페이지가 백링크로 인해 여전히 색인될 수 있습니다.

robots.txt가 https://example.com/robots.txt 에서 접근 가능한지 확인했다404가 뜨면 모든 크롤러에 전체 허용으로 처리됨Google Search Console → robots.txt 테스트 도구로 중요 URL 차단 여부를 검증했다핵심 랜딩 페이지가 실수로 차단되지 않았는지 확인Sitemap 디렉티브로 XML 사이트맵 위치를 명시했다Sitemap: https://example.com/sitemap.xml 형식AI 인용 크롤러(ChatGPT-User, PerplexityBot, OAI-SearchBot 등)를 차단하지 않았다GEO를 위해 인용 크롤러는 반드시 허용robots.txt로 차단한 페이지에 noindex를 중복 적용하지 않았다크롤링 차단 시 noindex를 읽을 수 없어 모순 발생중요한 CSS·JS 파일이 차단되어 있지 않은지 확인했다Google이 페이지를 렌더링하지 못하면 순위에 악영향www와 non-www, HTTP와 HTTPS 양쪽에 robots.txt가 올바르게 설정되어 있다각 프로토콜/서브도메인별로 별도 robots.txt가 필요Crawl-delay 설정이 Googlebot에는 적용되지 않음을 인지했다Googlebot 크롤링 속도는 GSC에서 별도 설정

자주 묻는 질문 (FAQ)

Q. robots.txt가 없으면 어떻게 되나요?

robots.txt가 없거나 404를 반환하면, 크롤러는 사이트 전체를 크롤링 허용으로 해석합니다. 대부분의 소규모 사이트에서는 문제가 되지 않지만, 크롤 버짓이 제한된 대형 사이트에서는 관리자 페이지, 검색 결과 페이지 등 불필요한 URL까지 크롤링하여 자원을 낭비할 수 있습니다.

Q. robots.txt로 페이지를 차단하면 검색 결과에서 사라지나요?

반드시 사라지는 것은 아닙니다. robots.txt는 크롤링만 차단합니다. 다른 사이트에서 해당 URL로 백링크가 있으면 Google이 URL을 "발견"하여 제목 없이 색인할 수 있습니다. 검색 결과에서 완전히 제거하려면 noindex 메타 태그를 사용하세요. 이때 robots.txt로 해당 페이지의 크롤링을 차단하면 안 됩니다(noindex를 읽을 수 없으므로).

Q. AI 크롤러를 모두 차단해도 되나요?

가능하지만 권장하지 않습니다. 학습 크롤러(GPTBot, ClaudeBot, Google-Extended)를 차단하면 모델 학습에 사용되지 않을 뿐 검색 순위에는 영향이 없습니다. 하지만 인용 크롤러(ChatGPT-User, PerplexityBot, OAI-SearchBot)까지 차단하면 AI 검색 결과에서 완전히 누락됩니다. 2025년 AI 검색 트래픽이 빠르게 성장하고 있으므로, 인용 크롤러는 허용하는 것이 전략적으로 유리합니다.

Q. Google이 robots.txt를 무시하는 경우가 있나요?

Googlebot 자체는 robots.txt를 준수합니다. 하지만 두 가지 예외가 있습니다: (1) robots.txt로 차단된 URL이라도 외부 백링크가 있으면 URL 자체는 색인될 수 있습니다(내용 없이 URL만 표시). (2) robots.txt 파일이 5시간 이상 접근 불가(503 에러)하면, Google이 기존 캐시된 규칙 대신 "전체 허용"으로 처리할 수 있습니다.

Q. 네이버 Yeti와 Googlebot의 robots.txt 처리 차이가 있나요?

네, 주요 차이가 있습니다. (1) Yeti는 Crawl-delay 디렉티브를 지원하지만 Googlebot은 무시합니다(GSC에서 별도 설정). (2) Googlebot은 *와 $ 와일드카드를 완전히 지원하지만, Yeti의 와일드카드 지원은 제한적입니다. (3) 네이버 Search Advisor에서도 robots.txt 검증 도구를 제공하므로, 양쪽 모두에서 테스트하는 것을 권장합니다.

SEO팀 책임

이정민

자바스크립트 렌더링, 코어 웹 바이탈 개선, 대규모 크롤링 예산(Crawl Budget) 최적화 등 테크니컬 SEO 퍼포먼스를 전담합니다.

SEO SOVISS 전체 집필진 보기 →