You make me want to become a better person :D

IT상식/인터넷 팁

Robot.txt 란 무엇일까? 웹 크롤러 차단하는 방법

Hhwang 2021. 4. 8. 18:59
반응형

robot.txt에 대해서

Robots.txt 파일이란 웹 크롤러(Web Crawlers)와 같은

착한 로봇들의 행동을 관리하는 것을 말합니다.

우리가 이 로봇들을 관리해서 원하는 페이지를

노출이 되게 혹은 노출이 안되도록 다루는 기술을 가지고 있습니다.

 

유명한 로봇들을 살펴보자면

Google: Googlebot

Google image: Googlebot-image

Msn: MSNBot

Naver: Yeti (2005년 이전엔 Naverbot)
Daum: Daumoa

 

우리의 삶처럼 마찬가지로

인터넷 세상에도 착한 로봇과 나쁜 로봇이 존재합니다.

이 로봇들이 포털사이트(Google, Bing, Baidu)를 돌아다니며

정보를 수집하며 웹 크롤러와 같은 착한 종류의 로봇들은

사이트를 돌아다니면서 검색엔진 결과에 잘 노출되도록 합니다.

즉 우리가 포털 사이트에서 검색을 했을 때

우리가 원하는 사이트가 사용자들에게 잘 보여지는 겁니다.

 

한마디로 PC방, 당구장, 식당 벽에 ‘주의사항’ 이

벽에 붙어있어도 어떤 사람들은

규칙을 무시하고 어떤 사람들은

규칙을 따르는 것과 같은 맥락 입니다.


robot.txt에 대해서

◆ Robots.txt 파일은 HTML 마크업 코드가 없고

웹사이트의 다른 파일들처럼

웹서버에서 호스팅 됩니다.

파일은 사이트의 어디에도 연결되지 않아

사용자가 파일을 우연히 볼일은 적지만

대부분의 웹 크롤러 봇들은 나머지 사이트를

크롤링하기 전에 먼저 이 파일을 찾아냅니다.

 

로봇들에 대한 지침을 제공하지만

실제로 지침을 시행할 수는 없습니다.

웹 크롤러와 같이 착한 로봇은

도메인의 다른 페이지를 보기전에 먼저

Robots.txt 파일을 방문하려고 합니다.

반면, 나쁜 로봇은 Robots.txt 파일을 무시하거나

금지된 웹페이지를 찾으려고 이를 진행하기도 합니다.

 

웹 크롤러 로봇은 Robots.txt 파일에서

가장 구체적인 지침을 따르고 파일에

모순된 명령이 있을 땐 보다

세부적인 명령을 따릅니다.

 

중요한 건 모든 서브 도메인에

자체 Robots.txt 파일이 필요합니다.

 

로봇 관리는 웹 사이트나 응용 프로그램을

실행하고 유지하는 데에 아주 중요합니다.

착한 로봇의 활동조차 오리진 서버에

부담이 가해져 웹 속성이 느려 지거나

중단될 수도 있기 때문입니다.

잘 구성된 Robots.txt 파일은

SEO에 최적화된 웹사이트를 유지하고

착한 로봇의 활동을 통제할 수 있습니다.

 

Robots.txt 파일에 사용되는

프로토콜은 다음과 같습니다.


robot.txt에 대해서

Robots.txt 기본 문법 알아보기

 

– User-Agent: 웹사이트 관리자가 어떤 종류의

로봇이 크롤링을 하는지 알 수 있게 돕는다.

 

– Disallow: 이 명령은 어떤 웹페이지 URL을

크롤링 하지 않아야 하는지 알려줍니다.

 

– Allow: 모든 검색엔진이 이 명령을 인식하지는 않지만

특정 웹페이지나 디렉토리에 접근하라는 명령입니다.

 

– Crawl-delay: 검색엔진 스파이더 봇이 서버를

과도하게 사용하지 못하도록 대기하라는 명령입니다.

 

– Robots Exclusion Protocol

 

– Sitemaps Protocol


robots.txt는 웹사이트에 웹 크롤러같은

로봇들의 접근을 제어하기 위한 규약입니다.

아직 권고안이라 꼭 지킬 의무는 없다고 합니다.

크롤러들은 주로 검색엔진들의

인덱싱 목적으로 사용되는데,

웹사이트들 입장에서도 더 많은 검색 노출을

원하는게 일반적이므로 딱히 막을 이유는 없습니다.

 

다만 서버의 트레픽이 한정돼있거나

검색엔진에의 노출을 원하지 않는 경우,

이 robots.txt에 “안내문” 형식으로 특정 경로에 대한

크롤링을 자제해 줄 것을 권고하는 것입니다.

지킬 의무가 없다고 하나 지켜주는게 상식이며,

마찬가지로 서버 주인 입장에서는 원치않는

크롤링이 들어오는데도 계속해서 서비스를 제공할

의무 또한 없으므로 크롤러의

아이피를 차단하면 그만입니다.

robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다.

즉, 사이트를 치고 슬래시 후 바로

robots.txt를 넣으면 볼 수 있다는 것입니다.

반응형