Robots.txt 파일이란 웹 크롤러(Web Crawlers)와 같은
착한 로봇들의 행동을 관리하는 것을 말합니다.
우리가 이 로봇들을 관리해서 원하는 페이지를
노출이 되게 혹은 노출이 안되도록 다루는 기술을 가지고 있습니다.
유명한 로봇들을 살펴보자면
Google: Googlebot
Google image: Googlebot-image
Msn: MSNBot
Naver: Yeti (2005년 이전엔 Naverbot)
Daum: Daumoa
우리의 삶처럼 마찬가지로
인터넷 세상에도 착한 로봇과 나쁜 로봇이 존재합니다.
이 로봇들이 포털사이트(Google, Bing, Baidu)를 돌아다니며
정보를 수집하며 웹 크롤러와 같은 착한 종류의 로봇들은
사이트를 돌아다니면서 검색엔진 결과에 잘 노출되도록 합니다.
즉 우리가 포털 사이트에서 검색을 했을 때
우리가 원하는 사이트가 사용자들에게 잘 보여지는 겁니다.
한마디로 PC방, 당구장, 식당 벽에 ‘주의사항’ 이
벽에 붙어있어도 어떤 사람들은
규칙을 무시하고 어떤 사람들은
규칙을 따르는 것과 같은 맥락 입니다.
◆ Robots.txt 파일은 HTML 마크업 코드가 없고
웹사이트의 다른 파일들처럼
웹서버에서 호스팅 됩니다.
파일은 사이트의 어디에도 연결되지 않아
사용자가 파일을 우연히 볼일은 적지만
대부분의 웹 크롤러 봇들은 나머지 사이트를
크롤링하기 전에 먼저 이 파일을 찾아냅니다.
◆로봇들에 대한 지침을 제공하지만
실제로 지침을 시행할 수는 없습니다.
웹 크롤러와 같이 착한 로봇은
도메인의 다른 페이지를 보기전에 먼저
Robots.txt 파일을 방문하려고 합니다.
반면, 나쁜 로봇은 Robots.txt 파일을 무시하거나
금지된 웹페이지를 찾으려고 이를 진행하기도 합니다.
◆웹 크롤러 로봇은 Robots.txt 파일에서
가장 구체적인 지침을 따르고 파일에
모순된 명령이 있을 땐 보다
세부적인 명령을 따릅니다.
◆중요한 건 모든 서브 도메인에
자체 Robots.txt 파일이 필요합니다.
◆로봇 관리는 웹 사이트나 응용 프로그램을
실행하고 유지하는 데에 아주 중요합니다.
착한 로봇의 활동조차 오리진 서버에
부담이 가해져 웹 속성이 느려 지거나
중단될 수도 있기 때문입니다.
잘 구성된 Robots.txt 파일은
SEO에 최적화된 웹사이트를 유지하고
착한 로봇의 활동을 통제할 수 있습니다.
◆Robots.txt 파일에 사용되는
프로토콜은 다음과 같습니다.
Robots.txt 기본 문법 알아보기
– User-Agent: 웹사이트 관리자가 어떤 종류의
로봇이 크롤링을 하는지 알 수 있게 돕는다.
– Disallow: 이 명령은 어떤 웹페이지 URL을
크롤링 하지 않아야 하는지 알려줍니다.
– Allow: 모든 검색엔진이 이 명령을 인식하지는 않지만
특정 웹페이지나 디렉토리에 접근하라는 명령입니다.
– Crawl-delay: 검색엔진 스파이더 봇이 서버를
과도하게 사용하지 못하도록 대기하라는 명령입니다.
– Robots Exclusion Protocol
– Sitemaps Protocol
robots.txt는 웹사이트에 웹 크롤러같은
로봇들의 접근을 제어하기 위한 규약입니다.
아직 권고안이라 꼭 지킬 의무는 없다고 합니다.
크롤러들은 주로 검색엔진들의
인덱싱 목적으로 사용되는데,
웹사이트들 입장에서도 더 많은 검색 노출을
원하는게 일반적이므로 딱히 막을 이유는 없습니다.
다만 서버의 트레픽이 한정돼있거나
검색엔진에의 노출을 원하지 않는 경우,
이 robots.txt에 “안내문” 형식으로 특정 경로에 대한
크롤링을 자제해 줄 것을 권고하는 것입니다.
지킬 의무가 없다고 하나 지켜주는게 상식이며,
마찬가지로 서버 주인 입장에서는 원치않는
크롤링이 들어오는데도 계속해서 서비스를 제공할
의무 또한 없으므로 크롤러의
아이피를 차단하면 그만입니다.
robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다.
즉, 사이트를 치고 슬래시 후 바로
robots.txt를 넣으면 볼 수 있다는 것입니다.
'IT상식 > 인터넷 팁' 카테고리의 다른 글
재택알바 노마드태스크 실체 진짜 리뷰 (광고아님) (0) | 2023.01.28 |
---|---|
스팸전화 스팸문자 차단하는 방법은 없다 / 내 개인정보를 어떻게 알았을까? (0) | 2021.02.16 |
윈도우10 정품 OEM / 리테일 / 정품확인 방법 사용해도 문제가 없는 것일까? (0) | 2021.02.15 |
수박게임 방탄 세븐틴 아이돌 버전 만드는 방법 (0) | 2021.02.05 |
(최신) 네이버 카페 비공개 글 멤버공개 글 보는 방법 (0) | 2021.02.01 |