웹 사이트마다 검색 로봇이 접근하여 웹 페이지를 크롤링 하여 스캔합니다. 로봇이 스캔한 정보는 검색엔진과 연결되어 있습니다. 검색엔진은 키워드에 맞는 페이지를 보여주어 검색 결과를 노출합니다. 이러한 과정을 통해 사용자들은 검색을 활용하여 웹 서핑을 사용할 수 있습니다. 자신이 웹 사이트의 관리나 로봇의 접근을 제어해야 하는 역할을 갖고 있다면 로봇파일을 생성하여 로봇의 스캔 영역을 제어할 수 있습니다. 본 글에서는 로봇 파일을 생성하는 과정을 소개합니다.




Table of Contents - 목 차 - 
1.robots.txt 파일은 무엇인가?
2. 로봇의 종류
3. 구글 웹 마스터 도구에서 로봇 파일 만들기
4. 웹서버에 로봇 파일을 업로드 하기
REFERENCES



1.robots.txt 파일은 무엇인가?

"로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기술한다. 이 규약은 1994년 6월에 처음 만들어졌고, 아직 이 규약에 대한 RFC는 없다. 이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다." [by WIKI]

로봇이 웹 서버에 접근하면 루트 디렉토리에서 로봇 파일을 호출합니다.
각자 하위 디렉토리의 접근을 설정하여 보안을 강화할 수 있습니다.
특히 직접 사이트를 운영하는 웹 마스터, 관리자 등은 admin 디렉토리와 계정 정보들이 포함되어 있는 저장공간을 보호할 수 있습니다.

만약 모든 로봇에게 문서 접근을 허락하려면, robots.txt에 다음과 같이 입력하면 된다.
User-agent: *
Allow: /

모든 로봇의 차단 설정
User-agent: *
Disallow: /

BadBot이라는 로봇에 admin, tmp 디렉터리 접근을 차단
User-agent: BadBot
Disallow: /admin/
Disallow: /tmp/

2. 로봇의 종류

로봇은 종류마다 다른 역할을 갖고 있습니다.
사이트의 성격에 맞는 로봇의 속성을 파악한다면 검색엔진 노출에 더욱 효과를 높일 수 있습니다. 사진, 이미지 위주의 사이트라면 이미지 로봇의 속성에 대해 연구해볼 필요성이 있습니다.

  • 구글로봇 : Googlebot
  • 구글 이미지 : googlebot-image
  • 구글 모바일 : googlebot-mobile
  • 야후로봇 : Slurp, yahoo-slurp
  • 야후 이미지 : Yahoo-MMCrawler
  • 야후 블로그 : yahoo-blog
  • MSN : MSNBot
  • MSN 이미지 : psbot
  • 네이버 : cowbot, naverbot, yeti
  • 다음 : daumos

3. 구글 웹 마스터 도구에서 로봇 파일 만들기(권장)

구글 웹 마스터 도구 페이지로 이동합니다.
웹 마스터 도구->사이트 구성->크롤러 액세스를 선택합니다.


robots.txt 테스트 탭과 생성 탭을 활용하여 로봇파일을 생성합니다.


모두 허용 혹은 모두 차단을 설정할 수 있으며 추가 규칙을 지정할 수 있습니다.


로봇으로 인해 사이트의 불필요한 트래픽이 높다면 크롤링의 속도를 조절하여 웹 사이트의 트래픽을 감소시킬 수 있습니다.


4. 웹서버에 로봇 파일을 업로드 하기

텍스트 파일을 직접 생성하여 웹 서버에 업로드 할 수 있습니다. 파일은 반드시 robots.txt 로 파일명을 생성해야 합니다.

웹 호스팅의 업체마다 루트 사용 권한이 다르게 설정되어 있습니다. 루트 디렉토리에 로봇파일을 업로드 할 수 없다면 하위 디렉토리에 로봇 파일을 업로드 합니다.

(업로드 하지 말라는 웹 호스팅의 루트 디렉토리 화면입니다.)

[VOVOUS 寶符 ボブ 보부 ⓒ www.vovous.com]





Posted by Marco_Ch

Leave a Comment

  1. 2013.04.28 23:56  Reply Address  Modify/Delete  Write

    비밀댓글입니다

    • Favicon of http://vovous.com BlogIcon Marco_Ch 2013.05.14 14:45 신고  Reply Address  Modify/Delete

      네이버 블로그 이용을 위해서는 네이버 정책에 맞도록 활용해야 규제를 당하지 않습니다. 네이버 뿐만 아니라 모든 포털 사의 블로그 시스템은 로봇 텍스트 파일을 업로드 하도록 루트 디렉토리를 허용하는 곳은 없습니다. 루트 디렉토리에 업로드 하고 사용하기 위해서는 자체적으로 호스팅을 이용해야 합니다.