검색엔진을 제어해야 하는 이유는 불필요한 검색 트래픽 낭비를 줄여 불필요한 네트워크 사용을 제한

 

노출을 원하지 않는 검색엔진에 자신의 홈페이지 정보를 제어할수 있다.

robot.txt

 

로봇이 임의의 SITE/ 에 방문하면 먼저 SITE/robots.txt 파일 호출함 (정상적인 정보 수집 BOT일때)
로봇의 접근 권한 및 접근가능한 경로에 대한 정보를 분석하여 자신이 수집해도 되는 콘텐트만을 수집한다

웹 사이트의 최상위 루트에 robots.txt 파일이 있어야함
robots.txt 화일에는 최소한 한개의 “disallow” 필드(field)가 존재해야 함

robot.txt 파일이름은 소문자로 작성 (공백 허용되지 않음) 

 

ex) 예제들

 

홈페이지 전체가 모든 검색엔진에 노출되기를 원치 않음
User-agent: *

 

Disallow: /

 

홈페이지 전체가 모든 검색엔진에 노출되기를 원함
User-agent: *

Disallow:

 

홈페이지 디렉토리중 일부만 검색엔진에 노출하고 싶음

User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/

 

홈페이지 전체를 노출시키지만 특정 검색엔진 (EvilRobot)만 거부
User-agent: EvilRobot
Disallow: /

 

홈페이지 전체가 노출되지만 특정검색엔진에서만 노출되기를 원함
User-agent: NaverBot
Disallow:
User-agent: *
Disallow: /

 

/help.html과 /help/index.html 둘 다 허용 안함
disallow: /help

/help/index.html는 허용 안하나, /help.html은 허용 됨. 
disallow: /help/ 

루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부
Disallow: /*.xml$ 

루트에 test.html 과 ?가 포함된 파일의 색인을 거부한다
Disallow: /test.html? 

 

구글의 이미지를 검색하는 로봇에게 gif와 jpg로 된 이미지를 모두 검색하지 않도록 함

User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.jpg$ 

예외적인 상황들

HTML (HEAD) 와 (/HEAD) 사이에 (META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”)
라는 메타태크그를 추가함으로써 문서 하나하나에 대해 정확하게 명시를 해주므로 가장 확실하게 로봇 접근을 차단할수 있음

 

검색엔진에 Robot를 차단하더라도 자신의 페이지중 일부가 나타날수 있음
기타 문서나 사이트들이 자신의 웹 문서를 링크할 경우 자동적으로 생성되어 나타날수 있음
이 경우 Robot 과 무관함 (robots.txt 를 무시하는 로봇들도 있을수 있음)
Robot 들의 IP들을 알 경우 IP를 통해 정책수립해도 상관없음

주석문을 작성하기 위해서는 앞에 #를 적어주시면 됩니다. 

로봇의 이름은 개별 검색사이트를 방문해야함

 

로봇들 Agent 이름명

 

구글: Googlebot
구글 이미지 : googlebot-image
네이버 : cowbot

 

네이버 : User-Agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
야후 : Slurp
야후 이미지 : Yahoo-MMCrawler
엠파스봇 : empas
MSN : MSNBot
첫눈: 1Noonbot 1.0

다음 : daumoa

 

실제 Apache Log (구글봇 접근)

 

61.xx.xx.84 – – [22/Aug/2010:06:10:03 +0900] “GET /robots.txt HTTP/1.1” 404 –
61.xx.xx.84 – – [22/Aug/2010:06:10:03 +0900] “GET /152 HTTP/1.1” 200 54216

 

61.xx.xx.84 로봇이 접근해서 robot.txt 파일을 읽었는데 404에러 robot.txt 파일이 없다.???
없으니깐 /152번 글을 GET 해가지고 갔다? 200 정상 메세지니깐??

 

 봇 아이피를 이용한 제어

 

IP 기반으로 차단하기 위해서는 해당 봇들에 대한 아이피 정보들을 가지고 있어야 함

 

아래 사이트에서는 각 검색엔진들의 아이피 정보를 제공한다.

 

http://iplists.com

사이트 접근하면 각종 봇들에 대한 아이피 대역 리스트를 받아 볼수 있음.

해당 사이트의 정보들을 가지고 방화벽 운영해본 결과 그럭저럭 맞는거 같음

 

참조 URL : http://idchowto.com/?p=591


네이버에서는 외부 사이트의 크롤링을 위해 현재 NaverBot과 Yeti Bot을 운영하고 있습니다.

한국에서 개방된 사이트를 운영하면서 이 두 로봇이 사이트를 방문하지 않는다면 거의 좌절이라 할 수 있을 것입니다.


사이트에서 로봇방문흔적을 보려면 대부분 로그분석도구로 알 수 있는데 서버나 사이트 내에 IP주소와 에이전트를 판단하는 스크립트를 심어서 제공해주고 있지만, 솔루션에 따라 제대로 보여주지 못하는 때도 있을 것입니다.


사이트방문자가 급격히 줄었거나 할 경우 검색엔진에서의 인덱싱 현황 체크와 함께 로봇 IP도 확인해서 대응하여야 하겠습니다.
아래는 네이버發 아이피 리스트입니다.
 
1. NaverBot
  Mozilla/4.0compatible;NaverBot/1.0;http://help.naver.com/customer_webtxt_02.jsp
  114.111.36.23~24
  114.111.36.26
  114.111.36.29~32
  114.111.36.36
  114.111.36.45
  61.247.221.80~94
 

 

2. Yeti Bot
  1)국내용
    Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/
    61.247.204.21~24
    61.247.204.31
    61.247.204.35~39
    61.247.204.42~46
    61.247.222.44~45
    61.247.222.46 (crawl-61-247-222-46.naver.jp 일본용?)
    61.247.222.49~50
    61.247.222.54~56
    61.247.222.82~83(crawl-61-247-222-46.naver.jp)
    175.158.29.209~210  

 

  2)일본용
    119.235.237.15~20
    119.235.237.33
    119.235.237.77
    119.235.237.85~87
    119.235.237.92~93
    119.235.237.95
    119.235.237.135
    202.131.30.146~150
    202.131.30.170

 

최근 추가로 확인된 IP

125.209.208.0~125.209.255.255


퍼온곳 : http://construe.tistory.com/314


1. between 응용

특정 범위 내의 데이터를 조회 하고 싶을 때

select * from 테이블명 where 필드명 between 값1 and 값2;

ex) board01 테이블의 no 필드가 1부터 20 까지의 모든 데이터를 추출할 경우

select * from board01 where no between 1 and 20; 


소득금액증명원 홈텍스에서 발급신청하기

 

소득금액증명원을 발급해야 하는 이유는? 자녀장려금? 또 기타 내용? 때문?

가장 많이 신청하는 이유가 대출을 받기 위해서가 아닐까 생각합니다.

 

그럼 소득금액증명원을 직접 세무소에 방문하여 발급하는 방법이 있으며 동사무소에서 팩스민원을 신청하는 부분이 있는데

동사무소에서 팩스민원 신청을 할 경우 원본 인정을 하지 않는 금융사들이 있어 세무소 방문이 힘든 고객님의 경우

국세청 홈페이지인 홈텍스에서 신청하시는게 더 편하시죠...홈페이지에서 직접 출력이 가능하니깐요..

 

자 그럼 어떻게 발급을 하는지 하나하나 알아봅시다.

빨간 네모박스와 별표시를 보시면서 글을 읽으시면 보다 편할 것입니다.

 

 

홈텍스를 네이버나 다음 혹은 검색포털에 입력하면 홈페이지 클릭하여 위와 같은 페이지가 나오면 

민원증명을 클릭하세요..


 


이미지가 너무 작아 보이지 않네요....

오른쪽 노란색을 보시면 민원증명 신청 아래쪽을 보시면 소득금액증명이 보이실 것입니다.

보이면 클릭 안보이면 찾아보세요~~ ㅋㅋ


 


그러면 로그인 정보가 없다며 로그인 페이지로 이동한다고 나옵니다.

회원가입을 하던지 비회원 로그인으로 두가지 방법 중 선택을 하실 수 있는데...... 공인인증서는 등록을 하셔야지만

비회원으로도 발급을 하실 수 있습니다.

 

신청인의 개인정보가 맞는지 확인하고....한글과 과세기간을 체크..

직장인이면 근로소득...사업자이면 두번제..종합소득세신고자이면  세번째 자신에게 맞는 증명구분을 선택하여 신청하시면 됩니다.
 


신청방법은 단순하게 화명출력을 하시면 안되세요..화면출력하면 화면에만....캡쳐가 불가능하거든요..

인터넷발급 프린터 출력을 하셔셔 대출신청시 제출하시면 됩니다.


 


신청이 완료되면 인터넷 접수목록 조회하여 발급번호 신청을 클릭하면 출력을 하실 수 있으며 화면출력을 선택하였을 경우

내용을 확인하실 수 있습니다.

 

모든 서류는 접수된 금융사에서 진위여부를 파악하는데
 


 

대개 발급번호를 가지고 진위여부 파악, 발급여부 파악을 하여 해당 서류로 인정을 하는지

아니면 추가되어야 할 서류가 있는지 심사를 하게 됩니다.

 

이상 소득금액증명원 발급하기 내용이였는데 어렵지 않죠?

천천히 따라하시면 출력이 가능하오니....... 한번 해보세요.. ^^

 

이상 대출9단 김팀장이였습니다.

감사합니다.

'개인용' 카테고리의 다른 글

HDTunePro5.6  (0) 2018.08.07
연봉 실수령액표  (0) 2017.01.26
티스토리 A레코드 IP  (0) 2015.10.28


LINUX 웹 서버를 운영하면서 문제가 생겼다.

 

각각의 사이트들을 하루에 한번씩 백업 폴더로 카피하는데 PHP 세션디렉토리를 지우지 않아 몇달간 모인 세션파일이 수백만개가 넘어가 버려 rm 으로 지워 지지 않는다.

 

문제는 리눅스의 파티션에 들어갈수 있는 파일 갯수(inode)가 정해져 있다는 것이다.

df -i 로 확인 해보면 된다.

이문제로 운영중인 서버에 세션이 생성되지 않아 서버가 죽는 경우가 생겼다.

 

하여간 몇가지 방법으로 삭제를 시도를 해보았지만 실패....

 

시도한 방법을 나열하자면...

1. rm -rf *

2. find . -type f -exec rm -fv {} \;

3. find . -type f -delete

4. perl 을 이용한 스크립트

 

너무 파일이 많은지 서버 자원만 엄청 사용하고 결국 포기 했다.

 

그래서 시도한 방법이 현재 운영중인 사이트를 다른 폴더로 옮기고 재빨리 파티션자체를 포멧하고 다시 복구 시키는 방법을 썻다.

손이 많이 가지만 가장 깔끔한 방법...

 

하지만 다른 한대의 서버에는 다른쪽으로 옮길 파티션(하드)가 존재하지 않아 포기

 

몇일후 PHP 를 이용해서 지워도 되겠다는 생각에 아래 스크립트를 실행 시켰다.

 

$dir = "/home/linkFolder/img";
$dh = opendir( $dir);
$i = 0;
while (($file = readdir($dh)) !== false) {
  $file = "$dir/$file";
  if (is_file( $file)) {
    unlink( $file);
    if (!(++$i % 1000)) {
      echo "$i files removed\n";
    }
  }
}

 

오호~~ 잘 지워 진다. 속도로 빠르다. 50만개정도 삭제 하는데 20분도 안걸렸다.

 

역시 내가 PHP를 사랑할 수 밖에 없는 이유다. 보안이 어쩌고 하지만 안되는게 없는 PHP이다. ㅎㅎ



출처: http://blog.yesyo.com/entry/리눅스-대량의-파일-지우기 [MintState WebLog]