WO2013162262A1

WO2013162262A1 - 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템

Info

Publication number: WO2013162262A1
Application number: PCT/KR2013/003475
Authority: WO
Inventors: 송진영
Original assignee: 줌인터넷 주식회사
Priority date: 2012-04-23
Filing date: 2013-04-23
Publication date: 2013-10-31

Abstract

본 발명은 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템에 관한 것이다. 본 발명은 검색시스템이 검색대상이 되는 객체의 식별정보를 수집하는 방법에 있어서, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계, 상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계, 및 식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계를 포함한다. 이와 같은 본 발명에 의하면 최소한의 하드웨어 리소스로 실제 사용자들이 방문하는 객체의 식별정보를 검색을 위한 최적의 검색대상 식별정보로서 확보할 수 있고, 검색시스템의 전체적인 성능을 개선하여 검색결과를 획기적으로 개선할 수 있다.

Description

패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템

본 발명은 검색 방법 및 그 시스템에 관한 것으로 보다 상세하게는 검색에 사용되는 검색대상 식별정보를 수집하는 검색 커버리지 확보 방법 및 그 시스템에 관한 것이다.

최근 인터넷 통신기술이 발달하고 이에 따라 컨텐츠의 생산 및 소비방식 또한 인터넷 통신기술을 중심으로 변화하고 있다. 기존에 오프라인 매체를 통한 컨텐츠의 생산 및 소비에 비해 인터넷 시대의 정보유통은 속도와 파급력 면에서 비교가 되지 않는다. 이러한 인터넷 시대의 정보유통에 있어 가장 핵심적이고 중추가 되는 기술은 검색기술이라 할 수 있다.

검색기술이라 함은, 인터넷망에 산재되어 있는 모든 검색대상 객체를 필요에 따라 검색하여 그 검색대상 객체에 포함된 정보를 찾아볼 수 있도록 하는 기술을 의미한다.

일례로 웹페이지 검색기술은 검색의 대상이 되는 웹페이지 링크(또는 유알엘; URL; uniform resource locator)를 확보하는 링크수집기술, 수집된 링크의 웹페이지 내용을 확보하는 크롤링기술, 크롤링된 웹페이지 내용을 검색에 적합한 형태로 가공하는 인덱싱기술, 그리고 사용자의 필요에 의한 검색어에 연관된 웹페이지 결과물을 제공하는 검색엔진기술로 구성된다. 그 중에서도 링크수집기술은 검색의 커버리지와 직결되는 기술로서 검색결과에 직접적인 영향을 미칠 수 밖에 없는 핵심기술이다.

현재의 검색 시스템에서 검색대상 식별정보 수집기술은 다양한 루트를 통해 확보한 식별정보를 바탕으로, 해당 식별정보의 검색대상 객체에서 포함하고 있는 다른 식별정보를 추출하고, 이를 다시 검색대상 식별정보에 포함하는 방식으로 이루어진다. 그러나, 이는 초기 시드가 되는 식별정보에 따라 커버리지의 확보 한계가 달라지게 되고, 식별정보 수집과 크롤링으로 이루어지는 사이클이 반복될 때만 식별정보를 추가할 수 있으며, 추가되는 식별정보가 검색대상 객체를 분석한 결과물일 뿐이므로 사용자들이 실제로 방문하는 검색대상의 식별정보가 아닐 가능성이 있어, 검색결과의 질을 향상시키지는 못하면서 하드웨어 리소스만 점유하는 식별정보가 포함될 가능성이 매우 높은 단점이 있다.

이러한 단점을 극복하고자 선행기술문헌(한국공개특허 제2010-0008466호)에는 중복된 웹페이지 링크를 제거하기 위한 기술에 대하여 개시하고 있지만, 새로이 추가되는 웹페이지 링크의 질을 개선하는 데에는 전혀 도움이 되지 못하고 있다. 이외에도 현재의 웹페이지 검색 기술의 단점을 보완하기 위한 다수의 기술이 제안되고는 있으나, 대부분 크롤링의 성능을 향상하거나, 검색된 웹페이지 결과의 랭킹을 개선하는 것에 그칠 뿐이어서, 링크데이터의 질을 개선하여 검색결과 뿐 아니라 하드웨어 리소스 효율성을 혁신적으로 개선하는 기술적 요구를 만족시키지 못하고 있는 실정이다.

본 발명의 목적은 최소한의 하드웨어 리소스로 검색을 위한 최적의 검색대상 식별정보를 확보하는 시스템 및 방법을 제공하는 것이다.

본 발명의 다른 목적은 실제 사용자들이 방문하는 객체들의 식별정보를 검색을 위한 최적의 검색대상 식별정보로서 확보하는 시스템 및 방법을 제공하는 것이다.

본 발명의 다른 목적은 검색시스템의 전체적인 성능을 개선하여 검색결과를 획기적으로 개선할 수 있는 시스템 및 방법을 제공하는 것이다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제1측면에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법은, 검색시스템이 검색대상이 되는 객체의 식별정보를 수집하는 방법에 있어서, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계, 상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계, 및 식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계를 포함한다.

본 발명의 제2측면에 따른 패킷미러링을 이용한 검색서비스 제공 방법은, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계, 상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계, 식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계, 상기 식별정보에 대응하는 객체를 수집하여 검색데이터베이스에 저장하는 크롤링단계, 및 상기 검색데이터베이스에 저장된 객체로써 검색서비스를 제공하는 검색서비스단계를 포함한다.

본 발명의 제3측면에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 시스템은, 검색서비스의 대상이 되는 객체의 식별정보를 저장하는 식별정보 데이터베이스, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링부, 및 상기 미러링부에 의해 미러링된 패킷으로부터 식별정보를 추출하고, 상기 식별정보 데이터베이스에 상기 추출된 식별정보를 추가하는 링크처리부를 포함한다.

위와 같은 구성을 갖는 본 발명의 일실시예에 따르면, 최소한의 하드웨어 리소스로 실제 사용자들이 방문하는 객체의 식별정보를 검색을 위한 최적의 검색대상 식별정보로서 확보할 수 있다.

또한 본 발명은 검색시스템의 전체적인 성능을 개선하여 검색결과를 획기적으로 개선할 수 있다.

도 1은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 시스템의 구성도이다.

도 2는 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 시스템을 도시한 기능블록도이다.

도 3은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법을 설명하기 위한 순서도이다.

도 4는 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법에서 스팸필터링을 함께하는 과정을 설명하기 위한 순서도이다.

도 5 및 도 6은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법에서 상태정보업데이트를 함께하는 과정을 설명하기 위한 순서도이다.

도 7은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보에 의해 구성된 식별정보 데이터베이스의 테이블을 나타낸 도면이다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

인터넷망(N)은 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 유무선 네트워크로 구현될 수 있다.

사용자단말(101)은 인터넷망(N)을 통해 원격지의 웹서버(201)에 접속하는 통신단말로서, 타 단말 및 서버와 연결 가능한 컴퓨터나 휴대용 단말기, 텔레비전 등으로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, 텔레비전은 IPTV(Internet Protocol Television), 인터넷 TV(Internet Television), 지상파 TV, 케이블 TV 등을 포함할 수 있다.

웹서버(201)는 인터넷망(N)을 통해 원격지의 사용자단말(101) 또는 타 서버와 연결가능한 컴퓨터시스템으로서, 주로 통신 연결된 상대에 대하여 데이터서비스를 제공하는 역할을 한다.

사용자단말(101)은 웹 브라우저 또는 기타 응용프로그램을 통해 웹서버(201)에 서비스요청을 송신하게 된다. 일례로, HTTP(HyperText Transfer Protocol)를 통한 HTTP Request 패킷이 상기 사용자단말(101)로부터 상기 웹서버(201)로 송신되는 것으로 서비스가 요청되고, 상기 웹서버(201)가 HTTP Request 패킷에 대응하여 HTTP Response 패킷을 상기 사용자단말(101)로 송신하는 것으로 서비스가 제공된다.

이 때, 본 발명에 의한 검색대상 식별정보 수집 시스템(301)은 도 2에 도시된 바와 같이 사용자단말(101)과 인터넷망(N)을 연결하는 유무선의 통신선과 연결되어 있으며, 식별정보 데이터베이스(351), 미러링부(311), 링크처리부(321)로 구성된다.

상기 식별정보 데이터베이스(351)는 검색대상의 식별정보와 그 부가정보를 구조적 형태로 저장하고 관리한다. 검색대상 식별정보라 함은 검색대상이 되는 객체를 인터넷 상에서 고유하게 식별할 수 있는 정보로서, 일례로 검색대상 식별정보는 검색대상 객체의 주소(URL; Uniform Resource Locator)가 될 수 있고, 상기 검색대상 객체는 웹페이지, 이미지, 동영상, 문서 등 인터넷 상에서 존재하는 모든 형태의 데이터가 될 수 있다. 상기 부가정보는 상기 식별정보에 대응하는 객체에 관한 속성정보(객체의 데이터형식, 추출시간, 객체의 크기, 객체의 스팸여부, 서버에서 지정한 데이터유효기간 등), 상기 식별정보의 속성정보(식별정보가 유효한지 여부, 식별정보의 데이터크기 등), 호스트정보(호스트명, 도메인네임 해결된 호스트의 아이피주소 등) 등을 포함할 수 있다.

상기 미러링부(311)는 상기 인터넷망(N)에 연결된 웹서버(201)와 상기 사용자단말(101) 사이에 송수신되는 패킷데이터를 미러링 또는 스니핑할 수 있다. 실제로, 상기 검색대상 식별정보 수집 시스템(301)은 네트워크 백본망에 설치되는 탭(TAP)장비 또는 스위치미러(Switch Mirror) 등으로 구현될 수도 있고, 상기 사용자단말(101)의 네트워크 접점이 되는 기지국(Access Point)에 설치된 하드웨어 또는 소프트웨어의 모듈일 수도 있다.

상기 링크처리부(321)는 상기 미러링부(311)에 의해 미러링된 패킷을 처리하여 상기 식별정보 데이터베이스(351)에 검색대상 식별정보를 추가하는 역할을 한다.

상기 검색대상 식별정보 수집 시스템(301)은 상기 추출된 식별정보에 대응하는 객체의 스팸여부를 판단하는 스팸처리부(331) 또는 상기 추출된 식별정보에 대응하는 객체의 상태정보를 판단하는 상태정보처리부(341)를 더 포함할 수 있다.

상기 식별정보 데이터베이스(351)는 데이터를 구조적으로 저장하기 위한 통상의 데이터베이스시스템을 포함하여 물리적 또는 소프트웨어적 모듈로써 구성될 수 있다. 상기 미러링부(311), 링크처리부(321), 스팸처리부(331), 또는 상태정보처리부(341)는 각각 하나의 물리적 시스템 내에서 서로 기능이 구분된 소프트웨어 모듈로서 구성될 수도 있고, 적어도 하나 이상의 소프트웨어 모듈 또는 적어도 하나 이상의 하드웨어 모듈의 조합으로써 구성될 수도 있다.

이하에서는 검색대상 식별정보 수집 시스템의 각 구성요소를 중심으로 그 수집 방법에 대하여 설명한다.

본 발명에 의한 패킷미러링을 이용한 검색대상 식별정보 수집 방법은 사용자단말(101)이 웹서버(201)와 송수신하는 패킷을 미러링부(311)가 미러링하는 단계로 시작된다(S511). 상기 미러링된 패킷은 상기 사용자단말(101)이 웹서버(201)에 대하여 특정한 객체를 전송하여줄 것을 요청하는 객체요청패킷일 수 있다. 특히 상기 객체요청패킷이 HTTP Request 패킷인 경우에는 그 패킷헤더에 상기 요청된 객체의 식별정보로서 URL주소값이 포함될 수 있고, 링크처리부(321)는 상기 URL 주소값을 식별정보로서 추출한다(S551). 상기 링크처리부(321)는 상기 추출된 식별정보를 식별정보 데이터베이스(351)에 추가한다(S555). 이렇게 추가된 검색대상 식별정보는 실제 검색대상 객체를 수집하여 저장하는 크롤러 시스템에 의해 수집되어 검색데이터베이스에 저장되고, 상기 저장된 객체는 검색에 적합한 형태로 인덱싱되는 등의 재가공 과정을 거쳐 검색볼륨으로서 준비되고, 검색엔진이 사용자로부터 요청받은 검색어로써 상기 검색볼륨으로부터 검색결과를 추출하여 검색서비스를 제공하게 된다.

본 발명에 의한 패킷미러링을 이용한 검색대상 식별정보 수집 방법에 의해 수집된 식별정보는 실제로 사용자단말(101)이 웹서버(201)에 적어도 한 번 객체요청패킷을 보냈던 객체의 식별정보이므로, 검색엔진의 검색대상이 될 필요가 있는 식별정보라 할 수 있다. 또한 본 발명에 의하면 관련된 사용자단말(101)에서 한번도 방문하지 않은 객체의 식별정보를 제외하고는 모든 식별정보를 검색대상으로 포함할 수 있게 된다.

실제로 수집된 식별정보를 검색서비스로 제공하는 데 있어 반드시 필요한 과정으로서 해당 식별정보에 대응하는 객체가 검색서비스에 적합한 내용을 포함하고 있는지 판단하는 스팸처리단계가 있다. 종래의 스팸처리단계는 식별정보만으로는 그 대응하는 객체의 내용을 파악할 수 없기 때문에 식별정보를 수집하고 그에 대응하는 객체를 크롤링한 이후에나 처리가 가능하였으며, 실제로 그 객체의 내용의 스팸여부를 판단하는 데 수많은 판단기준과 알고리즘이 필요하여 매우 큰 시간비용 및 하드웨어 비용이 필요로 하였다. 그러나, 본 발명에서는 도 4에서 설명하는 바와 같이 식별정보를 추출하는 과정에서 신뢰할 수 있는 스팸처리가 가능하다.

스팸처리를 위해서 미러링부(311)가 객체요청패킷을 미러링한 이후, 링크처리부(321)가 링크를 추출할 때 레퍼러정보를 함께 추출한다(S521). 레퍼러는 상기 객체요청패킷을 발생시킨, 상기 객체요청패킷에 포함된 식별정보를 하이퍼링크하고 있는 원객체의 원식별정보를 포함하고 있다. 이 때, 상기 원객체가 스팸이 아닌 식별정보만을 하이퍼링크하고 있다는 전제가 있다면 상기 식별정보에 대응하는 객체는 스팸이 아니라고 판단할 수 있다(S522). 따라서, 스팸처리부(331)는 스팸이 아닌 식별정보만을 하이퍼링크하는 원객체의 리스트를 기설정하여 두었다가, 상기 추출된 레퍼러의 호스트가 상기 기설정된 원객체리스트에 포함되어 있다면 스팸이 아니라 판단하고, 상기 객체요청패킷에 포함된 식별정보(링크)를 추출하여(S551) 식별정보 데이터베이스(351)에 추가한다(S555). 실제로 다른 검색서비스에서 제공하는 검색결과는 이미 검증된 스팸필터링을 거친 식별정보만을 하이퍼링크할 것이므로, 상기 기설정된 원객체리스트는 “google”, “yahoo” 등 상용 검색서비스의 호스트명으로 설정할 수 있다.

검색시스템이 추출된 식별정보를 크롤링하는 데에는 추출된 식별정보에 비례하여 시간비용을 소모하고 있다. 추출된 식별정보가 클수록 검색결과의 질을 향상시키지만, 추출된 식별정보의 수가 많을수록 해당 식별정보에 대응하는 객체를 크롤링하고 이를 검색서비스에 적용하는 사이클이 길어지는 결과를 가져와 검색결과의 질을 낮추는 역효과를 가져오기도 한다. 따라서, 검색결과의 질을 극대화하기 위해서는 추출된 식별정보의 양을 늘리면서도 늘어난 식별정보에 대응하는 객체를 크롤링하는 시간을 줄이는 것이 필요할 수 있다. 도 5 내지 도 6에서는 식별정보를 식별정보 데이터베이스(351)에 추가하는 과정에서 부가적인 통신트래픽 또는 하드웨어 리소스를 발생하지 않고도 크롤링 시간을 혁신적으로 줄일 수 있는 방법을 설명하고 있다.

본 발명에서 상기 미러링부(311)는 웹서버(201)로부터 사용자단말(101)로 송신되는 객체응답패킷을 미러링할 수 있다(S511). 객체응답패킷은 상기 객체요청패킷에 대응하여 웹서버(201)에서 발생하는 패킷으로서 HTTP Response 패킷일 수 있다. 상기 객체응답패킷은 상기 객체요청에 대한 상태코드 또는 에러코드를 포함할 수 있다. 실제로 HTTP 의 경우에 응답이 정상일 경우는 “200”, 접근이 거부된 경로인 경우는 “403”, 잘못된 경로인 경우는 “404”, 서버오류인 경우는 “500” 등 다양한 상태코드 또는 에러코드가 정의되어 있다. 따라서, 상태정보처리부(341)가 이와 같은 상태코드 또는 에러코드를 추출하여(S531) 해당 식별정보의 정상여부를 판단하고(S532), 정상상태인 식별정보만 추출하여(S551) 상기 정상여부 판단의 결과로서 상태정보와 함께 상기 식별정보 데이터베이스(351)에 저장한다(S555).

또는, 링크처리부(321)가 추출된 모든 식별정보를 식별정보 데이터베이스(351)에 저장하되, 상태정보처리부(341)가 그 상태정보 또한 함께 저장하도록 구현(S536, S537)할 수도 있다.

실제로 어느 한 식별정보에 대응하는 객체를 수집하는 데 소요되는 시간이 정상적인 식별정보의 경우 매우 짧은 데 반해 정상적이지 않은 식별정보는 그 에러코드를 확인하기까지 수초에서 수십초까지 걸리는 경향이 있다. 따라서, 식별정보 데이터베이스(351)에 각 식별정보의 상태정보가 함께 기록되면, 이후 크롤러가 각 식별정보에 대응하는 객체를 수집하는 데 소요되는 시간이 획기적으로 줄어들 수 있으며, 정상적이지 않은 식별정보 중에서도 각 에러코드를 참조하여 효율적인 스케줄링을 시도할 수 있다는 점에서 결과적으로 검색서비스의 성능개선에 획기적인 역할을 할 수 있다.

본 발명에 의해 수집된 검색대상 식별정보는 식별정보 데이터베이스(351)에 도 7에 도시된 형태와 같은 테이블로 저장될 수 있다. 테이블의 스킴(701)은 식별정보를 저장하는 “링크”(721), 해당 식별정보의 상태정보를 저장하는 “상태”(731), 해당 식별정보의 스팸여부를 저장하는 “스팸여부”(741)를 포함할 수 있다. 이렇게 저장된 식별정보의 테이블은 크롤러가 해당 식별정보에 대응하는 객체를 수집하는 데 있어 크롤링의 대상을 확인하고, 스케줄링을 효율적으로 계획할 수 있도록 하며, 검색서비스 전 별도의 스팸필터링이 필요 없도록 하거나 스팸필터링을 최소한으로 할 수 있도록 한다.

도 3 내지 도 6을 통해 설명된 실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

검색시스템이 검색대상이 되는 객체의 식별정보를 수집하는 방법에 있어서,

사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계;

상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계; 및

식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계를 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
제1항에 있어서,

상기 미러링단계에서 미러링하는 패킷은, 사용자단말로부터 웹서버로 송신되는 객체요청패킷인, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
제2항에 있어서,

상기 추출단계는,

상기 객체요청패킷으로부터 레퍼러정보를 추출하는 레퍼러추출단계를 포함하고,

상기 추가단계는,

상기 레퍼러정보에 포함된 호스트정보를 참조하여 상기 추출된 식별정보에 대응하는 객체의 스팸여부를 판단하는 스팸처리단계를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
제3항에 있어서,

상기 추가단계는,

상기 스팸처리단계에서 스팸으로 판단된 식별정보를 스팸으로 기록하는 스팸기록단계를 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
제1항에 있어서,

상기 미러링단계에서 미러링하는 패킷은, 웹서버로부터 사용자단말로 송신되는 객체응답패킷인, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
제5항에 있어서,

상기 추가단계는,

상기 객체응답패킷에 포함된 에러코드로부터 판단된 상태정보를 상기 추출단계에서 추출된 식별정보에 연관하여 상기 식별정보 데이터베이스에 기록하는 상태정보처리단계를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계;

상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계;

식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계;

상기 식별정보 데이테베이스에 추가된 식별정보에 대응하는 객체를 수집하여 검색데이터베이스에 저장하는 크롤링단계; 및

상기 검색데이터베이스에 저장된 객체로써 검색서비스를 제공하는 검색서비스단계를 포함하는, 패킷미러링을 이용한 검색서비스 제공 방법.
검색서비스의 대상이 되는 객체의 식별정보를 저장하는 식별정보 데이터베이스;

사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링부; 및

상기 미러링부에 의해 미러링된 패킷으로부터 식별정보를 추출하고, 상기 식별정보 데이터베이스에 상기 추출된 식별정보를 추가하는 링크처리부를 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 시스템.
제8항에 있어서,

상기 미러링부가 미러링하는 패킷은, 사용자단말로부터 웹서버로 송신되는 객체요청패킷이고,

상기 요청패킷으로부터 레퍼러정보를 추출하고 상기 레퍼러정보에 포함된 호스트정보를 참조하여 상기 추출된 식별정보에 대응하는 객체의 스팸여부를 판단하는 스팸처리부를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 시스템.
제8항에 있어서,

상기 미러링부가 미러링하는 패킷은, 웹서버로부터 사용자단말로 송신되는 객체응답패킷이고,

상기 객체응답패킷에 포함된 에러코드로부터 판단된 상태정보를 상기 추출된 식별정보에 연관하여 상기 식별정보 데이터베이스에 기록하는 상태정보처리부를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 시스템.