WO2013162262A1 - 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템 - Google Patents

패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템 Download PDF

Info

Publication number
WO2013162262A1
WO2013162262A1 PCT/KR2013/003475 KR2013003475W WO2013162262A1 WO 2013162262 A1 WO2013162262 A1 WO 2013162262A1 KR 2013003475 W KR2013003475 W KR 2013003475W WO 2013162262 A1 WO2013162262 A1 WO 2013162262A1
Authority
WO
WIPO (PCT)
Prior art keywords
identification information
mirroring
packet
search
spam
Prior art date
Application number
PCT/KR2013/003475
Other languages
English (en)
French (fr)
Inventor
송진영
Original Assignee
줌인터넷 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 줌인터넷 주식회사 filed Critical 줌인터넷 주식회사
Priority claimed from KR1020130045069A external-priority patent/KR101471513B1/ko
Publication of WO2013162262A1 publication Critical patent/WO2013162262A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Definitions

  • the present invention relates to a search method and a system thereof, and more particularly, to a search coverage securing method and system for collecting search object identification information used for a search.
  • the search technology refers to a technology for searching all the search target objects interspersed in the Internet network as needed to find information included in the search target object.
  • web page search technology may include link collection technology to obtain a web page link (or uniform resource locator) that is the target of a search, crawling technology to obtain web page contents of collected links, and crawled web page content. It is composed of indexing technology that processes the data into a form suitable for search, and search engine technology that provides web page results related to a search word required by a user.
  • link collection technology is a technology directly related to the coverage of search, and it is a core technology that has a direct influence on search results.
  • the search target identification information collection technology extracts other identification information included in the search target object of the corresponding identification information based on the identification information obtained through various routes, and includes it in the search target identification information again. It is done in such a way.
  • An object of the present invention is to provide a system and method for securing optimal search target identification information for searching with a minimum of hardware resources.
  • Another object of the present invention is to provide a system and method for securing identification information of objects visited by real users as an optimal search target identification information for a search.
  • Another object of the present invention is to provide a system and method that can significantly improve the search results by improving the overall performance of the search system.
  • the search object identification information collection method using packet mirroring in the method for collecting the identification information of the object to be searched, A mirroring step of mirroring packets transmitted and received by a user terminal with a web server, an extraction step of extracting identification information from the packet mirrored in the mirroring step, and an additional step of adding identification information extracted in the extraction step to an identification information database; Include.
  • a method of providing a search service using packet mirroring includes: a mirroring step of mirroring a packet transmitted and received by a user terminal with a web server, an extraction step of extracting identification information from the mirrored packet in the mirroring step, and identification An additional step of adding identification information extracted in the extraction step to an information database, a crawling step of collecting and storing an object corresponding to the identification information in a search database, and a search service providing a search service as an object stored in the search database Steps.
  • a system for collecting search object identification information using packet mirroring includes: an identification information database storing identification information of an object of a search service, and mirroring for mirroring packets transmitted and received by a user terminal to and from a web server. And a link processing unit for extracting identification information from the packet mirrored by the mirroring unit and adding the extracted identification information to the identification information database.
  • the present invention can significantly improve the search results by improving the overall performance of the search system.
  • FIG. 1 is a block diagram of a system for collecting search target identification information using packet mirroring according to an embodiment of the present invention.
  • FIG. 2 is a functional block diagram illustrating a system for collecting search target identification information using packet mirroring according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method of collecting search object identification information using packet mirroring according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a process of including spam filtering in a method for collecting identification information of a search object using packet mirroring according to an embodiment of the present invention.
  • 5 and 6 are flowcharts for explaining a process of adding the status information update in the search object identification information collection method using packet mirroring according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a table of an identification information database configured by search object identification information using packet mirroring according to an embodiment of the present invention.
  • FIG. 1 is a block diagram of a system for collecting search target identification information using packet mirroring according to an embodiment of the present invention.
  • the Internet network is a local area network (LAN), wide area network (WAN), value added network (VAN), personal local area network (PAN), mobile communication network It can be implemented as all kinds of wired and wireless networks such as mobile radio communication network or satellite communication network.
  • the user terminal 101 is a communication terminal for accessing the web server 201 at a remote location through the Internet network N, and may be implemented as a computer, a portable terminal, a television, etc. that can be connected to other terminals and servers.
  • the computer includes, for example, a laptop, desktop, laptop, etc., which is equipped with a web browser
  • the portable terminal is, for example, a wireless communication device that ensures portability and mobility.
  • the television may include an Internet Protocol Television (IPTV), an Internet Television (Internet Television), a terrestrial TV, a cable TV, or the like.
  • IPTV Internet Protocol Television
  • Internet Television Internet Television
  • the web server 201 is a computer system connectable to a user terminal 101 or another server in a remote place through the Internet network N, and mainly serves to provide a data service to a communication partner.
  • the user terminal 101 transmits a service request to the web server 201 through a web browser or other application program.
  • a service request is made in which an HTTP request packet via a HyperText Transfer Protocol (HTTP) is transmitted from the user terminal 101 to the web server 201, and the web server 201 responds to the HTTP request packet.
  • HTTP HyperText Transfer Protocol
  • the service is provided by sending an HTTP Response packet to the user terminal 101.
  • the search target identification information collection system according to the present invention 301 is connected to a wired or wireless communication line connecting the user terminal 101 and the Internet network (N), as shown in Figure 2, the identification information database ( 351, a mirroring unit 311, and a link processing unit 321.
  • the identification information database 351 stores and manages identification information of the search target and its additional information in a structured form.
  • the search target identification information is information that can uniquely identify the object to be searched on the Internet.
  • the search target identification information may be an address (URL) of a search target object.
  • the target object may be any type of data existing on the Internet such as a web page, an image, a video, or a document.
  • the additional information includes attribute information about the object corresponding to the identification information (data format of the object, extraction time, size of the object, whether to spam the object, data validity period specified by the server), and attribute information of the identification information (identification). Whether the information is valid, data size of identification information, etc.), host information (host name, IP address of a domain name, etc. of a resolved host), and the like.
  • the mirroring unit 311 may mirror or sniff packet data transmitted and received between the web server 201 connected to the Internet network N and the user terminal 101.
  • the search target identification information collection system 301 may be implemented as a tap device or a switch mirror installed in a network backbone network, or a base station that is a network contact point of the user terminal 101. It may be a module of hardware or software installed in an access point.
  • the link processing unit 321 processes the packet mirrored by the mirroring unit 311 to add search target identification information to the identification information database 351.
  • the search target identification information collection system 301 may include a spam processing unit 331 for determining whether an object corresponding to the extracted identification information is spam or a status information processing unit for determining status information of an object corresponding to the extracted identification information. 341 may be further included.
  • the identification information database 351 may be configured as a physical or software module including a conventional database system for structurally storing data.
  • the mirroring unit 311, the link processing unit 321, the spam processing unit 331, or the state information processing unit 341 may each be configured as a software module in which functions are separated from each other in one physical system, or at least one or more. It may be configured as a software module or a combination of at least one hardware module.
  • FIG. 3 is a flowchart illustrating a method of collecting search object identification information using packet mirroring according to an embodiment of the present invention.
  • the mirroring unit 311 mirrors packets transmitted and received by the user terminal 101 with the web server 201 (S511).
  • the mirrored packet may be an object request packet requesting the user terminal 101 to transmit a specific object to the web server 201.
  • the packet header may include a URL address value as identification information of the requested object, and the link processing unit 321 extracts the URL address value as identification information (S551). ).
  • the link processing unit 321 adds the extracted identification information to the identification information database 351 (S555).
  • the search object identification information thus added is collected by a crawler system that collects and stores the actual search object, and is stored in a search database.
  • the stored object is prepared as a search volume through a reprocessing process such as indexing to a form suitable for search.
  • the search engine extracts a search result from the search volume as a search term requested by the user and provides a search service.
  • the identification information collected by the method for collecting search subject identification information using packet mirroring according to the present invention is actually identification information of an object to which the user terminal 101 has sent an object request packet to the web server 201 at least once
  • the search engine Can be referred to as identification information that needs to be searched for.
  • all the identification information can be included as a search target except for the identification information of the object that has never been visited in the related user terminal 101.
  • a spam processing step of determining whether an object corresponding to the identification information includes contents suitable for the search service.
  • identification information alone cannot grasp the contents of the corresponding object, processing is possible only after collecting the identification information and crawling the corresponding object, and actually determining whether the contents of the object are spam.
  • Many criteria and algorithms were needed, which required very large time and hardware costs.
  • reliable spam processing is possible in the process of extracting identification information.
  • the link processing unit 321 extracts the referrer information together when extracting the link (S521).
  • the referrer includes original identification information of the original object that hyperlinks the identification information included in the object request packet that generated the object request packet.
  • the spam processing unit 331 sets a list of original objects that hyperlink only identification information, not spam, and determines that the extracted referrer is not spam if the host of the extracted referrer is included in the preset original object list.
  • the identification information (link) included in the object request packet is extracted (S551) and added to the identification information database 351 (S555).
  • the preset original object list may be set as the host name of a commercial search service such as “google” or “yahoo”. .
  • the search system consumes time cost in proportion to the extracted identification information.
  • the larger the extracted identification information the higher the quality of the search results.
  • the higher the number of extracted identification information the longer the cycle of crawling and applying the object corresponding to the identification information to the search service. It can also be counterproductive. Therefore, in order to maximize the quality of the search results, it may be necessary to reduce the time to crawl the object corresponding to the increased identification information while increasing the amount of extracted identification information.
  • 5 to 6 illustrate a method of innovatively reducing a crawl time without generating additional communication traffic or hardware resources in the process of adding identification information to the identification information database 351.
  • the mirroring unit 311 may mirror the object response packet transmitted from the web server 201 to the user terminal 101 (S511).
  • the object response packet may be an HTTP response packet as a packet generated in the web server 201 in response to the object request packet.
  • the object response packet may include a status code or an error code for the object request.
  • various status codes or error codes such as “200” if the response is normal, “403” for the access denied path, “404” for the wrong path, and “500” for the server error. Is defined.
  • the state information processing unit 341 extracts the state code or the error code (S531) to determine whether the corresponding identification information is normal (S532), and extracts only the identification information of the normal state (S551) to determine whether the normality.
  • the identification information database 351 is stored in the identification information database 351 together with the status information.
  • the link processing unit 321 may store all extracted identification information in the identification information database 351, but the status information processing unit 341 may also implement the state information together (S536 and S537).
  • the time taken to collect an object corresponding to one piece of identification information is very short in the case of normal identification information, but the identification information that is not normal tends to take several seconds to several tens of seconds before checking the error code. Therefore, when the status information of each identification information is recorded together in the identification information database 351, the time required for the crawler to collect the objects corresponding to each identification information can be drastically reduced, among the abnormal identification information. As a result, efficient scheduling can be attempted with reference to each error code, which can play a significant role in improving the performance of the search service.
  • the search target identification information collected by the present invention may be stored in the identification information database 351 as a table as shown in FIG. 7.
  • the scheme of the table 701 is a "link" for storing identification information, "721", “state” for storing status information of the identification information (731), and "spam” for storing whether the identification information is spam (741). ) May be included.
  • the stored table of identification information enables the crawler to identify the target of crawling and efficiently schedule scheduling in collecting objects corresponding to the identification information, and eliminates the need for separate spam filtering before the search service or spam. Minimize filtering.
  • the method of collecting search object identification information using packet mirroring may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • computer readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템에 관한 것이다. 본 발명은 검색시스템이 검색대상이 되는 객체의 식별정보를 수집하는 방법에 있어서, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계, 상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계, 및 식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계를 포함한다. 이와 같은 본 발명에 의하면 최소한의 하드웨어 리소스로 실제 사용자들이 방문하는 객체의 식별정보를 검색을 위한 최적의 검색대상 식별정보로서 확보할 수 있고, 검색시스템의 전체적인 성능을 개선하여 검색결과를 획기적으로 개선할 수 있다.

Description

패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템
본 발명은 검색 방법 및 그 시스템에 관한 것으로 보다 상세하게는 검색에 사용되는 검색대상 식별정보를 수집하는 검색 커버리지 확보 방법 및 그 시스템에 관한 것이다.
최근 인터넷 통신기술이 발달하고 이에 따라 컨텐츠의 생산 및 소비방식 또한 인터넷 통신기술을 중심으로 변화하고 있다. 기존에 오프라인 매체를 통한 컨텐츠의 생산 및 소비에 비해 인터넷 시대의 정보유통은 속도와 파급력 면에서 비교가 되지 않는다. 이러한 인터넷 시대의 정보유통에 있어 가장 핵심적이고 중추가 되는 기술은 검색기술이라 할 수 있다.
검색기술이라 함은, 인터넷망에 산재되어 있는 모든 검색대상 객체를 필요에 따라 검색하여 그 검색대상 객체에 포함된 정보를 찾아볼 수 있도록 하는 기술을 의미한다.
일례로 웹페이지 검색기술은 검색의 대상이 되는 웹페이지 링크(또는 유알엘; URL; uniform resource locator)를 확보하는 링크수집기술, 수집된 링크의 웹페이지 내용을 확보하는 크롤링기술, 크롤링된 웹페이지 내용을 검색에 적합한 형태로 가공하는 인덱싱기술, 그리고 사용자의 필요에 의한 검색어에 연관된 웹페이지 결과물을 제공하는 검색엔진기술로 구성된다. 그 중에서도 링크수집기술은 검색의 커버리지와 직결되는 기술로서 검색결과에 직접적인 영향을 미칠 수 밖에 없는 핵심기술이다.
현재의 검색 시스템에서 검색대상 식별정보 수집기술은 다양한 루트를 통해 확보한 식별정보를 바탕으로, 해당 식별정보의 검색대상 객체에서 포함하고 있는 다른 식별정보를 추출하고, 이를 다시 검색대상 식별정보에 포함하는 방식으로 이루어진다. 그러나, 이는 초기 시드가 되는 식별정보에 따라 커버리지의 확보 한계가 달라지게 되고, 식별정보 수집과 크롤링으로 이루어지는 사이클이 반복될 때만 식별정보를 추가할 수 있으며, 추가되는 식별정보가 검색대상 객체를 분석한 결과물일 뿐이므로 사용자들이 실제로 방문하는 검색대상의 식별정보가 아닐 가능성이 있어, 검색결과의 질을 향상시키지는 못하면서 하드웨어 리소스만 점유하는 식별정보가 포함될 가능성이 매우 높은 단점이 있다.
이러한 단점을 극복하고자 선행기술문헌(한국공개특허 제2010-0008466호)에는 중복된 웹페이지 링크를 제거하기 위한 기술에 대하여 개시하고 있지만, 새로이 추가되는 웹페이지 링크의 질을 개선하는 데에는 전혀 도움이 되지 못하고 있다. 이외에도 현재의 웹페이지 검색 기술의 단점을 보완하기 위한 다수의 기술이 제안되고는 있으나, 대부분 크롤링의 성능을 향상하거나, 검색된 웹페이지 결과의 랭킹을 개선하는 것에 그칠 뿐이어서, 링크데이터의 질을 개선하여 검색결과 뿐 아니라 하드웨어 리소스 효율성을 혁신적으로 개선하는 기술적 요구를 만족시키지 못하고 있는 실정이다.
본 발명의 목적은 최소한의 하드웨어 리소스로 검색을 위한 최적의 검색대상 식별정보를 확보하는 시스템 및 방법을 제공하는 것이다.
본 발명의 다른 목적은 실제 사용자들이 방문하는 객체들의 식별정보를 검색을 위한 최적의 검색대상 식별정보로서 확보하는 시스템 및 방법을 제공하는 것이다.
본 발명의 다른 목적은 검색시스템의 전체적인 성능을 개선하여 검색결과를 획기적으로 개선할 수 있는 시스템 및 방법을 제공하는 것이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제1측면에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법은, 검색시스템이 검색대상이 되는 객체의 식별정보를 수집하는 방법에 있어서, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계, 상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계, 및 식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계를 포함한다.
본 발명의 제2측면에 따른 패킷미러링을 이용한 검색서비스 제공 방법은, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계, 상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계, 식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계, 상기 식별정보에 대응하는 객체를 수집하여 검색데이터베이스에 저장하는 크롤링단계, 및 상기 검색데이터베이스에 저장된 객체로써 검색서비스를 제공하는 검색서비스단계를 포함한다.
본 발명의 제3측면에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 시스템은, 검색서비스의 대상이 되는 객체의 식별정보를 저장하는 식별정보 데이터베이스, 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링부, 및 상기 미러링부에 의해 미러링된 패킷으로부터 식별정보를 추출하고, 상기 식별정보 데이터베이스에 상기 추출된 식별정보를 추가하는 링크처리부를 포함한다.
위와 같은 구성을 갖는 본 발명의 일실시예에 따르면, 최소한의 하드웨어 리소스로 실제 사용자들이 방문하는 객체의 식별정보를 검색을 위한 최적의 검색대상 식별정보로서 확보할 수 있다.
또한 본 발명은 검색시스템의 전체적인 성능을 개선하여 검색결과를 획기적으로 개선할 수 있다.
도 1은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 시스템의 구성도이다.
도 2는 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 시스템을 도시한 기능블록도이다.
도 3은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법에서 스팸필터링을 함께하는 과정을 설명하기 위한 순서도이다.
도 5 및 도 6은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법에서 상태정보업데이트를 함께하는 과정을 설명하기 위한 순서도이다.
도 7은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보에 의해 구성된 식별정보 데이터베이스의 테이블을 나타낸 도면이다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 시스템의 구성도이다.
인터넷망(N)은 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 유무선 네트워크로 구현될 수 있다.
사용자단말(101)은 인터넷망(N)을 통해 원격지의 웹서버(201)에 접속하는 통신단말로서, 타 단말 및 서버와 연결 가능한 컴퓨터나 휴대용 단말기, 텔레비전 등으로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, 텔레비전은 IPTV(Internet Protocol Television), 인터넷 TV(Internet Television), 지상파 TV, 케이블 TV 등을 포함할 수 있다.
웹서버(201)는 인터넷망(N)을 통해 원격지의 사용자단말(101) 또는 타 서버와 연결가능한 컴퓨터시스템으로서, 주로 통신 연결된 상대에 대하여 데이터서비스를 제공하는 역할을 한다.
사용자단말(101)은 웹 브라우저 또는 기타 응용프로그램을 통해 웹서버(201)에 서비스요청을 송신하게 된다. 일례로, HTTP(HyperText Transfer Protocol)를 통한 HTTP Request 패킷이 상기 사용자단말(101)로부터 상기 웹서버(201)로 송신되는 것으로 서비스가 요청되고, 상기 웹서버(201)가 HTTP Request 패킷에 대응하여 HTTP Response 패킷을 상기 사용자단말(101)로 송신하는 것으로 서비스가 제공된다.
이 때, 본 발명에 의한 검색대상 식별정보 수집 시스템(301)은 도 2에 도시된 바와 같이 사용자단말(101)과 인터넷망(N)을 연결하는 유무선의 통신선과 연결되어 있으며, 식별정보 데이터베이스(351), 미러링부(311), 링크처리부(321)로 구성된다.
상기 식별정보 데이터베이스(351)는 검색대상의 식별정보와 그 부가정보를 구조적 형태로 저장하고 관리한다. 검색대상 식별정보라 함은 검색대상이 되는 객체를 인터넷 상에서 고유하게 식별할 수 있는 정보로서, 일례로 검색대상 식별정보는 검색대상 객체의 주소(URL; Uniform Resource Locator)가 될 수 있고, 상기 검색대상 객체는 웹페이지, 이미지, 동영상, 문서 등 인터넷 상에서 존재하는 모든 형태의 데이터가 될 수 있다. 상기 부가정보는 상기 식별정보에 대응하는 객체에 관한 속성정보(객체의 데이터형식, 추출시간, 객체의 크기, 객체의 스팸여부, 서버에서 지정한 데이터유효기간 등), 상기 식별정보의 속성정보(식별정보가 유효한지 여부, 식별정보의 데이터크기 등), 호스트정보(호스트명, 도메인네임 해결된 호스트의 아이피주소 등) 등을 포함할 수 있다.
상기 미러링부(311)는 상기 인터넷망(N)에 연결된 웹서버(201)와 상기 사용자단말(101) 사이에 송수신되는 패킷데이터를 미러링 또는 스니핑할 수 있다. 실제로, 상기 검색대상 식별정보 수집 시스템(301)은 네트워크 백본망에 설치되는 탭(TAP)장비 또는 스위치미러(Switch Mirror) 등으로 구현될 수도 있고, 상기 사용자단말(101)의 네트워크 접점이 되는 기지국(Access Point)에 설치된 하드웨어 또는 소프트웨어의 모듈일 수도 있다.
상기 링크처리부(321)는 상기 미러링부(311)에 의해 미러링된 패킷을 처리하여 상기 식별정보 데이터베이스(351)에 검색대상 식별정보를 추가하는 역할을 한다.
상기 검색대상 식별정보 수집 시스템(301)은 상기 추출된 식별정보에 대응하는 객체의 스팸여부를 판단하는 스팸처리부(331) 또는 상기 추출된 식별정보에 대응하는 객체의 상태정보를 판단하는 상태정보처리부(341)를 더 포함할 수 있다.
상기 식별정보 데이터베이스(351)는 데이터를 구조적으로 저장하기 위한 통상의 데이터베이스시스템을 포함하여 물리적 또는 소프트웨어적 모듈로써 구성될 수 있다. 상기 미러링부(311), 링크처리부(321), 스팸처리부(331), 또는 상태정보처리부(341)는 각각 하나의 물리적 시스템 내에서 서로 기능이 구분된 소프트웨어 모듈로서 구성될 수도 있고, 적어도 하나 이상의 소프트웨어 모듈 또는 적어도 하나 이상의 하드웨어 모듈의 조합으로써 구성될 수도 있다.
이하에서는 검색대상 식별정보 수집 시스템의 각 구성요소를 중심으로 그 수집 방법에 대하여 설명한다.
도 3은 본 발명의 일실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법을 설명하기 위한 순서도이다.
본 발명에 의한 패킷미러링을 이용한 검색대상 식별정보 수집 방법은 사용자단말(101)이 웹서버(201)와 송수신하는 패킷을 미러링부(311)가 미러링하는 단계로 시작된다(S511). 상기 미러링된 패킷은 상기 사용자단말(101)이 웹서버(201)에 대하여 특정한 객체를 전송하여줄 것을 요청하는 객체요청패킷일 수 있다. 특히 상기 객체요청패킷이 HTTP Request 패킷인 경우에는 그 패킷헤더에 상기 요청된 객체의 식별정보로서 URL주소값이 포함될 수 있고, 링크처리부(321)는 상기 URL 주소값을 식별정보로서 추출한다(S551). 상기 링크처리부(321)는 상기 추출된 식별정보를 식별정보 데이터베이스(351)에 추가한다(S555). 이렇게 추가된 검색대상 식별정보는 실제 검색대상 객체를 수집하여 저장하는 크롤러 시스템에 의해 수집되어 검색데이터베이스에 저장되고, 상기 저장된 객체는 검색에 적합한 형태로 인덱싱되는 등의 재가공 과정을 거쳐 검색볼륨으로서 준비되고, 검색엔진이 사용자로부터 요청받은 검색어로써 상기 검색볼륨으로부터 검색결과를 추출하여 검색서비스를 제공하게 된다.
본 발명에 의한 패킷미러링을 이용한 검색대상 식별정보 수집 방법에 의해 수집된 식별정보는 실제로 사용자단말(101)이 웹서버(201)에 적어도 한 번 객체요청패킷을 보냈던 객체의 식별정보이므로, 검색엔진의 검색대상이 될 필요가 있는 식별정보라 할 수 있다. 또한 본 발명에 의하면 관련된 사용자단말(101)에서 한번도 방문하지 않은 객체의 식별정보를 제외하고는 모든 식별정보를 검색대상으로 포함할 수 있게 된다.
실제로 수집된 식별정보를 검색서비스로 제공하는 데 있어 반드시 필요한 과정으로서 해당 식별정보에 대응하는 객체가 검색서비스에 적합한 내용을 포함하고 있는지 판단하는 스팸처리단계가 있다. 종래의 스팸처리단계는 식별정보만으로는 그 대응하는 객체의 내용을 파악할 수 없기 때문에 식별정보를 수집하고 그에 대응하는 객체를 크롤링한 이후에나 처리가 가능하였으며, 실제로 그 객체의 내용의 스팸여부를 판단하는 데 수많은 판단기준과 알고리즘이 필요하여 매우 큰 시간비용 및 하드웨어 비용이 필요로 하였다. 그러나, 본 발명에서는 도 4에서 설명하는 바와 같이 식별정보를 추출하는 과정에서 신뢰할 수 있는 스팸처리가 가능하다.
스팸처리를 위해서 미러링부(311)가 객체요청패킷을 미러링한 이후, 링크처리부(321)가 링크를 추출할 때 레퍼러정보를 함께 추출한다(S521). 레퍼러는 상기 객체요청패킷을 발생시킨, 상기 객체요청패킷에 포함된 식별정보를 하이퍼링크하고 있는 원객체의 원식별정보를 포함하고 있다. 이 때, 상기 원객체가 스팸이 아닌 식별정보만을 하이퍼링크하고 있다는 전제가 있다면 상기 식별정보에 대응하는 객체는 스팸이 아니라고 판단할 수 있다(S522). 따라서, 스팸처리부(331)는 스팸이 아닌 식별정보만을 하이퍼링크하는 원객체의 리스트를 기설정하여 두었다가, 상기 추출된 레퍼러의 호스트가 상기 기설정된 원객체리스트에 포함되어 있다면 스팸이 아니라 판단하고, 상기 객체요청패킷에 포함된 식별정보(링크)를 추출하여(S551) 식별정보 데이터베이스(351)에 추가한다(S555). 실제로 다른 검색서비스에서 제공하는 검색결과는 이미 검증된 스팸필터링을 거친 식별정보만을 하이퍼링크할 것이므로, 상기 기설정된 원객체리스트는 “google”, “yahoo” 등 상용 검색서비스의 호스트명으로 설정할 수 있다.
검색시스템이 추출된 식별정보를 크롤링하는 데에는 추출된 식별정보에 비례하여 시간비용을 소모하고 있다. 추출된 식별정보가 클수록 검색결과의 질을 향상시키지만, 추출된 식별정보의 수가 많을수록 해당 식별정보에 대응하는 객체를 크롤링하고 이를 검색서비스에 적용하는 사이클이 길어지는 결과를 가져와 검색결과의 질을 낮추는 역효과를 가져오기도 한다. 따라서, 검색결과의 질을 극대화하기 위해서는 추출된 식별정보의 양을 늘리면서도 늘어난 식별정보에 대응하는 객체를 크롤링하는 시간을 줄이는 것이 필요할 수 있다. 도 5 내지 도 6에서는 식별정보를 식별정보 데이터베이스(351)에 추가하는 과정에서 부가적인 통신트래픽 또는 하드웨어 리소스를 발생하지 않고도 크롤링 시간을 혁신적으로 줄일 수 있는 방법을 설명하고 있다.
본 발명에서 상기 미러링부(311)는 웹서버(201)로부터 사용자단말(101)로 송신되는 객체응답패킷을 미러링할 수 있다(S511). 객체응답패킷은 상기 객체요청패킷에 대응하여 웹서버(201)에서 발생하는 패킷으로서 HTTP Response 패킷일 수 있다. 상기 객체응답패킷은 상기 객체요청에 대한 상태코드 또는 에러코드를 포함할 수 있다. 실제로 HTTP 의 경우에 응답이 정상일 경우는 “200”, 접근이 거부된 경로인 경우는 “403”, 잘못된 경로인 경우는 “404”, 서버오류인 경우는 “500” 등 다양한 상태코드 또는 에러코드가 정의되어 있다. 따라서, 상태정보처리부(341)가 이와 같은 상태코드 또는 에러코드를 추출하여(S531) 해당 식별정보의 정상여부를 판단하고(S532), 정상상태인 식별정보만 추출하여(S551) 상기 정상여부 판단의 결과로서 상태정보와 함께 상기 식별정보 데이터베이스(351)에 저장한다(S555).
또는, 링크처리부(321)가 추출된 모든 식별정보를 식별정보 데이터베이스(351)에 저장하되, 상태정보처리부(341)가 그 상태정보 또한 함께 저장하도록 구현(S536, S537)할 수도 있다.
실제로 어느 한 식별정보에 대응하는 객체를 수집하는 데 소요되는 시간이 정상적인 식별정보의 경우 매우 짧은 데 반해 정상적이지 않은 식별정보는 그 에러코드를 확인하기까지 수초에서 수십초까지 걸리는 경향이 있다. 따라서, 식별정보 데이터베이스(351)에 각 식별정보의 상태정보가 함께 기록되면, 이후 크롤러가 각 식별정보에 대응하는 객체를 수집하는 데 소요되는 시간이 획기적으로 줄어들 수 있으며, 정상적이지 않은 식별정보 중에서도 각 에러코드를 참조하여 효율적인 스케줄링을 시도할 수 있다는 점에서 결과적으로 검색서비스의 성능개선에 획기적인 역할을 할 수 있다.
본 발명에 의해 수집된 검색대상 식별정보는 식별정보 데이터베이스(351)에 도 7에 도시된 형태와 같은 테이블로 저장될 수 있다. 테이블의 스킴(701)은 식별정보를 저장하는 “링크”(721), 해당 식별정보의 상태정보를 저장하는 “상태”(731), 해당 식별정보의 스팸여부를 저장하는 “스팸여부”(741)를 포함할 수 있다. 이렇게 저장된 식별정보의 테이블은 크롤러가 해당 식별정보에 대응하는 객체를 수집하는 데 있어 크롤링의 대상을 확인하고, 스케줄링을 효율적으로 계획할 수 있도록 하며, 검색서비스 전 별도의 스팸필터링이 필요 없도록 하거나 스팸필터링을 최소한으로 할 수 있도록 한다.
도 3 내지 도 6을 통해 설명된 실시예에 따른 패킷미러링을 이용한 검색대상 식별정보 수집 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 검색시스템이 검색대상이 되는 객체의 식별정보를 수집하는 방법에 있어서,
    사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계;
    상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계; 및
    식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계를 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
  2. 제1항에 있어서,
    상기 미러링단계에서 미러링하는 패킷은, 사용자단말로부터 웹서버로 송신되는 객체요청패킷인, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
  3. 제2항에 있어서,
    상기 추출단계는,
    상기 객체요청패킷으로부터 레퍼러정보를 추출하는 레퍼러추출단계를 포함하고,
    상기 추가단계는,
    상기 레퍼러정보에 포함된 호스트정보를 참조하여 상기 추출된 식별정보에 대응하는 객체의 스팸여부를 판단하는 스팸처리단계를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
  4. 제3항에 있어서,
    상기 추가단계는,
    상기 스팸처리단계에서 스팸으로 판단된 식별정보를 스팸으로 기록하는 스팸기록단계를 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
  5. 제1항에 있어서,
    상기 미러링단계에서 미러링하는 패킷은, 웹서버로부터 사용자단말로 송신되는 객체응답패킷인, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
  6. 제5항에 있어서,
    상기 추가단계는,
    상기 객체응답패킷에 포함된 에러코드로부터 판단된 상태정보를 상기 추출단계에서 추출된 식별정보에 연관하여 상기 식별정보 데이터베이스에 기록하는 상태정보처리단계를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 방법.
  7. 사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링단계;
    상기 미러링단계에서 미러링된 패킷으로부터 식별정보를 추출하는 추출단계;
    식별정보 데이터베이스에 상기 추출단계에서 추출된 식별정보를 추가하는 추가단계;
    상기 식별정보 데이테베이스에 추가된 식별정보에 대응하는 객체를 수집하여 검색데이터베이스에 저장하는 크롤링단계; 및
    상기 검색데이터베이스에 저장된 객체로써 검색서비스를 제공하는 검색서비스단계를 포함하는, 패킷미러링을 이용한 검색서비스 제공 방법.
  8. 검색서비스의 대상이 되는 객체의 식별정보를 저장하는 식별정보 데이터베이스;
    사용자단말이 웹서버와 송수신하는 패킷을 미러링하는 미러링부; 및
    상기 미러링부에 의해 미러링된 패킷으로부터 식별정보를 추출하고, 상기 식별정보 데이터베이스에 상기 추출된 식별정보를 추가하는 링크처리부를 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 시스템.
  9. 제8항에 있어서,
    상기 미러링부가 미러링하는 패킷은, 사용자단말로부터 웹서버로 송신되는 객체요청패킷이고,
    상기 요청패킷으로부터 레퍼러정보를 추출하고 상기 레퍼러정보에 포함된 호스트정보를 참조하여 상기 추출된 식별정보에 대응하는 객체의 스팸여부를 판단하는 스팸처리부를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 시스템.
  10. 제8항에 있어서,
    상기 미러링부가 미러링하는 패킷은, 웹서버로부터 사용자단말로 송신되는 객체응답패킷이고,
    상기 객체응답패킷에 포함된 에러코드로부터 판단된 상태정보를 상기 추출된 식별정보에 연관하여 상기 식별정보 데이터베이스에 기록하는 상태정보처리부를 더 포함하는, 패킷미러링을 이용한 검색대상 식별정보 수집 시스템.
PCT/KR2013/003475 2012-04-23 2013-04-23 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템 WO2013162262A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2012-0042326 2012-04-23
KR20120042326 2012-04-23
KR10-2013-0045069 2013-04-23
KR1020130045069A KR101471513B1 (ko) 2012-04-23 2013-04-23 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
WO2013162262A1 true WO2013162262A1 (ko) 2013-10-31

Family

ID=49483484

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/003475 WO2013162262A1 (ko) 2012-04-23 2013-04-23 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템

Country Status (1)

Country Link
WO (1) WO2013162262A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010069785A (ko) * 2001-05-11 2001-07-25 이강석 웹사이트 검색결과의 트리구조표시서비스
US20060171321A1 (en) * 2005-01-28 2006-08-03 Samsung Electronics Co., Ltd. Communication system, method and apparatus for providing mirroring service in the communication system
KR20070054300A (ko) * 2005-11-23 2007-05-29 이경윤 패킷 미러링 방식을 이용한 인터넷 접속 제한 시스템 및 그방법
KR20110008980A (ko) * 2009-07-21 2011-01-27 신한진 중복 정보가 제거된 웹사이트 통합 검색 장치 및 방법
KR101047997B1 (ko) * 2010-12-07 2011-07-13 플러스기술주식회사 네트워크 패킷을 이용한 공유 단말 구분 시스템 및 처리 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010069785A (ko) * 2001-05-11 2001-07-25 이강석 웹사이트 검색결과의 트리구조표시서비스
US20060171321A1 (en) * 2005-01-28 2006-08-03 Samsung Electronics Co., Ltd. Communication system, method and apparatus for providing mirroring service in the communication system
KR20070054300A (ko) * 2005-11-23 2007-05-29 이경윤 패킷 미러링 방식을 이용한 인터넷 접속 제한 시스템 및 그방법
KR20110008980A (ko) * 2009-07-21 2011-01-27 신한진 중복 정보가 제거된 웹사이트 통합 검색 장치 및 방법
KR101047997B1 (ko) * 2010-12-07 2011-07-13 플러스기술주식회사 네트워크 패킷을 이용한 공유 단말 구분 시스템 및 처리 방법

Similar Documents

Publication Publication Date Title
US8930806B2 (en) Providing toolbars
CN103051725B (zh) 应用识别方法、数据挖掘方法、装置及系统
CN102783119A (zh) 访问控制方法、系统及接入终端
JP2000501270A (ja) 移動通信ネットワークのデータサービス
CN101674374A (zh) 用于移动通讯终端的网页内容提取转发系统及其应用方法
EP2735985B1 (en) Method and apparatus for managing device context using an ip address in a communication system
CN105592175A (zh) 重定向到Web页面的方法及装置
CN101551813A (zh) 网络连接设备、搜索设备及搜集搜索引擎数据源的方法
US20120238294A1 (en) Method Of Providing Location-Based Service In A Communication System
CN102098328B (zh) 超文本传输协议http流关联方法和设备
CN102487382B (zh) 资源提供方法、装置及系统
CN101355530B (zh) 一种基于无线路由器进行信息发布的系统和方法
US9112843B2 (en) Method and system for subscriber to log in internet content provider (ICP) website in identity/location separation network and login device thereof
CN101800758A (zh) 一种移动终端访问网络的方法、系统及网关
CN111600929B (zh) 传输线路探测方法、路由策略生成方法及代理服务器
WO2013162262A1 (ko) 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템
US20090248529A1 (en) System and method for providing value added services via wireless access points
CN100372254C (zh) 无线互动式通信系统
CN102938704A (zh) 接入管理方法、装置和系统
KR101471513B1 (ko) 패킷미러링을 이용한 검색대상 식별정보 수집 방법 및 그 시스템
US8135672B1 (en) Deleting website-specific data at a wireless-network gateway
CN113472909A (zh) 一种dns查询处理方法和装置
WO2013162264A1 (ko) 패킷미러링을 이용한 객체 수집 방법 및 시스템
WO2014182055A1 (ko) 객체정보 제공 시스템 및 방법
WO2013162263A1 (ko) 패킷미러링을 이용한 검색대상 랭크 결정 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13780991

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13780991

Country of ref document: EP

Kind code of ref document: A1