KR101057538B1 - Web page index update method and system - Google Patents

Web page index update method and system Download PDF

Info

Publication number
KR101057538B1
KR101057538B1 KR1020080082330A KR20080082330A KR101057538B1 KR 101057538 B1 KR101057538 B1 KR 101057538B1 KR 1020080082330 A KR1020080082330 A KR 1020080082330A KR 20080082330 A KR20080082330 A KR 20080082330A KR 101057538 B1 KR101057538 B1 KR 101057538B1
Authority
KR
South Korea
Prior art keywords
page
web page
search
time
ineligible
Prior art date
Application number
KR1020080082330A
Other languages
Korean (ko)
Other versions
KR20100023515A (en
Inventor
최재호
김광현
이상호
장정호
남세동
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080082330A priority Critical patent/KR101057538B1/en
Publication of KR20100023515A publication Critical patent/KR20100023515A/en
Application granted granted Critical
Publication of KR101057538B1 publication Critical patent/KR101057538B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/51Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems at application loading time, e.g. accepting, rejecting, starting or inhibiting executable software based on integrity or source reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

웹 페이지의 체류시간 추정을 통해 검색 부적격 웹 페이지를 검출할 수 있는 본 발명의 일 측면에 따른 웹 페이지 색인 업데이트 방법은 검색 사용자의 웹 페이지 체류시간을 추정하는 단계; 상기 추정된 체류 시간을 이용하여 상기 웹 페이지 중에서 검색 부적격 웹 페이지 후보군을 선정하는 단계; 및 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 단계를 포함한다.According to an aspect of the present invention, a web page index updating method capable of detecting a search ineligible web page by estimating a residence time of a web page includes estimating a web page residence time of a search user; Selecting a search ineligible web page candidate group from the web pages using the estimated dwell time; And determining whether the candidate group is a search ineligible web page.

색인, 데드 페이지, 체류시간 Index, Dead Page, Retention Time

Description

웹 페이지 색인 업데이트 방법 및 시스템{Method and System for Updating Web Page Index}Method and System for Updating Web Page Index

본 발명은 색인 업데이트에 관한 것으로서 보다 상세하게는 데드(dead) 페이지 검출에 의한 웹 페이지 색인 업데이트 방법에 관한 것이다.The present invention relates to an index update, and more particularly, to a web page index update method by detecting dead pages.

인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 질의어를 포함하는 웹 페이지, 기사, 또는 해당 검색 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.Due to the development and spread of the Internet, various services using the Internet are provided, and a representative example thereof is a search service. When the user inputs a word or a combination of words to be searched for as a query, the search engine may search the document for a search result document corresponding to the input query (eg, a web page, an article, or a search query input from the user). An image having a file name including the corresponding search query).

이러한, 검색 서비스를 제공하기 위해서는 웹 페이지에 대한 색인을 구축하고 있어야 한다. 그러나, 인터넷 상에는 수 많은 웹 페이지들이 생성과 변화를 반복하고 있으며, 이에 따라 웹 페이지를 대상으로 검색 서비스를 제공하는 입장에서는 수집(Crawl)의 문제가 매우 중요시되었다. 과거에는 새로 생성되는 웹 페이지들을 얼마나 많이 수집하느냐가 웹 로봇의 성능을 좌우하였다면, 근래에는 얼마나 양 질의 웹 페이지를 수집하느냐가 중요시되고 있다. In order to provide such a search service, an index for a web page must be established. However, numerous web pages are repeatedly created and changed on the Internet. Therefore, the problem of collection is very important from the standpoint of providing a search service for web pages. In the past, how much collection of newly created web pages influenced the performance of web robots, and recently, how much quality web pages are collected is important.

이 때, 양질의 웹 페이지를 수집하기 위해서는 새로 생성되는 웹 페이지들을 빠르게 수집하는 것도 중요하지만, 기존에 수집한 웹 페이지들이 변한 경우 기존 색인을 업데이트 시켜야 하는 문제점이 있다. 다시 말해, 기존의 색인을 업데이트 해주지 않으면 일정 기간이 지난 과거에 존재했던 웹 페이지에 대한 색인은 과거 데이터가 되므로, 내용이 변해버린 웹 페이지에 대한 색인을 반영할 수 없어 사용자에게 정확한 검색 결과를 제공하지 못하는 문제점이 있는 것이다.In this case, it is important to collect newly generated web pages quickly in order to collect high quality web pages, but there is a problem that the existing index needs to be updated when the collected web pages change. In other words, if you don't update the existing index, the index of web pages that existed in the past for a certain period of time becomes historical data, so it can't reflect the index of the changed web pages, providing accurate search results to users. There is a problem that can not be.

특히, 검색 엔진을 사용하다 보면 검색 결과에는 존재하지만 막상 클릭을 하면 해당 페이지의 접속이 불가능하거나 해당 게시물이 삭제되어 있는 경우를 종종 볼 수 있다. 이는 크롤러(crawler)가 해당 문서를 수집할 당시에는 정상적이었던 문서가 시간이 지남에 따라 서버에서 사라지거나 누군가에 의해 삭제 되었음에도 불구하고 검색 엔진이 이 사실을 인식하지 못해 발생한다. 이렇게 시간이 경과함에 따라 더 이상 이전 수집 당시의 내용이 존재하지 않는 검색 부적격 페이지에는 데드(dead) 페이지 또는 소프트데드(soft dead) 페이지라고 부르며, 이러한 페이지들이 많을수록 사용자들의 검색 만족도는 떨어지게 되는 문제점이 있다.In particular, if you use a search engine, you will often find that the page exists in the search results, but when you click on it, you cannot access the page or the post is deleted. This happens because the search engine doesn't recognize this, even though documents that were normal at the time the crawler collected them were either removed from the server or deleted by someone over time. As time goes by, the search ineligible pages that no longer exist at the time of the previous collection are called dead pages or soft dead pages, and the more such pages, the lower the user's search satisfaction. have.

한편, 검색 엔진은 이러한 페이지들이 사용자에게 노출되지 않도록 색인에서 제외하여야 하는데, 크롤러에 의해 수집된 문서가 수 십억 건에 이를 경우 크롤러가 모든 페이지들을 재방문하여 검색 부적격 페이지인지 여부를 알아내는 것 또한 현실적으로 어려운 문제점이 있다.On the other hand, search engines should exclude these pages from the index to prevent users from seeing them. If billions of documents are collected by the crawler, the crawler will revisit all pages to find out if they are ineligible for search. There is a difficult problem in reality.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 웹 페이지의 체류 시간을 이용해 검색 부적격 페이지를 검출할 수 있는 색인 업데이트 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problem, and it is a technical object of the present invention to provide an index updating method and system capable of detecting a search ineligible page by using a residence time of a web page.

또한, 본 발명은 검출된 검색 부적격 페이지 후보군이 실제 검색 부적격 페이지에 해당하는지를 판단하여 색인에서 삭제할 수 있는 색인 업데이트 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.Another object of the present invention is to provide an index updating method and system that can determine whether a detected search invalid page candidate group corresponds to an actual search invalid page and delete the index from an index.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 웹 페이지 색인 업데이트 방법은 검색 사용자의 웹 페이지 체류시간을 추정하는 단계; 상기 추정된 체류 시간을 이용하여 상기 웹 페이지 중에서 검색 부적격 웹 페이지 후보군을 선정하는 단계; 및 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 단계를 포함한다.Web page index update method according to an aspect of the present invention for achieving the above object comprises the steps of estimating the residence time of the web page of the search user; Selecting a search ineligible web page candidate group from the web pages using the estimated dwell time; And determining whether the candidate group is a search ineligible web page.

이 때, 상기 체류시간을 추정하는 단계는 상기 웹 페이지의 세션 아이디(Session ID) 및 페이지 아이디(Page ID) 중 적어도 하나를 이용하여 상기 체류시간을 추정하는 것을 특징으로 한다.In this case, estimating the dwell time may include estimating the dwell time using at least one of a session ID and a page ID of the web page.

특히, 동일 페이지 아이디를 가진 서로 다른 웹 페이지에 대한 클릭시각의 시간차이를 이용하여 상기 체류시간을 추정하는 것을 특징으로 하며, 동일 세션 아이디를 가진 서로 다른 웹 페이지의 클릭시각과 검색시각과의 시간차이를 이용하여 상기 체류 시간을 추정하는 것을 특징으로 한다.In particular, the time of stay is estimated by using the time difference of click time for different web pages having the same page ID, and the time between click time and search time of different web pages having the same session ID. The difference is estimated using the residence time.

한편, 상기 검색 부적격 웹 페이지 후보군을 선정하는 단계는 상기 체류시간을 추정할 수 있는 유효 클릭수가 기준 횟수 이상인 웹 페이지 및 상기 추정된 체류시간의 평균이 기준 시간 이하인 웹 페이지 중 적어도 하나를 상기 후보군으로 선정하는 것을 특징으로 한다.The selecting of the search ineligible web page candidate group may include selecting, as the candidate group, at least one of a web page having an effective number of clicks for estimating the dwell time or more and a web page having an average of the estimated dwell time less than or equal to the reference time. It is characterized by selecting.

이 때, 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 단계는 상기 검색 부적격 웹 페이지 후보군을 재방문하여 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 것을 특징으로 한다.In this case, the determining whether the candidate group is a search ineligible web page may include re-visiting the search ineligible web page candidate group and determining whether the candidate group is a search ineligible web page.

일 실시예에 있어서, 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 단계는 상기 검색 부적격 웹 페이지 후보군이 기 설정된 분류에 해당하는 검색 부적격 웹 페이지인지 여부를 판단하는 것을 특징으로 한다.The determining of whether the candidate group is a search ineligible web page may include determining whether the search ineligible web page candidate group is a search ineligible web page corresponding to a preset classification.

다른 실시예에 있어서, 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 단계는 상기 검색 부적격 웹 페이지 후보군이 접속 불능 페이지, 서비스 불능 페이지 및 스팸 페이지 중 어느 하나에 해당하는지 여부를 판단하는 것을 특징으로 한다.In another embodiment, the determining whether the candidate group is a search ineligible web page may include determining whether the search ineligible web page candidate group corresponds to any one of an inaccessible page, an inability to service page, and a spam page. do.

일 실시예에 있어서, 상기 접속 불능 페이지는 네트워크상의 오류 또는 웹 서버상의 오류에 의해 접속이 불가능한 페이지 중 어느 하나인 것을 특징으로 하며, 상기 서비스 불능 페이지는 게시물의 비공개, 서비스 약관 또는 정책 위배 및 게시물의 삭제에 의해 검색 서비스 제공이 불가능한 페이지 중 어느 하나인 것을 특징으로 하고, 상기 스팸 페이지는 광고성, 정보 불충분 페이지 및 상업 사이트 중 어느 하나인 것을 특징으로 한다.In one embodiment, the inaccessible page is characterized in that any one of the page can not be accessed by the error on the network or the error on the web server, the unserviceable page is a non-disclosure of the post, terms of service or policy violation and post It is characterized in that any one of the pages impossible to provide a search service by the deletion of the spam page, the spam page is characterized in that any one of advertising, information insufficient page and commercial site.

한편, 상기 웹 페이지 색인 업데이트 방법은 상기 검색 부적격 웹 페이지로 판단된 웹 페이지를 색인에서 삭제하는 단계를 더 포함하는 것을 특징으로 한다. 일 실시예에 있어서, 상기 검색 부적격 웹 페이지로 판단된 웹 페이지를 해당 웹 페이지의 고유한 키 값을 이용하여 색인에서 삭제하는 것을 특징으로 하며, 여기서 상기 고유한 키 값은 유알엘(URL) 또는 다큐먼트 아이디(document ID)인 것을 특징으로 한다.On the other hand, the web page index updating method further comprises the step of deleting the web page determined to be the search ineligible web page from the index. In an embodiment, the web page determined as the search ineligible web page is deleted from an index using a unique key value of the web page, wherein the unique key value is a URL or a document. It is characterized in that the ID (document ID).

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 웹 페이지 색인 업데이트 시스템은 검색 사용자의 웹 페이지 체류시간을 추정하는 체류시간 추정부; 상기 추정된 체류 시간을 이용하여 상기 웹 페이지 중에서 검색 부적격 웹 페이지 후보군을 선정하는 후보군 선정부; 및 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 판단부를 포함한다.Web page index update system according to another aspect of the present invention for achieving the above object is a dwell time estimator for estimating the dwell time of the web page of the search user; A candidate group selecting unit which selects a search ineligible web page candidate group from the web pages using the estimated residence time; And a determination unit determining whether the candidate group is a search ineligible web page.

상술한 바와 같이 본 발명에 따르면, 체류시간을 이용하여 검색 부적격 웹 페이지 후보군 선정에 의해 삭제되거나 검색이 불가능한 웹 페이지에 대한 색인을 신속하게 삭제할 수 있다는 효과가 있다. As described above, according to the present invention, it is possible to quickly delete an index for a web page that is deleted or cannot be searched by selecting a search ineligible web page candidate group using the residence time.

또한, 본 발명에 따르면, 검색 부적격 웹 페이지 후보군에 속한 웹 페이지 재방문을 통해 색인을 삭제함으로써 사용자에게 양질의 검색 서비스를 제공할 수 있다는 효과가 있다.In addition, according to the present invention, it is possible to provide a high-quality search service to the user by deleting the index by re-visiting the web page belonging to the search-ineligible web page candidate group.

또한, 본 발명에 따르면, 데드 페이지 또는 소프트 데드 페이지뿐만 아니라 스팸 페이지 검출도 손쉽게 할 수 있다는 효과가 있다.In addition, according to the present invention, it is possible to easily detect spam pages as well as dead pages or soft dead pages.

이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 시스템의 개략적인 블럭도이다. 도시된 바와 같이, 색인 업데이트 시스템(100)은 체류시간 추정부(120), 후보군 선정부(140), 판단부(160) 및 색인 삭제부(180)를 포함한다.1 is a schematic block diagram of a web page index update system according to an embodiment of the present invention. As illustrated, the index update system 100 includes a residence time estimator 120, a candidate group selector 140, a determiner 160, and an index deleter 180.

체류시간 추정부(120)는 검색 사용자의 웹 페이지 체류시간을 추정하는 것으로서, 제1체류시간 추정부(122) 및 제2체류시간 추정부(124)를 포함한다.The dwell time estimator 120 estimates the dwell time of the web page of the search user, and includes a first dwell time estimator 122 and a second dwell time estimator 124.

여기서, 체류시간(dwell time)이란 검색 사용자가 해당 웹 페이지에 머문 시간을 의미한다. 또한, 본 발명에서 이러한 체류시간을 이용하는 이유는 일반적으로 체류시간이 긴 문서가 양질의 문서일 확률이 높은 반면, 체류시간이 짧을 경우 사용자들이 해당 페이지의 결과에 어느 정도 불만족을 표시했다고 볼 수 있으므로, 검색 부적격 웹 페이지 검출에 체류시간을 이용하는 것이 효과적이기 때문이다. 따라서, 본 발명은 현실적으로 불가능한 모든 웹 페이지들의 재방문을 통한 검색 부적격 페이지 검출이 아닌, 검색 서비스 사용자들의 클릭정보와 웹 페이지 체류시간 정보를 이용하여 직간접적으로 검색 부적격 웹 페이지인지 여부를 판단할 수 있는 것이다.Here, the dwell time means a time spent by the search user on the web page. In addition, the reason for using such a dwell time in the present invention is that a document with a long dwell time generally has a high probability of being a high quality document, but when the dwell time is short, users may show that the dissatisfaction is somewhat dissatisfied with the result of the page. This is because it is effective to use the dwell time for detecting unsuitable web pages. Therefore, the present invention can determine whether the search ineligible web page is directly or indirectly using the click information and the web page dwell time information of the search service users, rather than the detection of the search ineligible page through the revisit of all web pages that are practically impossible. It is.

일 실시예에 있어서, 체류시간 추정부(120)는 웹 페이지의 세션 아이디 및 페이지 아이디 중 적어도 하나를 이용하여 체류시간을 추정할 수 있다.In one embodiment, the dwell time estimator 120 may estimate the dwell time using at least one of a session ID and a page ID of the web page.

여기서, 세션 아이디(Session ID)란 한 사용자가 검색 서비스를 이용할 때 부여되는 고유의 값으로 주로 IP 주소를 기준으로 서버를 통해 발급되어 사용자를 구분하는 역할을 한다. 또한, 페이지 아이디(Page ID)란 사용자가 특정 검색어를 입력하여 검색을 할 때마다 갱신되는 값으로 사용자에게 노출되는 결과 페이지를 구분하는 역할을 한다. 따라서, 검색 사용자에 있어서 동일한 세션 아이디를 가지면 사용자가 동일한 경우에 해당하며, 페이지 아이디가 새로 생성된 경우에는 검색이 새로 시작된 것을 의미할 수 있다.Here, Session ID is a unique value given when a user uses a search service. The session ID is mainly issued through a server based on an IP address to distinguish users. In addition, the page ID is a value that is updated each time a user enters a specific search word and searches for the page ID. Therefore, if the search user has the same session ID, the user may be the same, and if the page ID is newly generated, it may mean that the search is newly started.

제1체류시간 추정부(122)는 동일 페이지 아이디를 가진 서로 다른 웹 페이지에 대한 클릭 시각의 시간차이를 이용하여 체류시간을 추정하며, 제2체류시간 추정부(124)는 동일 세션 아이디를 가진 서로 다른 웹 페이지의 클릭시각과 검색시각과의 시간차이를 이용하여 체류시간을 추정한다.The first dwell time estimator 122 estimates the dwell time using the time difference between click times for different web pages having the same page ID, and the second dwell time estimator 124 has the same session ID. The time difference between the click time and the search time of different web pages is estimated.

체류시간 추정부(120)에 의해 체류시간을 추정하는 예가 도 2에 도시되어 있다. 도시된 바와 같이, 동일한 세션 아이디에 의한 검색 시간 동안 두 개의 페이지 아이디와 다섯 개의 클릭 시각으로 볼 때, 하나의 사용자가 두 번의 검색을 하고, 총 다섯 번의 클릭을 한 것을 알 수 있다. 여기서, 먼저, 본 발명에 의한 체류시간 추정부는 사용자의 N번째 클릭과 (N+1)번째 클릭 사이에 존재하는 시간 차이를 이용하여 N번째 클릭된 페이지의 체류시간을 추정할 수 있다. 따라서, 첫 번째 클릭 시각(23시 22분 23초)과 두 번째 클릭 시각(23시 22분 32초) 사이의 시간 차이인 9초가 바로 첫 번째 클릭한 웹 페이지의 체류시간으로 추정할 수 있는 것이다. An example of estimating the dwell time by the dwell time estimator 120 is illustrated in FIG. 2. As shown, when looking at the two page ID and five click time during the search time by the same session ID, it can be seen that one user makes two searches and five clicks in total. Here, the dwell time estimating unit according to the present invention may estimate the dwell time of the N th clicked page by using the time difference existing between the N th click and the (N + 1) th click of the user. Therefore, 9 seconds, the time difference between the first click time (23:22:23 seconds) and the second click time (23:22:32 seconds), can be estimated as the residence time of the first clicked web page. .

또한, 체류시간 추정부는 사용자의 세션 아이디를 이용하면 동일한 세션 아 이디 동안 클릭시각과 검색시각과의 시간 차이를 이용하여 체류시간을 추정할 수 있다. 따라서, 두 번째 클릭이 발생한 시각과 세 번째 클릭이 발생한 시각의 시간 차이는 15초이지만, 페이지 아이디를 통해 사용자가 23시 22분 37초에 새로운 질의어 입력에 의해 검색할 한 것을 알 수 있기 때문에 두 번째 클릭한 페이지의 체류시간은 15초가 아닌 두 번째 검색시각(23시 22분 37초)과 두 번째 클릭시각(23시 22분 32초)의 시간차이인 5초로 추정할 수 있는 것이다.In addition, the dwell time estimator may estimate the dwell time by using the time difference between the click time and the search time during the same session ID. Therefore, the time difference between the time of the second click and the time of the third click is 15 seconds, but the page ID shows that the user searched by new query input at 23:22:37. The residence time of the first clicked page can be estimated as 5 seconds, which is the time difference between the second search time (23:22:37 seconds) and the second click time (23:22:32 seconds).

한편, 마지막 클릭에 대해서는 이후 검색 또는 클릭 정보가 없기 때문에 체류시간을 추정할 수 없으므로, 아예 제외시키거나 사용자의 체류시간의 평균값을 사용하여 조정해 줄 수 있다.On the other hand, since there is no search or click information for the last click, the dwell time cannot be estimated, so it can be excluded at all or adjusted using the average value of the dwell time of the user.

다시 도 1을 참조하면, 후보군 선정부(140)는 체류시간 추정부(120)에 의해 추정된 체류시간을 이용하여 웹 페이지 중에서 검색 부적격 웹 페이지 후보군을 선정한다.Referring back to FIG. 1, the candidate group selecting unit 140 selects a search ineligible web page candidate group from the web pages using the residence time estimated by the residence time estimating unit 120.

일 실시예에 있어서, 후보군 선정부(140)는 체류시간을 추정할 수 있는 유효 클릭수가 기준 횟수 이상인 웹 페이지 및 체류시간 추정부(120)에 의해 추정된 체류시간의 평균이 기준 시간 이하인 웹 페이지 중 적어도 하나를 검색 부적격 웹 페이지 후보군으로 선정할 수 있다. 바람직한 실시예에 있어서, 후보군 선정부(140)는 체류시간을 추정할 수 있는 유효 클릭수가 기준 횟수 이상이며, 체류시간의 평균이 기준 시간 이하인 웹 페이지를 검색 부적격 웹 페이지 후보군으로 선정할 수 있다. 여기서, 유효 클릭수란 해당 페이지의 총 클릭수를 의미하는 것이 아니라, 체류시간을 추정할 수 있는 클릭수를 의미한다.In an embodiment, the candidate group selecting unit 140 may include a web page having a valid number of clicks for estimating a dwell time or more and a web page having an average of dwell time estimated by the dwell time estimator 120. At least one may be selected as a search ineligible web page candidate group. In a preferred embodiment, the candidate group selecting unit 140 may select a web page for which the effective click number for estimating the dwell time is greater than or equal to the reference number and the average of the dwell time is less than or equal to the reference time as the ineligible web page candidate group. Here, the effective number of clicks does not mean the total number of clicks on the page, but the number of clicks that can estimate the residence time.

다시 말해, 본 발명의 일 실시예에 따른 후보군 선정부는 검색 부적격 웹 페이지 모두를 재방문하는 것은 현실적으로 불가능하기 때문에 체류시간을 이용하여 검색 부적격 웹 페이지의 후보군을 미리 선정하는 것이다.In other words, the candidate group selecting unit according to an embodiment of the present invention selects the candidate group of the search ineligible web page in advance by using the residence time because it is practically impossible to revisit all of the search ineligible web pages.

후보군 선정부에 의해 검색 부적격 웹 페이지 후보군으로 선정된 예가 도 3에 도시되어 있다. 만일, 유효 클릭수가 2회 이상, 평균 체류시간이 10초 이하라고 한다면, 도시된 URL에 해당하는 웹 페이지는 검색 부적격 웹 페이지 후보군에 속할 수 있다.An example in which the candidate group selection group is selected as a search ineligible web page candidate group is shown in FIG. 3. If the number of valid clicks is 2 or more and the average residence time is 10 seconds or less, the web page corresponding to the illustrated URL may belong to the search ineligible web page candidate group.

따라서, 본 발명의 일 실시예에 따른 후보군 선정부는 유효 클릭수의 기준 횟수와 평균 체류시간의 기준 시간을 조정하여 후보군의 크기를 더 크게 하거나 작게하는 것이 가능하다.Therefore, the candidate group selecting unit according to an embodiment of the present invention may increase or decrease the size of the candidate group by adjusting the reference number of effective clicks and the reference time of the average residence time.

다시 도 1을 참조하면, 판단부(160)는 검색 부적격 웹 페이지 후보군이 기 설정된 분류에 해당하는 검색 부적격 웹 페이지인지 여부를 판단한다. 일 실시예에 있어서, 판단부(160)는 검색 부적격 웹 페이지 후보군을 재방문하여 후보군이 검색 부적격 웹 페이지인지 여부를 판단할 수 있다.Referring back to FIG. 1, the determination unit 160 determines whether the search ineligible web page candidate group is a search ineligible web page corresponding to a preset classification. In one embodiment, the determination unit 160 may revisit the search ineligible web page candidate group to determine whether the candidate group is a search ineligible web page.

일 실시예에 있어서, 기 설정된 분류에는 접속 불능 페이지, 서비스 불능 페이지 및 스팸 페이지 중 적어도 하나를 포함할 수 있다. 다시 말해, 판단부는 검색 부적격 웹 페이지 후보군이 기 설정된 분류에 포함된 접속 불능 페이지, 서비스 불능 페이지 및 스팸 페이지 중 어느 하나에 해당하는지 여부를 판단하는 것이다.According to an embodiment, the preset classification may include at least one of an inaccessible page, an inoperable page, and a spam page. In other words, the determination unit determines whether the search ineligible web page candidate group corresponds to any one of an inaccessible page, an inoperable page, and a spam page included in the preset classification.

판단부에 의해 검색 부적격 웹 페이지 후보군이 검색 부적격 웹 페이지에 해당하는지 여부의 판단 기준의 예가 도 4에 도시되어 있다. 도시된 바와 같이, 검색 부적격 웹 페이지는 데드 페이지, 소프트데드 페이지, 스팸 페이지로 구분될 수 있으며, 각각의 검색 부적격 웹 페이지는 세부적으로 구분되어 있는 것을 알 수 있다.An example of a criterion for determining whether or not the search incompatible web page candidate group corresponds to a search incompatible web page is shown in FIG. 4 by the determination unit. As shown, a search ineligible web page may be classified into a dead page, a soft dead page, and a spam page, and each search ineligible web page is classified in detail.

일 실시예에 있어서, 접속 불능 페이지는 네트워크상의 오류 또는 웹 서버상의 오류에 의해 접속이 불가능한 페이지 중 어느 하나일 수 있다. 여기서, 이와 같은 접속 불능 페이지를 데드(dead) 페이지라 부를 수 있으며, 예를 들어, DNS 에러 또는 HTTP 에러인 500에러, 404에러, 403에러가 이에 해당할 수 있다. 판단부에 의해 데드 페이지로 판단된 웹 페이지의 예가 도 5에 도시되어 있으며, 도시된 웹 페이지는 HTTP 에러인 404에러에 의해 접속이 불가능한 데드 페이지인 것을 알 수 있다.In one embodiment, the inaccessible page may be either a page that is inaccessible due to an error on a network or an error on a web server. Here, such an inaccessible page may be called a dead page. For example, a 500 error, a 404 error, and a 403 error, which are DNS errors or HTTP errors, may correspond to this. An example of a web page determined to be a dead page by the determination unit is illustrated in FIG. 5, and the illustrated web page is a dead page that cannot be accessed due to a 404 error that is an HTTP error.

일 실시예에 있어서, 서비스 불능 페이지는 게시물의 비공개, 서비스 약관 또는 정책 위배 및 게시물의 삭제의 의해 검색 서비스 제공이 불가능한 페이지 중 어느 하나일 수 있다. 여기서, 이와 같은 서비스 불능 페이지를 소프트데드(soft dead) 페이지라 부를 수 있다. 판단부에 의해 소프트데드 페이지로 판단된 웹 페이지의 예가 도 6에 도시되어 있으며, 도시된 웹 페이지는 존재하지 않는 웹 페이지로 검색 서비스 제공이 불가능한 소프트데드 페이지인 것을 알 수 있다.In one embodiment, the non-service page may be any one of the pages that cannot be provided by the search service due to the post's non-disclosure, violation of terms of service or policy, and deletion of the post. Here, such an unserviceable page may be referred to as a soft dead page. An example of a web page determined to be a soft dead page by the determination unit is shown in FIG. 6, and it can be seen that the illustrated web page is a soft dead page in which a search service cannot be provided as a non-existent web page.

일 실시예에 있어서, 스팸 페이지는 광고성, 정보 불충분 페이지 및 상업 사이트 중 어느 하나일 수 있다. 판단부에 의해 스팸 페이지로 판단된 웹 페이지의 예가 도 7에 도시되어 있다. 도시된 웹 페이지는 광고성 페이지로 검색 결과로 제공되기에는 부적격한 스팸 페이지인 것을 알 수 있다.In one embodiment, the spam pages may be any of advertising, information insufficient pages, and commercial sites. An example of a web page determined to be a spam page by the determination unit is shown in FIG. 7. It can be seen that the illustrated web page is an spam page which is not suitable to be provided as a search result as an advertisement page.

다시 말해, 본 발명의 일 실시예에 따른 판단부(140)는 모든 웹 페이지를 재방문하여 검색 부적격 웹 페이지인지 여부를 판단하는 것이 아니라, 검색 부적격 웹 페이지 후보군에 속하는 웹 페이지를 재방문하여 실제로 데드 페이지, 소프트데드 페이지, 스팸 페이지인지 여부를 판단하는 것이다.In other words, the determination unit 140 according to an embodiment of the present invention does not re-visit all web pages to determine whether they are search ineligible web pages, but actually revisits web pages belonging to a search ineligible web page candidate group. It is to determine whether it is a dead page, soft dead page, or spam page.

다시 도 1을 참조하면, 색인 삭제부는(180)는 판단부(160)에 의해 검색 부적격 웹 페이지로 판단된 웹 페이지를 색인에서 삭제한다. 일 실시예에 있어서, 색인 삭제부(180)는 검색 부적격 웹 페이지로 판단된 웹 페이지를 해당 웹 페이지의 고유한 키 값을 이용하여 삭제할 수 있으며, 여기서, 고유한 키 값은 해당 웹 페이지의 유알엘(URL) 또는 다큐먼트 아이디(document ID)일 수 있다.Referring back to FIG. 1, the index deleting unit 180 deletes a web page determined by the determination unit 160 as an ineligible web page from the index. In one embodiment, the index deleting unit 180 may delete a web page determined to be a search ineligible web page using a unique key value of the web page, where the unique key value is a UEL of the corresponding web page. (URL) or document ID.

다시 말해, 본 발명의 일 실시예에 따른 색인 삭제부(180)는 검색 부적격 웹 페이지 후보군 중에서 판단부에 의해 실제로 검색 부적격 웹 페이지에 해당하는 것으로 판단된 웹 페이지를 색인에서 삭제함으로써 색인 업데이트를 수행할 수 있다.In other words, the index deleting unit 180 according to an embodiment of the present invention performs an index update by deleting, from the index, a web page that is actually determined to be a search ineligible web page by the determination unit among the search ineligible web page candidate groups. can do.

이하에서는 도 8을 참조하여 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법을 설명하기로 한다.Hereinafter, a method of updating a web page index according to an embodiment of the present invention will be described with reference to FIG. 8.

먼저, 검색 사용자의 웹 페이지 체류시간을 추정한다(S810). 여기서, 체류시간(dwell time)이란 검색 사용자가 해당 웹 페이지에 머문 시간을 의미한다. 또한, 본 발명에서 이러한 체류시간을 이용하는 이유는 일반적으로 체류시간이 긴 문서가 양질의 문서일 확률이 높은 반면, 체류시간이 짧을 경우 사용자들이 해당 페이지의 결과에 어느 정도 불만족을 표시했다고 볼 수 있으므로, 검색 부적격 웹 페이지 검출에 체류시간을 이용하는 것이 효과적이기 때문이다. 따라서, 본 발명은 현실적으 로 불가능한 모든 웹 페이지들의 재방문을 통한 검색 부적격 페이지 검출이 아닌, 검색 서비스 사용자들의 클릭정보와 웹 페이지 체류시간 정보를 이용하여 직간접적으로 검색 부적격 웹 페이지인지 여부를 판단할 수 있는 것이다.First, a web page residence time of a search user is estimated (S810). Here, the dwell time means a time spent by the search user on the web page. In addition, the reason for using such a dwell time in the present invention is that a document with a long dwell time generally has a high probability of being a high quality document, but when the dwell time is short, users may show that the dissatisfaction is somewhat dissatisfied with the result of the page. This is because it is effective to use the dwell time for detecting unsuitable web pages. Therefore, the present invention determines whether the search ineligible web page is directly or indirectly using the click information and the web page residence time information of the search service users, rather than the detection of the search ineligible page through the revisit of all web pages that are practically impossible. You can do it.

일 실시예에 있어서, 체류 시간을 추정하는 방법은 웹 페이지의 세션 아이디 및 페이지 아이디 중 적어도 하나를 이용하여 체류시간을 추정할 수 있다.In one embodiment, the method of estimating the dwell time may estimate the dwell time using at least one of a session ID and a page ID of the web page.

여기서, 세션 아이디(Session ID)란 한 사용자가 검색 서비스를 이용할 때 부여되는 고유의 값으로 주로 IP 주소를 기준으로 서버를 통해 발급되어 사용자를 구분하는 역할을 한다. 또한, 페이지 아이디(Page ID)란 사용자가 특정 검색어를 입력하여 검색을 할 때마다 갱신되는 값으로 사용자에게 노출되는 결과 페이지를 구분하는 역할을 한다. 따라서, 검색 사용자에 있어서 동일한 세션 아이디를 가지면 사용자가 동일한 경우에 해당하며, 페이지 아이디가 새로 생성된 경우에는 검색이 새로 시작된 것을 의미할 수 있다.Here, Session ID is a unique value given when a user uses a search service. The session ID is mainly issued through a server based on an IP address to distinguish users. In addition, the page ID is a value that is updated each time a user enters a specific search word and searches for the page ID. Therefore, if the search user has the same session ID, the user may be the same, and if the page ID is newly generated, it may mean that the search is newly started.

다른 실시예에 있어서, 체류 시간을 추정하는 방법은 동일 페이지 아이디를 가진 서로 다른 웹 페이지에 대한 클릭 시각의 시간차이를 이용하여 체류시간을 추정하며, 동일 세션 아이디를 가진 서로 다른 웹 페이지의 클릭시각과 검색시각과의 시간차이를 이용하여 체류시간을 추정한다.In another embodiment, the method of estimating the dwell time estimates the dwell time using the time difference between click times for different web pages having the same page ID, and click time of different web pages having the same session ID. Estimation of residence time using time difference between and search time.

추정 결과, 추정된 체류 시간을 이용하여 웹 페이지 중에서 검색 부적격 웹 페이지 후보군을 선정한다(S830).As a result of the estimation, a candidate group for ineligible search web pages is selected from the web pages using the estimated residence time (S830).

일 실시예에 있어서, 검색 부적격 웹 페이지 후보군을 선정하는 방법은 체류시간을 추정할 수 있는 유효 클릭수가 기준 횟수 이상인 웹 페이지 및 추정된 체류 시간의 평균이 기준 시간 이하인 웹 페이지 중 적어도 하나를 검색 부적격 웹 페이지 후보군으로 선정한다. 바람직한 실시예에 있어서, 검색 부적격 웹 페이지 후보군을 선정하는 방법은 체류시간을 추정할 수 있는 유효 클릭수가 기준 횟수 이상이며, 체류시간의 평균이 기준 시간 이하인 웹 페이지 중 적어도 하나를 검색 부적격 웹 페이지 후보군으로 선정할 수 있다. 여기서, 유효 클릭수란 해당 페이지의 총 클릭수를 의미하는 것이 아니라, 체류시간을 추정할 수 있는 클릭수를 의미한다.In one embodiment, a method for selecting a search ineligible web page candidate group may include search ineligible for at least one of a web page having an effective number of clicks for estimating a dwell time or more, and a web page having an average of an estimated dwell time or less. Web page candidates are selected. In a preferred embodiment, a method of selecting a search ineligible web page candidate group includes searching for at least one web page candidate group having at least a valid number of clicks for estimating a dwell time and having an average of dwell time or less. Can be selected. Here, the effective number of clicks does not mean the total number of clicks on the page, but the number of clicks that can estimate the residence time.

다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 검색 부적격 웹 페이지 모두를 재방문하는 것이 현실적으로 불가능하기 때문에 체류시간을 이용하여 검색 부적격 웹 페이지의 후보군을 미리 선정하고, 선정된 후보군에 속한 웹 페이지만을 재방문하는 것이다.In other words, in the web page index updating method according to an embodiment of the present invention, since it is practically impossible to revisit all of the search ineligible web pages, the candidate group of the search ineligible web pages is previously selected using the residence time, and the selected candidate group is selected. Revisit only web pages belonging to.

후보군 선정 후, 후보군이 검색 부적격 웹 페이지인지 여부를 판단한다(S850). 이 때, 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 방법은 검색 부적격 웹 페이지 후보군을 재방문하여 후보군이 검색 부적격 웹 페이지인지 여부를 판단할 수 있다.After selecting the candidate group, it is determined whether the candidate group is a search ineligible web page (S850). In this case, the method of determining whether the candidate group is a search ineligible web page may revisit the search ineligible web page candidate group and determine whether the candidate group is a search ineligible web page.

일 실시예에 있어서, 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 방법은 검색 부적격 웹 페이지 후보군이 접속 불능 페이지, 서비스 불능 페이지 및 스팸 페이지 중 적어도 어느 하나에 해당하는 여부를 판단할 수 있다. 다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 검색 부적격 웹 페이지 후보군이 기 설정된 분류에 포함된 접속 불능 페이지, 서비스 불능 페이지 및 스팸 페이지 중 어느 하나에 해당하는지 여부를 판단하는 것이다.In one embodiment, the method for determining whether the candidate group is a search ineligible web page may determine whether the search ineligible web page candidate group corresponds to at least one of an inaccessible page, an inability to service page, and a spam page. In other words, the web page index update method according to an embodiment of the present invention is to determine whether the search-ineligible web page candidate group corresponds to any one of an inaccessible page, an inoperable page, and a spam page included in a preset classification. .

일 실시예에 있어서, 접속 불능 페이지는 네트워크상의 오류 또는 웹 서버상의 오류에 의해 접속이 불가능한 페이지 중 어느 하나일 수 있다. 여기서, 이와 같은 접속 불능 페이지를 데드(dead) 페이지라 부를 수 있으며, 예를 들어, DNS 에러 또는 HTTP 에러인 500에러, 404에러, 403에러가 이에 해당할 수 있다. 또한, 서비스 불능 페이지는 게시물의 비공개, 서비스 약관 또는 정책 위배 및 게시물의 삭제의 의해 검색 서비스 제공이 불가능한 페이지 중 어느 하나일 수 있다. 여기서, 이와 같은 서비스 불능 페이지를 소프트데드(soft dead) 페이지라 부를 수 있다. 그리고, 스팸 페이지는 광고성, 정보 불충분 페이지 및 상업 사이트 중 어느 하나일 수 있다. In one embodiment, the inaccessible page may be either a page that is inaccessible due to an error on a network or an error on a web server. Here, such an inaccessible page may be called a dead page. For example, a 500 error, a 404 error, and a 403 error, which are DNS errors or HTTP errors, may correspond to this. In addition, the unavailability page may be any one of pages that cannot be provided by the search service due to the posting of the posting, the violation of the terms of service or policy, and the deletion of the posting. Here, such an unserviceable page may be referred to as a soft dead page. The spam pages may be any of advertising, information insufficient pages, and commercial sites.

다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 모든 웹 페이지를 재방문하여 검색 부적격 웹 페이지인지 여부를 판단하는 것이 아니라, 검색 부적격 웹 페이지 후보군에 속하는 웹 페이지를 재방문하여 실제로 데드 페이지, 소프트데드 페이지, 스팸 페이지인지 여부를 판단하는 것이다.In other words, the web page index updating method according to an embodiment of the present invention does not revisit all web pages to determine whether they are search ineligible web pages, but actually revisits web pages belonging to a search ineligible web page candidate group. It is to determine whether it is a dead page, soft dead page, or spam page.

마지막으로, 검색 부적격 웹 페이지로 판단된 웹 페이지를 색인에서 삭제한다(S870). 일 실시예에 있어서, 검색 부적격 웹 페이지로 판단된 웹 페이지를 색인에서 삭제하는 방법은 검색 부적격 웹 페이지로 판단된 웹 페이지를 해당 웹 페이지의 고유한 키 값을 이용하여 삭제할 수 있으며, 여기서, 고유한 키 값은 해당 웹 페이지의 유알엘(URL) 또는 다큐먼트 아이디(document ID)일 수 있다.Finally, the web page determined to be a search ineligible web page is deleted from the index (S870). In one embodiment, the method for deleting a web page determined to be a search ineligible web page from an index may delete the web page determined to be a search ineligible web page using a unique key value of the web page, where unique One key value may be a URL or a document ID of a corresponding web page.

다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 검색 부적격 웹 페이지 후보군 중에서 판단부에 의해 실제로 검색 부적격 웹 페이지 에 해당하는 것으로 판단된 웹 페이지를 색인에서 삭제함으로써 색인 업데이트를 수행할 수 있다.In other words, the web page index updating method according to an embodiment of the present invention may perform an index update by deleting a web page from the index, which is actually determined to be a search ineligible web page by the determination unit among the search ineligible web page candidate groups. Can be.

한편, 상술한 웹 페이지 색인 업데이트 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.On the other hand, the above-described web page index updating method is implemented in the form of program instructions that can be executed by various computer means can be recorded in a computer-readable recording medium. In this case, the computer-readable recording medium may include program instructions, data files, data structures, and the like, alone or in combination. On the other hand, the program instructions recorded on the recording medium may be those specially designed and configured for the present invention or may be available to those skilled in the art of computer software.

컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.The computer-readable recording medium includes a magnetic recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical medium such as a CD-ROM and a DVD, a magnetic disk such as a floppy disk, A magneto-optical media, and a hardware device specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. The recording medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like.

또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

한편, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.On the other hand, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

도 1은 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 시스템의 개략적인 블럭도이다.1 is a schematic block diagram of a web page index update system according to an embodiment of the present invention.

도 2는 체류시간을 추정하는 예를 보여주는 도면이다.2 is a diagram illustrating an example of estimating residence time.

도 3은 검색 부적격 웹 페이지 후보군으로 선정된 예를 보여주는 도면이다.3 is a diagram illustrating an example of being selected as a search ineligible web page candidate group.

도 4는 검색 부적격 웹 페이지 후보군이 검색 부적격 웹 페이지에 해당하는지 여부의 판단 기준의 예를 보여주는 도면이다.4 is a diagram illustrating an example of a criterion for determining whether a search ineligible web page candidate group corresponds to a search ineligible web page.

도 5는 데드 페이지로 판단된 웹 페이지의 예를 보여주는 도면이다.5 is a diagram illustrating an example of a web page determined to be a dead page.

도 6은 소프트데드 페이지로 판단된 웹 페이지의 예를 보여주는 도면이다.6 is a diagram illustrating an example of a web page determined to be a soft dead page.

도 7은 스팸 페이지로 판단된 웹 페이지의 예를 보여주는 도면이다.7 is a diagram illustrating an example of a web page determined to be a spam page.

도 8은 본 발명에 의한 일 실시예에 따른 웹 페이지 색인 업데이트 방법을 보여주는 플로우차트이다.8 is a flowchart showing a web page index updating method according to an embodiment of the present invention.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

100 : 색인 업데이트 시스템 120 : 체류시간 추정부100: index update system 120: residence time estimation unit

122 : 제1체류시간 추정부 124 : 제2체류시간 추정부122: first residence time estimation unit 124: second residence time estimation unit

140 : 후보군 선정부 160 : 판단부140: candidate group selection unit 160: judgment unit

180 : 색인 삭제부180: delete index

Claims (27)

체류시간 추정부, 후보군 선정부 및 판단부를 포함하는 웹 페이지 색인 업데이트 시스템이 수행하는 웹 페이지 색인 업데이트 방법에 있어서,A web page index updating method performed by a web page index updating system including a residence time estimating unit, a candidate group selecting unit, and a determining unit, 상기 체류시간 추정부가 페이지 아이디를 고려하여 검색 사용자의 웹 페이지 체류시간을 추정하는 단계;Estimating, by the dwell time estimator, a web page dwell time of a search user by considering a page ID; 상기 후보군 선정부가 상기 검색 사용자의 웹 페이지에 대한 클릭 정보와 추정된 체류시간을 이용하여 상기 웹 페이지 중에서 검색 부적격 웹 페이지 후보군을 선정하는 단계; 및Selecting, by the candidate group selecting unit, a search ineligible web page candidate group from the web pages using click information on the search user's web page and the estimated residence time; And 상기 판단부가 상기 검색 부적격 웹 페이지 후보군을 재방문하여 검색 부적격 웹 페이지인지 여부를 판단하는 단계를 포함하고,Re-visiting the search ineligible web page candidate group to determine whether the determination unit is a search ineligible web page; 상기 체류시간을 추정하는 단계는,Estimating the residence time, N번째 클릭 시각과 N+1번째 클릭 시각에서의 페이지 아이디가 동일한 경우, N번째 클릭 시각과 N+1번째 클릭 시각 간의 시간차를 이용하여 N번째 클릭된 페이지의 체류시간을 추정하는 단계 또는Estimating the dwell time of the Nth clicked page using the time difference between the Nth click time and the N + 1th click time when the page IDs at the Nth click time and the N + 1th click time are the same; or N번째 클릭 시각과 N+1번째 클릭 시각에서의 페이지 아이디가 다른 경우, N 번째 클릭 시각과 새로운 검색어 입력에 의한 N+1 번째 클릭된 페이지의 검색 시각 간의 시간차를 이용하여 N번째 클릭된 페이지의 체류시간을 추정하는 단계If the page ID at the Nth click time and the N + 1th click time are different, the time difference between the Nth click time and the search time of the N + 1th clicked page by entering a new search term is used to determine the Estimating residence time 를 포함하는 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.Web page index update method comprising the. 제 1 항에 있어서, 상기 체류시간을 추정하는 단계는The method of claim 1, wherein estimating the residence time 상기 웹 페이지의 페이지 아이디(Page ID) 대신 세션 아이디(Session ID)를 이용하여 상기 체류시간을 추정하는 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.And estimating the dwell time using a session ID instead of a page ID of the web page. 제 1 항에 있어서, 상기 페이지 아이디는The method of claim 1, wherein the page ID is 검색어가 입력되어 검색될 때마다 갱신되는 값인 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.The web page index updating method, characterized in that the value is updated each time a search term is entered and searched. 삭제delete 제 1 항에 있어서, 상기 검색 부적격 웹 페이지 후보군을 선정하는 단계는The method of claim 1, wherein selecting the search ineligible web page candidate group comprises: 동일한 페이지 아이디와 관련된 페이지의 총 클릭수 중 상기 체류시간을 추정하기 위해 사용되는 클릭수인 유효 클릭수가 기준 횟수 이상이며, 상기 추정된 체류시간의 평균이 기준 시간 이하인 웹 페이지 중 적어도 하나를 상기 후보군으로 선정하는 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.The candidate group includes at least one of web pages having a valid number of clicks, which is the number of clicks used for estimating the dwell time, among the total number of clicks of a page associated with the same page ID, and the average of the estimated dwell times is less than or equal to the reference time. Web page index update method, characterized in that the selection. 삭제delete 삭제delete 제 1 항에 있어서, The method of claim 1, 상기 후보군이 검색 부적격 웹 페이지인지 여부를 판단하는 단계는Determining whether the candidate group is a search ineligible web page 상기 검색 부적격 웹 페이지 후보군을 재방문하여 상기 검색 부적격 웹 페이지 후보군이 접속 불능 페이지, 서비스 불능 페이지 및 스팸 페이지 중 어느 하나에 해당하는지 여부를 판단하고,Revisiting the search ineligible web page candidate group to determine whether the search ineligible web page candidate group corresponds to any one of an inaccessible page, an inoperable page, and a spam page; 상기 접속 불능 페이지는The inaccessible page is HTTP 에러 또는 DNS 에러에 따라 네트워크상의 오류 또는 웹 서버상의 오류에 의해 접속이 불가능한 페이지 중 어느 하나이고,The page cannot be accessed due to an error on the network or a web server due to an HTTP error or a DNS error. 상기 서비스 불능 페이지는 The out of service page is (1) 게시물의 비공개에 대한 문구, 이미지, 팝업, 리다이렉트 및 홈이동 중 적어도 하나가 표시된 페이지, (2) 서비스 약관 또는 정책 위배에 대한 접근 제한 및 불량 게시물 중 적어도 하나가 표시된 페이지, 및 (3) 게시물의 삭제에 대한 문구, 이미지, 팝업, 리다이렉트, 창닫힘, 창종료, 뒤로 이동 및 홈이동 중 적어도 하나가 표시된 페이지 중 어느 하나인 검색 서비스 제공이 불가능한 페이지 중 어느 하나이고,(1) a page displaying at least one of the text, images, pop-ups, redirects, and home movements of the post; (2) a page displaying at least one of the restricted or bad posts in violation of the Terms of Service or Policy; and (3 ) Any one of the pages where at least one of the text, image, pop-up, redirect, window closed, window exit, move backward, and move home is displayed, the page cannot be provided. 상기 스팸 페이지는The spam page is (1) 미리 설정한 길이의 짧은 글, 링크가 표시된 광고성 페이지, (2) 동영상 삭제, 낚시글이 표시된 정보 불충분 페이지, 및 (3) 광고 사이트, 성인 사이트 또는 P2P 업체와 관련된 상업 사이트 중 어느 하나인 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.(1) a short article of a preset length, an advertising page with a link, (2) a video deletion, an insufficient information page with fishing articles, and (3) a commercial site associated with an advertising site, adult site, or peer-to-peer business Web page index update method, characterized in that. 삭제delete 삭제delete 삭제delete 제 1 항에 있어서,The method of claim 1, 상기 웹 페이지 색인 업데이트 시스템은 색인 삭제부를 더 포함하고,The web page index updating system further includes an index deleting unit, 상기 색인 삭제부는, 상기 검색 부적격 웹 페이지로 판단된 웹 페이지를 색인에서 삭제하는 단계를 더 포함하는 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.The index deleting unit may further include deleting a web page determined as the search ineligible web page from the index. 제 12 항에 있어서,13. The method of claim 12, 상기 웹 페이지를 색인에서 삭제하는 단계는,Deleting the web page from the index, 상기 검색 부적격 웹 페이지로 판단된 웹 페이지를 해당 웹 페이지의 고유한 키 값인 유알엘(URL)을 이용하여 색인에서 삭제하는 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.And deleting the web page determined as the search ineligible web page from the index by using a URL that is a unique key value of the web page. 제 13 항에 있어서,The method of claim 13, 상기 웹 페이지를 색인에서 삭제하는 단계는,Deleting the web page from the index, 상기 유알엘(URL) 대신 다큐먼트 아이디(document ID)를 이용하여 색인에서 삭제하는 것을 특징으로 하는 웹 페이지 색인 업데이트 방법.Method of updating the web page index, characterized in that deleted from the index using a document ID (document ID) instead of the URL (URL). 제 1 항 내지 제3항, 제 5 항, 제 8 항 및 제 12 항 내지 제 14 항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 기록매체.15. A recording medium having recorded thereon a program for performing the method according to any one of claims 1 to 3, 5, 8 and 12 to 14. 웹 페이지 색인 업데이트 방법을 수행하는 웹 페이지 색인 업데이트 시스템에 있어서,In the web page index updating system for performing a web page index updating method, 페이지 아이디를 고려하여 검색 사용자의 웹 페이지 체류시간을 추정하는 체류시간 추정부;A dwell time estimator for estimating dwell time of a web page of a search user in consideration of a page ID; 상기 체류시간 추정부가 상기 검색 사용자의 웹 페이지에 대한 클릭 정보와 상기 추정된 체류시간을 이용하여 상기 웹 페이지 중에서 검색 부적격 웹 페이지 후보군을 선정하는 후보군 선정부; 및A candidate group selecting unit which selects a search ineligible web page candidate group from the web pages by using the click time on the web page of the search user and the estimated dwell time; And 상기 후보군 선정부가 선정한 검색 부적격 웹 페이지 후보군을 재방문하여 검색 부적격 웹 페이지인지 여부를 판단하는 판단부Determination unit for re-visiting a search ineligible web page candidate group selected by the candidate group selecting unit and determining whether the search group is a search ineligible web page. 를 포함하고,Including, 상기 체류시간 추정부는,The residence time estimation unit, N번째 클릭 시각과 N+1번째 클릭 시각에서의 페이지 아이디가 동일한 경우, N번째 클릭 시각과 N+1번째 클릭 시각 간의 시간차를 이용하여 N번째 클릭된 페이지의 체류시간을 추정하는 제1 체류시간 추정부; 및 If the page IDs at the Nth click time and the N + 1th click time are the same, the first dwell time is estimated using the time difference between the Nth click time and the N + 1th click time. Estimator; And N번째 클릭 시각과 N+1번째 클릭 시각에서의 페이지 아이디가 다른 경우, N 번째 클릭 시각과 새로운 검색어 입력에 의한 N+1 번째 클릭된 페이지의 검색 시각 간의 시간차를 이용하여 N번째 클릭된 페이지의 체류시간을 추정하는 제2 체류시간 추정부If the page ID at the Nth click time and the N + 1th click time are different, the time difference between the Nth click time and the search time of the N + 1th clicked page by entering a new search term is used to determine the Second dwell time estimator estimating dwell time 를 포함하는 것을 특징으로 하는 웹 페이지 색인 업데이트 시스템.Web page index update system, characterized in that it comprises a. 제 16 항에 있어서, 상기 체류시간 추정부는The method of claim 16, wherein the residence time estimating unit 상기 웹 페이지의 페이지 아이디(Page ID) 대신 세션 아이디(Session ID)를 이용하여 상기 체류시간을 추정하는 것을 특징으로 하는 웹 페이지 색인 업데이트 시스템.And estimating the dwell time using a session ID instead of a page ID of the web page. 제 16 항에 있어서, 상기 페이지 아이디는The method of claim 16, wherein the page ID is 검색어가 입력되어 검색될 때마다 갱신되는 값인 것을 특징으로 하는 웹 페이지 색인 업데이트 시스템.Web page index updating system, characterized in that the value is updated each time a search term is input. 삭제delete 제 16 항에 있어서, 상기 후보군 선정부는The method of claim 16, wherein the candidate group selection unit 동일한 페이지 아이디와 관련된 페이지의 총 클릭수 중 상기 체류시간을 추정하기 위해 사용되는 클릭수인 유효 클릭수가 기준 횟수 이상이며, 상기 추정된 체류시간의 평균이 기준 시간 이하인 웹 페이지 중 적어도 하나를 상기 후보군으로 선정하는 것을 특징으로 하는 웹 페이지 색인 업데이트 시스템.The candidate group includes at least one of web pages having a valid number of clicks, which is the number of clicks used for estimating the dwell time, among the total number of clicks of a page associated with the same page ID, and the average of the estimated dwell times is less than or equal to the reference time. Web page index update system, characterized in that the selection. 삭제delete 제 16 항에 있어서, 상기 판단부는The method of claim 16, wherein the determining unit 상기 검색 부적격 웹 페이지 후보군을 재방문하여 상기 검색 부적격 웹 페이지 후보군이 기 설정된 분류에 포함된 접속 불능 페이지, 서비스 불능 페이지 및 스팸 페이지 중 어느 하나에 해당하는지 여부를 판단하고,Revisiting the search ineligible web page candidate group to determine whether the search ineligible web page candidate group corresponds to any one of an inaccessible page, an inability to service page, and a spam page included in a preset classification; 상기 접속 불능 페이지는The inaccessible page is HTTP 에러 또는 DNS 에러에 따라 네트워크상의 오류 또는 웹 서버상의 오류에 의해 접속이 불가능한 페이지 중 어느 하나이고,The page cannot be accessed due to an error on the network or a web server due to an HTTP error or a DNS error. 상기 서비스 불능 페이지는 The out of service page is (1) 게시물의 비공개에 대한 문구, 이미지, 팝업, 리다이렉트 및 홈이동 중 적어도 하나가 표시된 페이지, (2) 서비스 약관 또는 정책 위배에 대한 접근 제한 및 불량 게시물 중 적어도 하나가 표시된 페이지, 및 (3) 게시물의 삭제에 대한 문구, 이미지, 팝업, 리다이렉트, 창닫힘, 창종료, 뒤로 이동 및 홈이동 중 적어도 하나가 표시된 페이지 중 어느 하나인 검색 서비스 제공이 불가능한 페이지이고,(1) a page displaying at least one of the text, images, pop-ups, redirects, and home movements of the post; (2) a page displaying at least one of the restricted or bad posts in violation of the Terms of Service or Policy; and (3 ) This page cannot be provided with a search service, which is one of pages displaying at least one of a phrase, an image, a pop-up, a redirect, a window closed, a window closed, a move backward, and a home move, 상기 스팸 페이지는The spam page is (1) 미리 설정한 길이의 짧은 글, 링크가 표시된 광고성 페이지, (2) 동영상 삭제, 낚시글이 표시된 정보 불충분 페이지, 및 (3) 광고 사이트, 성인 사이트 또는 P2P 업체와 관련된 상업 사이트 중 어느 하나인 것을 특징으로 하는 웹 페이지 색인 업데이트 시스템.(1) a short article of a preset length, an advertising page with a link, (2) a video deletion, an insufficient information page with fishing articles, and (3) a commercial site associated with an advertising site, adult site, or peer-to-peer business Web page index update system, characterized in that. 삭제delete 삭제delete 삭제delete 제 16 항에 있어서,The method of claim 16, 상기 검색 부적격 웹 페이지로 판단된 웹 페이지를 색인에서 삭제하는 색인 삭제부를 더 포함하는 것을 특징으로 하는 웹 페이지 색인 업데이트 시스템.And an index deleting unit which deletes a web page determined as the search ineligible web page from the index. 제 26 항에 있어서,The method of claim 26, 상기 색인 삭제부는,The index deleting unit, 상기 검색 부적격 웹 페이지로 판단된 웹 페이지를 해당 웹 페이지의 고유한 키 값인 유알엘(URL) 또는 다큐먼트 아이디(document ID)을 이용하여 색인에서 삭제하는 것을 특징으로 하는 웹 페이지 색인 업데이트 시스템.And deleting a web page determined as the search ineligible web page from the index by using a URL or document ID, which is a unique key value of the web page.
KR1020080082330A 2008-08-22 2008-08-22 Web page index update method and system KR101057538B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080082330A KR101057538B1 (en) 2008-08-22 2008-08-22 Web page index update method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080082330A KR101057538B1 (en) 2008-08-22 2008-08-22 Web page index update method and system

Publications (2)

Publication Number Publication Date
KR20100023515A KR20100023515A (en) 2010-03-04
KR101057538B1 true KR101057538B1 (en) 2011-08-17

Family

ID=42175748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080082330A KR101057538B1 (en) 2008-08-22 2008-08-22 Web page index update method and system

Country Status (1)

Country Link
KR (1) KR101057538B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102034067B1 (en) 2012-08-10 2019-11-08 엘지이노텍 주식회사 Light unit

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100645608B1 (en) 2004-03-25 2006-11-13 (주)첫눈 Server of providing information search service using visited uniform resource locator log, and method thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100645608B1 (en) 2004-03-25 2006-11-13 (주)첫눈 Server of providing information search service using visited uniform resource locator log, and method thereof

Also Published As

Publication number Publication date
KR20100023515A (en) 2010-03-04

Similar Documents

Publication Publication Date Title
US8108383B2 (en) Enhanced search results
JP4708436B2 (en) Reliable document identification
US7644101B2 (en) System for generating and managing context information
JP4850845B2 (en) Method, system and memory device
US7984000B2 (en) Predicting and using search engine switching behavior
US8433704B2 (en) Local item extraction
WO2009011556A1 (en) Method of providing moving picture search service and apparatus thereof
US20160162493A1 (en) System And Method For Compiling Search Results Using Information Regarding Length Of Time Users Spend Interacting With Individual Search Results
US20070282828A1 (en) Information search method using search apparatus, information search apparatus, and information search processing program
KR100856916B1 (en) Information providing method and system of extracting a personalized issue
US8001138B2 (en) Word relationship driven search
KR101057538B1 (en) Web page index update method and system
KR20080111186A (en) Method and system for providing search result
JP4606548B2 (en) Search system maintenance method and search system
KR100906618B1 (en) Method and system for user define link search
KR101048590B1 (en) A method of managing web sites registered in search engine and a system thereof
JPH11265402A (en) Data processing system and recording medium recorded with control program of the system
Katiyar et al. Applying adaptive strategies for website design improvement
CN110263262A (en) Information search method and system, device for wechat public platform
KR20040103763A (en) A method of managing web sites registered in search engine

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150722

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160725

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 9