KR100975510B1 - Method and System for Updating Web Page Index - Google Patents
Method and System for Updating Web Page Index Download PDFInfo
- Publication number
- KR100975510B1 KR100975510B1 KR1020080069498A KR20080069498A KR100975510B1 KR 100975510 B1 KR100975510 B1 KR 100975510B1 KR 1020080069498 A KR1020080069498 A KR 1020080069498A KR 20080069498 A KR20080069498 A KR 20080069498A KR 100975510 B1 KR100975510 B1 KR 100975510B1
- Authority
- KR
- South Korea
- Prior art keywords
- change
- web page
- frequency
- priority
- degree
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
웹 페이지의 변경 정도 및 변경 빈도 예측을 통한 재방문 우선순위를 결정할 수 있는 본 발명의 일 측면에 따른 웹 페이지 색인 업데이트 방법은 웹 페이지의 변경 정도 및 변경 빈도 중 적어도 하나를 예측하는 단계; 및 상기 예측된 변경 정도 및 변경 빈도 중 적어도 하나를 이용하여 상기 웹 페이지의 재방문 우선순위를 결정하는 단계를 포함한다.According to an aspect of the present invention, a method of updating a web page index according to an aspect of the present invention, which may determine a revisit priority through prediction of a change degree and a change frequency of a web page, includes: predicting at least one of a change degree and a change frequency of the web page; And determining the revisit priority of the web page using at least one of the predicted change degree and the change frequency.
색인, 업데이트, 재방문, 해밍 거리 Index, Update, Return, Hamming Distance
Description
본 발명은 색인 업데이트에 관한 것으로서 보다 상세하게는 웹 페이지 재방문을 통한 색인 업데이트 방법에 관한 것이다.The present invention relates to an index update, and more particularly, to an index update method through revisit of a web page.
인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 질의어를 포함하는 웹 페이지, 기사, 또는 해당 검색 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.Due to the development and spread of the Internet, various services using the Internet are provided, and a representative example thereof is a search service. When the user inputs a word or a combination of words to be searched for as a query, the search engine may search the document for a search result document corresponding to the input query (eg, a web page, an article, or a search query input from the user). An image having a file name including the corresponding search query).
이러한, 검색 서비스를 제공하기 위해서는 웹 페이지에 대한 색인을 구축하고 있어야 한다. 그러나, 인터넷 상에는 수 많은 웹 페이지들이 생성과 변화를 반복하고 있으며, 이에 따라 웹 페이지를 대상으로 검색 서비스를 제공하는 입장에서는 수집(Crawl)의 문제가 매우 중요시되었다. 과거에는 새로 생성되는 웹 페이지들을 얼마나 많이 수집하느냐가 웹 로봇의 성능을 좌우하였다면, 근래에는 얼마나 양 질의 웹 페이지를 수집하느냐가 중요시되고 있다. 이 때, 양질의 웹 페이지를 수집하기 위해서는 새로 생성되는 웹 페이지들을 빠르게 수집하는 것도 중요하지만, 기존에 수집한 웹 페이지들이 변한 경우 기존 색인을 업데이트 시켜야 하는 문제점이 있다. 다시 말해, 기존의 색인을 업데이트 해주지 않으면 일정 기간이 지난 과거에 존재했던 웹 페이지에 대한 색인은 과거 데이터가 되므로, 내용이 변해버린 웹 페이지에 대한 색인을 반영할 수 없어 사용자에게 정확한 검색 결과를 제공하지 못하는 문제점이 있는 것이다.In order to provide such a search service, an index for a web page must be established. However, numerous web pages are repeatedly created and changed on the Internet. Therefore, the problem of collection is very important from the standpoint of providing a search service for web pages. In the past, how much collection of newly created web pages influenced the performance of web robots, and recently, how much quality web pages are collected is important. In this case, it is important to collect newly generated web pages quickly in order to collect high quality web pages, but there is a problem that the existing index needs to be updated when the collected web pages change. In other words, if you don't update the existing index, the index of web pages that existed in the past for a certain period of time becomes historical data, so it can't reflect the index of the changed web pages, providing accurate search results to users. There is a problem that can not be.
한편, 변경 빈도가 너무 높을 경우 색인을 업데이트하는 동안에 이미 웹 페이지가 다른 내용으로 변경되어 색인 업데이트의 효과가 없어지며, 특정 웹 페이지의 경우 시간에 따라 자주 변경되지만 바뀐 부분이 웹 페이지의 중요한 부분이 아닐 경우 색인이 업데이트되더라도 검색 서비스에 미치는 영향이 거의 없는 문제점이 있다.On the other hand, if the change frequency is too high, the web page will already be changed to other content during the index update, and the index update will not be effective. For certain web pages, it will change frequently over time. If not, even if the index is updated, there is little problem to the search service.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 기존의 웹 페이지 재방문을 통해 색인을 업데이트 할 수 있는 색인 업데이트 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problems, and it is an object of the present invention to provide an index updating method and system capable of updating an index through revisit of an existing web page.
또한, 본 발명은 변경 정도 및 변경 빈도 예측을 통해 결정된 우선순위에 따라 색인을 업데이트할 수 있는 색인 업데이트 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다. Another object of the present invention is to provide an index update method and system capable of updating an index according to a priority determined through a change degree and a change frequency prediction.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 웹 페이지 색인 업데이트 방법은 웹 페이지의 변경 정도 및 변경 빈도 중 적어도 하나를 예측하는 단계; 및 상기 예측된 변경 정도 및 변경 빈도 중 적어도 하나를 이용하여 상기 웹 페이지의 재방문 우선순위를 결정하는 단계를 포함한다.Web page index update method according to an aspect of the present invention for achieving the above object comprises the steps of predicting at least one of the degree and frequency of change of the web page; And determining the revisit priority of the web page using at least one of the predicted change degree and the change frequency.
일 실시예에 있어서, 상기 변경 정도 및 변경 빈도는 상기 웹 페이지의 변경 이력과 관련된 정보를 포함하는 동적 피쳐(dynamic feature) 또는 상기 웹 페이지로부터 추출되는 정보를 포함하는 정적 피쳐(static feature) 중 적어도 하나를 이용하여 예측되는 것을 특징한다. 이때, 상기 정적 피쳐는 상기 웹 페이지의 본문의 길이 및 앵커 텍스트의 개수에 관한 정보 중 적어도 하나를 포함하며, 상기 동적 피쳐는 상기 웹 페이지의 해쉬값에 대한 해밍 거리(Hamming Distance)를 이용한 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.In one embodiment, the degree of change and the frequency of change is at least one of a dynamic feature including information related to the change history of the web page or a static feature including information extracted from the web page. It is characterized by being predicted using one. In this case, the static feature includes at least one of information on the length of the body of the web page and the number of anchor text, the dynamic feature of the information using a Hamming Distance (hamming distance) for the hash value of the web page It characterized in that it comprises at least one.
다른 실시예에 있어서, 상기 변경 정도 및 변경 빈도는 상기 웹 페이지로부터 추출된 청크를 이용하여 예측되는 것을 특징으로 한다. 한편, 상기 변경 정도 및 변경 빈도는 로지스틱 회귀 모형(Logistic Regression)을 이용하여 예측되는 것을 특징으로 한다.In another embodiment, the change degree and the change frequency are predicted using the chunk extracted from the web page. On the other hand, the degree of change and the frequency of change is characterized by being predicted using a logistic regression (Logistic Regression).
일 실시예에 있어서, 상기 변경 정도 및 변경 빈도를 예측하는 단계는 상기 웹 페이지의 변경 이력을 구축하는 단계; 및 상기 변경 이력 및 로지스틱 회귀 모형을 이용하여 상기 변경 정도 및 변경 빈도를 예측하는 단계를 포함하는 것을 특징으로 한다.In one embodiment, predicting the degree of change and the frequency of change comprises: building a change history of the web page; And predicting the degree of change and the frequency of change using the change history and the logistic regression model.
이 때, 상기 변경 이력은 상기 웹 페이지로부터 추출된 이미지 URL, 앵커 텍스트(Anchor Text) 및 본문(Body Text)에 관한 정보 중 적어도 하나를 이용하여 산출된 해쉬값을 이용하여 구축되는 것을 특징으로 한다.In this case, the change history is constructed using a hash value calculated using at least one of information about an image URL, anchor text, and body text extracted from the web page. .
상기 변경 이력을 구축하는 단계는 상기 웹 페이지의 해쉬값을 이용하여 해밍 거리를 산출하는 단계; 및 상기 해밍 거리의 평균, 표준편차, 가중평균 및 상기 해밍 거리가 0인 비율 중 적어도 하나를 생성하는 단계를 포함하는 것을 특징으로 한다. 한편, 상기 변경 이력은 상기 웹 페이지의 심해쉬(SIMHASH)값을 이용하여 구축되는 것을 특징으로 한다.The building of the change history may include calculating a hamming distance using a hash value of the web page; And generating at least one of an average of the Hamming distance, a standard deviation, a weighted average, and a ratio of the Hamming distance of zero. On the other hand, the change history is characterized by being built using the deep hash (SIMHASH) value of the web page.
일 실시예에 있어서, 상기 우선순위를 결정하는 단계는 상기 예측된 변경 빈도에 대해 정규화를 수행한 후 상기 우선 순위를 결정하는 것을 특징으로 하며, 다른 실시예에 있어서, 상기 우선순위를 결정하는 단계는 상기 웹 페이지를 마지막으로 방문한 시점부터의 경과 시간을 이용하여 상기 우선순위를 결정하는 것을 특징 으로 한다.In an embodiment, the determining of the priority may include determining the priority after performing normalization on the predicted change frequency, and in another embodiment, determining the priority. The priority is determined by using the elapsed time since the last visit to the web page.
한편, 상기 웹 페이지 업데이트 방법은 상기 우선순위에 따라 상기 웹 페이지를 재방문하여 상기 웹 페이지의 색인을 업데이트하는 단계를 더 포함하는 것을 특징으로 한다.The web page updating method may further include updating the index of the web page by re-visiting the web page according to the priority.
상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 웹 페이지 색인 업데이트 시스템은 웹 페이지의 변경 정도 및 변경 빈도 중 적어도 하나를 예측하는 예측부; 및 상기 예측된 변경 정도 및 변경 빈도 중 적어도 하나를 이용하여 상기 웹 페이지의 재방문 우선순위를 결정하는 우선순위 결정부를 포함한다.Web page index update system according to another aspect of the present invention for achieving the above object is a prediction unit for predicting at least one of the degree and frequency of change of the web page; And a priority determiner configured to determine revisiting priority of the web page using at least one of the predicted change degree and the change frequency.
상술한 바와 같이 본 발명에 따르면, 기존이 웹 페이지를 재방문하여 색인을 업데이트함으로써 사용자에게 변화되는 웹 페이지에 대한 검색 결과도 신속하게 제공할 수 있다는 효과가 있다.As described above, according to the present invention, by re-visiting the existing web page and updating the index, it is possible to quickly provide the user with a search result for the changed web page.
또한, 본 발명에 따르면, 웹 페이지의 변경 정도 및 변경 빈도를 예측하여 결정된 재방문 우선순위에 따라 웹 페이지를 재방문하여 색인을 업데이트함으로써 사용자에게 양질의 검색 서비스를 제공할 수 있다는 효과가 있다.In addition, according to the present invention, it is possible to provide a high-quality search service to the user by updating the index by re-visiting the web page according to the revisit priority determined by predicting the degree and frequency of change of the web page.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 시스템의 개략적인 블럭도이다. 도시된 바와 같이, 색인 업데이트 시스템(100)은 예측부(120), 우선 순위 결정부(140) 및 색인 업데이트부(160)를 포함한다.1 is a schematic block diagram of a web page index update system according to an embodiment of the present invention. As shown, the
예측부(100)는 웹 페이지의 변경 정도 및 변경 빈도 중 적어도 하나를 예측하는 것으로서, 변경 이력 구축부(122) 및 회귀 모형 예측부(124)를 포함한다.The
본 발명의 일 실시예에 따른 색인 업데이트 시스템은 웹 페이지의 과거 방문 이력을 기반으로 웹 페이지의 변경 정도 및 변경 빈도가 미래에 어떻게 변할지를 예측하는 것으로, 기본적으로 해당 웹 페이지를 1회 이상 방문한 상태로 가정한다. 여기서, 변경 정도 예측이란 웹 페이지가 얼마나 많이 변할지를 예측하는 것을 의미하며, 변경 빈도 예측이란 웹 페이지가 얼마나 자주 변할지를 예측하는 것을 의미한다.The index update system according to an embodiment of the present invention predicts how the change and frequency of change of the web page will change in the future based on the past visit history of the web page, and basically visits the web page more than once. Assume that Here, the prediction of change degree refers to predicting how much the web page changes, and the prediction of change frequency refers to predicting how often the web page changes.
일 실시예에 있어서, 예측부(120)는 변경 정도 및 변경 빈도를 웹 페이지의 변경 이력과 관련된 정보를 포함하는 동적 피쳐(dynamic feature) 또는 웹 페이지로부터 추출되는 정보를 포함하는 정적 피쳐(static feature) 중 적어도 하나를 이용하여 예측할 수 있다. 이 때, 동적 피쳐는 웹 페이지의 해쉬값에 대한 해밍 거리(Hamming Distance)를 이용한 정보 중 적어도 하나를 포함할 수 있으며, 정적 피쳐는 웹 페이지 본문의 길이 및 앵커 텍스트의 개수에 관한 정보 중 적어도 하나를 포함할 수 있다. In one embodiment, the
여기서, 해밍 거리는 같은 길이를 가진 두 개의 문자열에서 같은 위치에 있지만 서로 다른 문자의 개수이다. 따라서, 과거 웹 페이지와 현재 웹 페이지의 해쉬값에 대한 해밍 거리가 크다는 것은 두 개의 해쉬값의 차이가 많이 나는 것을 의미하며, 즉, 과거 웹 페이지와 현재 웹 페이지가 차이가 많이 나는 것을 의미할 수 있다.Here, the Hamming distance is the number of different characters at the same position in two strings of the same length. Therefore, a large hamming distance between the hash value of the past web page and the present web page may mean that the difference between the two hash values is large, that is, the difference between the past web page and the current web page may be large. have.
예측부(120)에서 이용하는 동적 피쳐 및 정적 피쳐의 예가 도 2에 도시되어 있다. 도시된 각각의 피쳐들은 해당하는 정보에 대한 값을 가지고 있으며, 2번 내지 7번, 16번 및 17번 피쳐와 같이 "C"로 시작하는 피쳐는 실수값을 가질 수 있으며, 1번 및 8번 내지 15번 피쳐와 같이"D"로 시작하는 피쳐는 0 또는 1 값을 가질 수 있다. 또한, 정적 피쳐들의 값은 새로운 값이 생성될 때마다 기존의 값에 업데이트 되지만, 동적 피쳐들의 값은 기존의 값들과 함께 저장이 되어 관리될 수 있다.Examples of dynamic and static features used in the
도시된 바와 같이, 정적(Static) 피쳐는 "DParserType"과 같이 파서의 종류, "CBodyLength"와 같이 본문의 길이, "CAnchorCount"와 같이 앵커 텍스트의 개수, "CImageCount"와 같이 이미지의 개수, "CPageRank"와 같이 페이지 순위(PageRank), "CUrlDepth"와 같이 URL의 슬래쉬 개수, "CUrlLength"와 같이 URL의 길이, 8번 내지 3번 피쳐와 같이 도메인 타입, "DHasParameter"와 같이 URL 파라미터 유무, "DIsRootPage"와 같이 "/"끝나는 URL인지 여부에 관한 정보를 포함할 수 있으며, 도시된 정보들 외에도 웹 페이지로부터 추출할 수 있는 다른 정보들도 정적 피쳐에 포함될 수 있다.As shown, the static feature is the type of parser like "DParserType", the length of the body like "CBodyLength", the number of anchor text like "CAnchorCount", the number of images like "CImageCount", the "CPageRank" Page rank (PageRank) as shown, number of slashes in URL as shown as "CUrlDepth", length of the URL as shown as "CUrlLength", domain type as shown in
또한, 도시된 바와 같이, 동적(Dynamic) 피쳐는 "CHDAverage"와 같이 해밍 거리(Hamming Distance)의 평균, "CHDDeviation"과 같이 해밍 거리의 표준 편차, "HDWeightedAverage"와 같이 해밍 거리의 가중 평균, "UnChangedRate"와 같이 전체 방문수에 대한 해밍 거리가 0인 비율 즉, 웹 페이지가 변하지 않는 비율과 같은 정 보를 포함할 수 있으며, 동적 피쳐에는 도시된 정보들에 한정되지 않고 다른 정보들도 포함될 수 있다.Also, as shown, the dynamic feature is the mean of Hamming Distance, such as "CHDAverage", the standard deviation of Hamming Distance, such as "CHDDeviation", the weighted average of Hamming Distance, such as "HDWeightedAverage", " UnChangedRate "may include information such as the ratio of the hamming distance to the total number of visits to zero, that is, the rate at which the web page does not change. The dynamic feature may include other information, not limited to the illustrated information.
다른 실시예에 있어서, 예측부(120)는 웹 페이지로부터 추출된 청크를 이용하여 변경 정도 및 변경 빈도를 예측할 수 있다. 먼저, 청크에 대해 살펴보기로 한다. 웹 페이지를 수집(Crawl)하기 위해서는 해당 웹 페이지의 내용을 얻기 위해 HTML 파서와 같은 파서(Parser)를 통과하고 나면, 해당 웹 페이지에 포함된 다양한 정보를 얻을 수 있다. 이 때, 해당 웹 페이지의 본문에서 청크를 추출할 수 있으며, 여기서, 청크라 함은 본문을 적어도 하나의 덩어리로 나눌 때 각 덩어리를 지칭하는 것을 의미한다.In another embodiment, the
한편, 예측부(120)는 상술한 청크를 이용한 슁글(Shingle) 방법을 이용하여 변경 정도 및 변경 빈도를 예측할 수 있다. 여기서, 슁글이란 문서에서 나타나는 연속된 청크의 집합을 의미한다. Meanwhile, the
예를 들어, "a rose is a rose is a rose"라는 문자열은 "a, rose, is, a, rose, is, a, rose"와 같이 구분될 수 있다. 여기서, 슁글이 4 단어의 청크로 이루어진다고 가정하면, 주어진 문자열은"(a, roes, is, a), (rose, is, a, rose), (is, a, rose, is), (a, rose, is, a), (rose, is, a, rose)"와 같은 슁글들로 이루어지며, 중복된 슁글을 제거하면, "(a, roes, is, a), (rose, is, a, rose), (is, a, rose, is)"와 같은 슁글들이 최종 결과물인 슁글이 될 것이다. For example, the string "a rose is a rose is a rose" may be divided into "a, rose, is, a, rose, is, a, rose". Here, assuming that a shingle consists of four words in chunks, the given string is "(a, roes, is, a), (rose, is, a, rose), (is, a, rose, is), (a , rose, is, a), (rose, is, a, rose) ", and if you remove duplicates," (a, roes, is, a), (rose, is, a The words "rose," (is, a, rose, is) "will be the final result.
이 때, 두 개의 문서가 있다고 가정하면, 두 문서의 유사도는 두 문서의 중복된 슁글을 제거한 전체 슁글수에 대한 동일한 슁글수의 비율로 계산될 수 있다. 예를 들어, 각 문서가 10개의 슁글을 가지고 있으며, 같은 슁글이 5개라고 가정하면, 두 문서의 유사도는 "5/15"와 같이 계산될 수 있다.In this case, assuming that there are two documents, the similarity of the two documents may be calculated as the ratio of the same number of articles to the total number of articles in which the duplicate articles of the two documents are removed. For example, assuming that each document has 10 articles and the same article has 5 articles, the similarity of the two documents may be calculated as "5/15".
따라서, 본 발명의 일 실시예에 따른 예측부는 과거 웹 페이지와 현재 웹 페이지에서 예를 들어, 소정 단어씩 연속으로 청크를 추출하여, 추출된 청크를 이용하여 전체 슁글수에 대한 동일한 슁글의 비율을 계산함으로써 웹 페이지의 변경 빈도 및 변경 정도를 예측할 수 있는 것이다.Therefore, the prediction unit according to an embodiment of the present invention extracts chunks from the past web page and the current web page, for example, by a predetermined word consecutively, and uses the extracted chunks to determine the ratio of the same words to the total number of words. By calculating, you can predict the frequency and degree of change in the web page.
일 실시예에 있어서, 예측부(120)는 변경 정도 및 변경 빈도를 로지스틱 회귀 모형(Logistic Regression)을 이용하여 예측할 수 있다. 여기서, 로지스틱 회귀 모형은 통계학에서 보통 어떤 사건이 발생활 확률을 예측하기 위해 사용되는 모형으로서 여러 가지 피쳐들을 입력 받아 사건이 발생활 확률값을 예측한다. 본 발명의 일 실시예에 따른 예측부(120)는 로지스틱 회귀 모형을 이용하여 상술한 동적 피쳐, 정적 피쳐 및 청크를 이용한 정보를 입력 값으로 하여, 특정 웹 페이지가 얼마나 자주 변할지와 관련된 변경 빈도와 얼마나 많이 변할지와 관련된 변경 정도를 예측할 수 있다. 예를 들어, 예측부(120)는 도 2에 도시된 18개의 피쳐들을 입력 값으로 하여 변경 정도 및 변경 빈도를 예측할 수 있다.In one embodiment, the
다시 도 1을 참조하면, 변경 이력 구축부(122)는 웹 페이지의 변경 이력을 구축하는 것으로서, 도 3에 도시된 바와 같이, 추출부(1220), 해쉬 연산부(1222), 해밍 거리 산출부(1224) 및 변경 이력 생성부(1226)을 포함한다. 여기서, 변경 이력이라 함은 해당 웹 페이지의 과거 웹 페이지에서부터 현재 웹 페이지로의 변경의 과정을 의미한다. Referring back to FIG. 1, the
추출부(1220)는 웹 페이지로부터 이미지 URL, 앵커 텍스트(Anchor Text) 및 본문(Body Text)에 관한 정보 중 적어도 하나를 추출한다. 예를 들어, 추출부는 웹 로봇을 이용하여 웹 페이지를 크롤한 후, 크롤한 문서를 HTML 파서를 거쳐 이미지 URL, 앵커 텍스트, 본문 등의 정보를 추출할 수 있다. 여기서, 앵커 텍스트라 함은 웹 상에서 밑줄이 그어진 단어나 문구로 나타나며, 앵커 텍스트를 클릭하게 되면 다른 화면이나 페이지로 링크되어 이동하게 되는 텍스트를 의미한다.The
해쉬 연산부(1222)는 추출부(1220)로부터 추출된 이미지 URL, 앵커 텍스트 및 본문에 관한 정보 중 적어도 하나를 이용하여 해쉬값을 산출한다. 본 발명의 일 실시예에 있어서, 해쉬값은 심해쉬(SIMHASH)값일 수 있으며, 이는 본 발명의 일 실시예에 불과하며 다른 해쉬값이 이용될 수도 있다. The
여기서, 심해쉬(SIMHASH)값이란 논문"Moses S. Charikar, Similarity estimation techniques from rounding algorithms, 2002"에 소개된 알고리즘을 이용하는 해쉬함수의 함수 값으로, 해당 웹 페이지의 지문(fingerprint) 역할을 한다. 또한, 심해쉬값은 8바이트, 즉 64비트로 이루어진 16진수 값으로서 해당 웹 페이지의 내용을 압축한 값이라 볼 수 있다.Here, the SIMHASH value is a function value of the hash function using the algorithm introduced in the paper "Moses S. Charikar, Similarity estimation techniques from rounding algorithms, 2002", and serves as a fingerprint of the web page. In addition, the deep hash value is a hexadecimal value composed of 8 bytes, that is, 64 bits, and can be regarded as a value obtained by compressing the contents of the web page.
해밍 거리 산출부(1224)는 해쉬 연산부(1222)에 의해 산출된 웹 페이지의 해쉬값을 이용하여 해밍 거리를 산출한다. 여기서, 해밍 거리라 함은 두 개의 비트열에서 서로 다른 비트의 개수를 의미한다. 이는 웹 페이지의 지문 역할을 하는 과거 및 현재 심해쉬값의 비교를 통한 해밍 거리를 이용하여 해당 웹 페이지가 얼마나 변경 했는지를 판단하기 위해서이다. The
예를 들어, A라는 웹 페이지가 있을 때, 한달 전에 크롤한 웹 페이지의 심해쉬값이 "1083c8b0e2e33dd8"이었고, 그로부터 한달 후 크롤한 웹 페이지의 심해쉬값이 여전히 "1083c8b0e2e33dd8"이라면, 웹 페이지A는 한달 동안 아무런 변경도 일어나지 않은 것이다. 반면에 한달 후에 확인한 심해쉬값이 "1083c8b1f2e335d0"과 같다면 이는 한달 사이에 해당 웹 페이지가 어떠한 변화가 일어났다는 것을 의미할 수 있다.For example, if you have a web page named A, the web page crawled a month ago was "1083c8b0e2e33dd8", and a month later, the web page crawled was still "1083c8b0e2e33dd8". No change has occurred. On the other hand, if the deep hash value checked after one month is equal to "1083c8b1f2e335d0", this may mean that the web page has changed in a month.
해밍 거리 산출부(1224)에 의해 심해쉬값을 이용하여 해밍 거리가 산출되는 예가 도 4에 도시되어 있다. 도시된 바와 같이, 심해쉬1의 값과 심해쉬2의 값이 3개의 비트가 차이가 나므로, 해밍 거리가 "3"이 산출되는 것을 알 수 있다. 이 때, 심해쉬값이 64비트로 이루어져 있으므로, 해밍 거리는 "0"에서 "64"까지의 정수를 갖게 되며, 해밍 거리가 클수록 두 개의 심해쉬값이 차이가 많이 나는 것을 의미하고, 이는 곧 웹 페이지간에 차이가 많이 나는 것을 의미한다.An example in which the hamming distance is calculated by using the deep hash value by the
다시 도 3을 참조하면, 변경 이력 생성부(1226)는 해밍 거리 산출부(1224)에 의해 산출된 해밍 거리의 평균, 표준편차, 가중 평균 및 해밍 거리가 0인 비율 중 적어도 하나를 생성한다. 여기서, 해밍 거리의 평균 및 표준편차는 일반적으로 사용되는 평균 및 표준편차 계산 방법을 이용하여 생성할 수 있다. Referring back to FIG. 3, the
한편, 해밍 거리의 가중 평균은 과거에 해당 웹 페이지를 방문했던 시점으로부터 현재 방문 시점까지의 시간을 이용해서 경과 시간을 구한 후, 해밍 거리를 경과 시간으로 나누어 정규화한 평균값을 의미한다. 따라서, 해밍 거리가 같더라도 경과 시간이 짧은 경우 해밍 거리의 가중 평균은 더 높은 값을 가질 수 있다. On the other hand, the weighted average of the hamming distance means the average value normalized by dividing the hamming distance by the elapsed time after obtaining the elapsed time using the time from the time of visiting the web page to the current visit in the past. Therefore, even if the Hamming distance is the same, if the elapsed time is short, the weighted average of the Hamming distance may have a higher value.
또한, 해밍 거리가 0인 비율은 해당 웹 페이지의 총 방문 횟수에 대한 해밍 거리가 0인 횟수의 비율로 구할 수 있다. 다시 말해, 해밍 거리가 0이라 함은 웹 페이지가 변하지 않은 것을 의미하므로, 해밍 거리가 0인 비율은 웹 페이지가 변하지 않은 횟수를 총 방문 횟수로 나누어 구할 수 있는 것이다.In addition, the rate of zero hamming distance may be obtained as a ratio of the number of times the hamming distance is zero to the total number of visits of the web page. In other words, since the hamming distance of 0 means that the web page has not changed, the ratio of the hamming distance of 0 can be obtained by dividing the number of times that the web page has not changed by the total number of visits.
한편, 본 발명의 일 실시예에 따른 변경 이력 생성부(1226)는 해당 웹 페이지에 대해 현 시점으로부터 과거 N번까지의 방문 이력을 유지, 관리함으로써, 해당 웹 페이지의 변경 이력으로서 해밍 거리의 평균, 표준편차, 가중 평균 및 해밍 거리가 0인 비율 등을 생성할 수 있다.Meanwhile, the
다시 도 1을 참조하면, 회귀 모형 예측부(124)는 로지스틱 회귀 모형 및 변경 이력 구축부(122)에 의해 구축된 변경 이력을 이용하여 변경 정도 및 변경 빈도를 예측한다. 이러한, 로지스틱 회귀 모형은 해당 웹 페이지의 변경 정도 및 변경 빈도를 목적값으로 하여, 샘플링된 데이터를 이용하여 가장 좋은 성능을 보이는 회귀 계수(regression coefficient)를 구하는 것으로서, 이를 수학식으로 표현하면 다음과 같다.Referring back to FIG. 1, the regression
여기서, 는 로지스틱 회귀 모형의 입력값으로, 도 2에 도시된 18개의 피쳐 값이 입력값이 될 수 있으며, 동적 피쳐로 해밍 거리의 평균, 표준편차, 가중 평균 및 해밍 거리가 0인 비율 등의 정보 등도 입력 값이 될 수 있다. 또한, 는 회귀 계수로서 회귀 모형 예측부(124)에 의해 가장 좋은 성능을 보이는 회귀 계수가 산출된다.here, Is an input value of the logistic regression model, and the 18 feature values shown in FIG. Can be an input value. Also, Is a regression coefficient, and a regression coefficient having the best performance is calculated by the
회귀 모형 예측부(124)에 의해 변경 빈도가 예측되는 예가 도 5에 도시되어 있다. 여기서, 웹 페이지의 변경 빈도는 해당 웹 페이지가 얼마나 자주 변하는 웹 페이지인가를 나타낸다. 도 5의 (a)는 선별된 샘플 데이터에 대해 일정기간 동안 변화한 웹 페이지가 실제로 변화한 횟수를 이용하여 변경 빈도를 구한 후 이에 대한 분포도를 나타낸다. 이 때, X축의 값이 "1.0"이라 함은 해당 웹 페이지가 일정기간 동안 매일 내용이 변했다는 것을 의미하며, X축의 값이 "0.0"이라 함은 일정기간 동안 한번도 변하지 않았음을 의미하는 것이다. 도 5의 (b)는 회귀 모형 예측부(124)에 의해 실제로 예측한 변경 빈도의 분포도를 나타낸다. 따라서, 도시된 바와 같이, 예측 모형을 통해 예측한 변경 빈도의 분포인 도 5의 (b)는 실제 값의 분포인 도 5의 (a)와 매우 흡사함을 알 수 있다.An example in which the change frequency is predicted by the
회귀 모형 예측부(124)에 의해 변경 정도가 예측되는 예가 도 6에 도시되어 있다. 여기서, 웹 페이지의 변경 정도는 해당 웹 페이지가 얼마나 많이 변하는 웹 페이지인가를 나타낸다. 도 6의 (a)는 선별된 샘플 데이터에 대해 일정기간 동안의 변경 정도의 분포도를 나타내는 반면, 도 6의 (b)는 회귀 모형 예측부(124)에 의해 실제로 예측한 변경 정도의 분포도를 나타낸다. 따라서, 도시된 바와 같이, 예측 모형을 통해 예측한 변경 정도의 분포도인 도 6의 (b)는 실제 값의 분포도인 도 6의 (a)와 매우 흡사함을 알 수 있다. 한편, 도 6의 (a) 및 (b)를 살펴보면 실제로 웹 페이지들이 많이 변하기는 하지만 그 변경 정도는 대부분이 작은 것을 알 수 있다. 이는 웹 페이지가 변하더라도 그 변경 정도가 미미할 경우 재방문의 효과가 거의 없으므로 많이 변경되는 웹 페이지 위주로 재방문을 해야 되는 것을 알 수 있다. 따라서, 만약 동일한 변경 빈도를 가지는 웹 페이지가 있다면, 변경 정도가 더 큰 웹 페이지를 먼저 재방문하는 것이 더 효과적이다.An example in which the degree of change is predicted by the
다시 도 1을 참조하면, 우선순위 결정부(140)는 예측부(120)에 의해 예측된 변경 정도 및 변경 빈도 중 적어도 하나를 이용하여 웹 페이지의 재방문 우선순위를 결정하는 것으로서, 제1우선순위 결정부(142) 및 제2우선순위 결정부(144)를 포함한다.Referring back to FIG. 1, the
제1우선순위 결정부(142)는 예측부(120)에 의해 예측된 변경 빈도에 대해 정규화를 수행한 후 우선순위를 결정한다. 다시 말해, 제1우선순위 결정부(142)는 변경 빈도가 높으면 높을수록 웹 페이지 재방문 우선순위가 높을 수 있으나, 변경 빈도가 너무 높은 경우에는 재방문을 하더라도 계속 웹 페이지가 변경되기 때문에 재방문의 효과가 떨어지는 것에 대한 고려를 하기 위해 예측된 변경 빈도에 대한 정규화를 수행하는 것이다.The
제1우선순위 결정부(142)가 우선순위를 결정하는 일 예를 수학식으로 표현하면 아래의 수학식 2와 같다.An example of determining the priority by the first
여기서, 수학식 2에서는 예측된 변경 빈도인 ""에 대해 정규화를 수행하기 위해 ""를 곱한 것을 알 수 있다. 한편, 수학식 2에서는 변경 빈도 정도 및 정규화한 변경 빈도를 가중합하여 우선순위를 결정하고 있으나, 본 발명은 이에 한정되지 않으며, 변경 정도 및 변경 빈도를 이용한 다양한 방법에 의해 우선순위가 결정될 수 있다.In
제2우선순위 결정부(144)는 웹 페이지를 마지막으로 방문한 시점부터의 경과 시간을 이용하여 우선순위를 결정한다. 이는 제1우선순위 결정부(142)와 같은 방식으로 우선순위를 결정하다 보면 간혹 특정 웹 페이지의 경우 낮은 우선순위로 인해 시간이 지나면서 계속적으로 재방문의 기회를 갖지 못하는 경우가 발생할 수 있다. 따라서, 이를 방지하기 위해서 제2우선순위 결정부(144)는 빈경 빈도 및 변경 정도와 함께 웹 페이지를 가장 마지막으로 방문했던 시점으로부터의 경과 시간을 이용하여 우선순위를 결정하는 것이다.The second
제2우선순위 결정부(144)가 우선순위를 결정하는 일 예를 수학식으로 표현하면 아래의 수학식 3과 같다.An example of determining the priority by the second
여기서, 수학식 3에서는 웹 페이지를 가장 마지막으로 방문했던 시점으로부터의 경과 시간인 ""을 이용하고 있는 것을 알 수 있다. 한편, 수학식 3에서는 변경 빈도 정도, 정규화한 변경 빈도 및 경과 시간을 가중합하여 우선순위를 결정하고 있으나, 본 발명은 이에 한정되지 않으며, 변경 정도, 변경 빈도 및 경과 시간을 이용한 다양한 방법에 의해 우선순위가 결정될 수 있다.In
색인 업데이트부(160)는 우선순위 결정부(140)에 의해 결정된 우선순위에 따라 웹 페이지를 재방문하여 웹 페이지의 색인을 업데이트한다. 다시 말해, 색인 업데이트부(160)는 각 웹 페이지의 재방문 우선순위 별로 해당 웹 페이지를 재방문하여 색인 업데이트 작업을 수행하는 것이다.The
이하에서는 도 7을 참조하여 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법을 설명하기로 한다.Hereinafter, a method of updating a web page index according to an embodiment of the present invention will be described with reference to FIG. 7.
먼저, 웹 페이지의 변경 정도 및 변경 빈도 중 적어도 하나를 예측한다(S710). 일 실시예에 있어서, 변경 정도 및 변경 빈도는 웹 페이지의 변경 이력과 관련된 정보를 포함하는 동적 피쳐(dynamic feature) 또는 상기 웹 페이지로부 터 추출되는 정보를 포함하는 정적 피쳐(static feature) 중 적어도 하나를 이용하여 예측될 수 있다.First, at least one of a change degree and a change frequency of a web page is predicted (S710). In one embodiment, the degree of change and the frequency of change are at least one of a dynamic feature including information related to a change history of a web page or a static feature comprising information extracted from the web page. It can be predicted using one.
여기서, 정적 피쳐는 웹 페이지의 본문의 길이 및 앵커 텍스트의 개수에 관한 정보 중 적어도 하나를 포함할 수 있으며, 동적 피쳐는 웹 페이지의 해쉬값에 대한 해밍 거리(Hamming Distance)를 이용한 정보 중 적어도 하나를 포함할 수 있다.Here, the static feature may include at least one of information regarding the length of the body of the web page and the number of anchor texts, and the dynamic feature may include at least one of information using a hamming distance with respect to a hash value of the web page. It may include.
여기서, 해밍 거리는 같은 길이를 가진 두 개의 문자열에서 같은 위치에 있지만 서로 다른 문자의 개수이다. 따라서, 과거 웹 페이지와 현재 웹 페이지의 해쉬값에 대한 해밍 거리가 크다는 것은 두 개의 해쉬값의 차이가 많이 나는 것을 의미하며, 즉, 과거 웹 페이지와 현재 웹 페이지가 차이가 많이 나는 것을 의미할 수 있다.Here, the Hamming distance is the number of different characters at the same position in two strings of the same length. Therefore, a large hamming distance between the hash value of the past web page and the present web page may mean that the difference between the two hash values is large, that is, the difference between the past web page and the current web page may be large. have.
다른 실시예에 있어서, 변경 정도 및 변경 빈도는 웹 페이지로부터 추출된 청크를 이용하여 예측될 수 있다. 먼저, 청크에 대해 살펴보기로 한다. 웹 페이지를 수집(Crawl)하기 위해서는 해당 웹 페이지의 내용을 얻기 위해 HTML 파서와 같은 파서(Parser)를 통과하고 나면, 해당 웹 페이지에 포함된 다양한 정보를 얻을 수 있다. 이 때, 해당 웹 페이지의 본문에서 청크를 추출할 수 있으며, 여기서, 청크라 함은 본문을 적어도 하나의 덩어리로 나눌 때 각 덩어리를 지칭하는 것을 의미한다.In other embodiments, the degree of change and the frequency of change may be predicted using chunks extracted from the web page. First, let's look at chunks. To crawl a web page, you can go through a parser, such as an HTML parser, to get the contents of that web page. In this case, the chunk may be extracted from the body of the web page, where chunk refers to each chunk when the body is divided into at least one chunk.
한편, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 상술한 청크를 이용한 슁글(Shingle) 방법을 이용하여 변경 정도 및 변경 빈도를 예측할 수 있다. 여기서, 슁글이란 문서에서 나타나는 연속된 청크의 집합을 의미한다. Meanwhile, in the web page index update method according to an embodiment of the present invention, the degree of change and the frequency of change may be predicted using the shingle method using the above-described chunk. Here, the phrase means a set of consecutive chunks appearing in the document.
예를 들어, "a rose is a rose is a rose"라는 문자열은 "a, rose, is, a, rose, is, a, rose"와 같이 구분될 수 있다. 여기서, 슁글이 4 단어의 청크로 이루어진다고 가정하면, 주어진 문자열은"(a, roes, is, a), (rose, is, a, rose), (is, a, rose, is), (a, rose, is, a), (rose, is, a, rose)"와 같은 슁글들로 이루어지며, 중복된 슁글을 제거하면, "(a, roes, is, a), (rose, is, a, rose), (is, a, rose, is)"와 같은 슁글들이 최종 결과물인 슁글이 될 것이다. For example, the string "a rose is a rose is a rose" may be divided into "a, rose, is, a, rose, is, a, rose". Here, assuming that a shingle consists of four words in chunks, the given string is "(a, roes, is, a), (rose, is, a, rose), (is, a, rose, is), (a , rose, is, a), (rose, is, a, rose) ", and if you remove duplicates," (a, roes, is, a), (rose, is, a The words "rose," (is, a, rose, is) "will be the final result.
이 때, 두 개의 문서가 있다고 가정하면, 두 문서의 유사도는 두 문서의 중복된 슁글을 제거한 전체 슁글수에 대한 동일한 슁글수의 비율로 계산될 수 있다. 예를 들어, 각 문서가 10개의 슁글을 가지고 있으며, 같은 슁글이 5개라고 가정하면, 두 문서의 유사도는 "5/15"와 같이 계산될 수 있다.In this case, assuming that there are two documents, the similarity of the two documents may be calculated as the ratio of the same number of articles to the total number of articles in which the duplicate articles of the two documents are removed. For example, assuming that each document has 10 articles and the same article has 5 articles, the similarity of the two documents may be calculated as "5/15".
따라서, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 과거 웹 페이지와 현재 웹 페이지에서 예를 들어, 소정 단어씩 연속으로 청크를 추출하여, 추출된 청크를 이용하여 전체 슁글수에 대한 동일한 슁글의 비율을 계산함으로써 웹 페이지의 변경 빈도 및 변경 정도를 예측할 수 있는 것이다.Therefore, the web page index updating method according to an embodiment of the present invention extracts the chunks consecutively, for example, by a predetermined word from the past web page and the current web page, and uses the extracted chunks to apply the same chunks to the total number of words. By calculating the percentage of shingles, you can predict how often and how often a web page will change.
이때, 변경 정도 및 변경 빈도는 상술한 동적 피쳐, 정적 피쳐 및 청크를 이용한 정보 중 적어도 하나를 입력값으로 하는 로지스틱 회귀 모형(Logistic Regression)을 이용하여 예측될 수 있다. 여기서, 로지스틱 회귀 모형은 통계학에서 보통 어떤 사건이 발생활 확률을 예측하기 위해 사용되는 모형으로서 여러 가지 피쳐들을 입력 받아 사건이 발생활 확률값을 예측한다. 본 발명의 일 실시예에 따 른 웹 페이지 색인 업데이트 방법은 로지스틱 회귀 모형을 이용하여 상술한 동적 피쳐, 정적 피쳐 및 청크를 이용한 정보를 입력 값으로 하여, 특정 웹 페이지가 얼마나 자주 변할지와 관련된 변경 빈도와 얼마나 많이 변할지와 관련된 변경 정도를 예측할 수 있다.In this case, the degree of change and the frequency of change may be predicted using a logistic regression model using at least one of the above-described information using the dynamic feature, the static feature, and the chunk. Here, the logistic regression model is a model that is usually used to predict the probability of occurrence of an event in statistics and predicts the probability of occurrence of an event by receiving various features. The web page index updating method according to an embodiment of the present invention uses a logistic regression model to input information using the above-described dynamic feature, static feature, and chunk as input values, and a change frequency related to how often a particular web page changes. You can estimate the degree of change associated with and how much changes will occur.
여기서, 변경 정도 및 변경 빈도를 예측하는 방법에 관해 구체적으로 살펴보면, 웹 페이지의 변경 이력을 구축하고, 변경 이력 및 로지스틱 회귀 모형을 이용하여 변경 정도 및 변경 빈도를 예측한다. 여기서, 변경 이력이라 함은 해당 웹 페이지의 과거 웹 페이지에서부터 현재 웹 페이지로의 변경 과정을 의미한다.In detail, a method of estimating the degree of change and the frequency of change will be described. The change history of the web page is constructed, and the degree of change and the frequency of change are predicted using the change history and the logistic regression model. Here, the change history means a process of changing from a previous web page to a current web page of the web page.
일 실시예에 있어서, 변경 이력은 웹 페이지로부터 추출된 이미지 URL, 앵커 텍스트(Anchor Text) 및 본문(Body Text)에 관한 정보 중 적어도 하나를 이용하여 산출된 해쉬값을 이용하여 구축될 수 있다. 본 발명의 일 실시예에 있어서, 해쉬값은 심해쉬(SIMHASH)값일 수 있으며, 이는 본 발명의 일 실시예에 불과하며 다른 해쉬값이 이용될 수도 있다. In one embodiment, the change history may be constructed using a hash value calculated using at least one of information about an image URL extracted from a web page, anchor text, and body text. In one embodiment of the present invention, the hash value may be a deep hash value (SIMHASH) value, which is only one embodiment of the present invention, and other hash values may be used.
여기서, 심해쉬(SIMHASH)값이란 논문"Moses S. Charikar, Similarity estimation techniques from rounding algorithms, 2002"에 소개된 알고리즘을 이용하는 해쉬함수의 함수 값으로, 해당 웹 페이지의 지문(fingerprint) 역할을 한다. 또한, 심해쉬값은 8바이트, 즉 64비트로 이루어진 16진수 값으로서 해당 웹 페이지의 내용을 압축한 값이라 볼 수 있다.Here, the SIMHASH value is a function value of the hash function using the algorithm introduced in the paper "Moses S. Charikar, Similarity estimation techniques from rounding algorithms, 2002", and serves as a fingerprint of the web page. In addition, the deep hash value is a hexadecimal value composed of 8 bytes, that is, 64 bits, and can be regarded as a value obtained by compressing the contents of the web page.
다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 웹 로봇을 이용하여 웹 페이지를 크롤한 후, 크롤한 문서를 HTML 파서를 거쳐 이미지 URL, 앵커 텍스트, 본문 등의 정보를 추출하는 것이다. 여기서, 앵커 텍스트라 함은 웹 상에서 밑줄이 그어진 단어나 문구로 나타나며, 앵커 텍스트를 클릭하게 되면 다른 화면이나 페이지로 링크되어 이동하게 되는 텍스트를 의미한다.In other words, the web page index update method according to an embodiment of the present invention after crawling a web page using a web robot, and extracts information such as image URL, anchor text, body, etc. through the crawled document through an HTML parser will be. Here, the anchor text is represented by underlined words or phrases on the web, and when the anchor text is clicked, it refers to text that is linked and moved to another screen or page.
일 실시예에 있어서, 변경 이력을 구축하는 방법은 웹 페이지의 해쉬값을 이용하여 해밍 거리를 산출하고, 해밍 거리의 평균, 표준편차, 가중평균 및 해밍 거리가 0인 비율 중 적어도 하나를 생성한다.In one embodiment, the method of building a change history calculates a hamming distance using a hash value of a web page, and generates at least one of a mean, standard deviation, weighted average, and zero hamming distance of the hamming distance. .
여기서, 해밍 거리라 함은 두 개의 비트열에서 서로 다른 비트의 개수를 의미한다. 이는 웹 페이지의 지문 역할을 하는 과거 및 현재 심해쉬값의 비교를 통한 해밍 거리를 이용하여 해당 웹 페이지가 얼마나 변경 했는지를 판단하기 위해서이다.Here, the hamming distance means the number of different bits in two bit strings. This is to determine how much the web page has changed by using the hamming distance by comparing the past and present deep hash values serving as fingerprints of the web page.
또한, 해밍 거리의 평균 및 표준편차는 일반적으로 사용되는 평균 및 표준편차 계산 방법을 이용하여 생성할 수 있다. 한편, 해밍 거리의 가중 평균은 과거에 해당 웹 페이지를 방문했던 시점으로부터 현재 방문 시점까지의 시간을 이용해서 경과 시간을 구한 후, 해밍 거리를 경과 시간으로 나누어 정규화한 평균값을 의미한다. 따라서, 해밍 거리가 같더라도 경과 시간이 짧은 경우 해밍 거리의 가중 평균은 더 높은 값을 가질 수 있다.In addition, the mean and standard deviation of the Hamming distance can be generated using a commonly used mean and standard deviation calculation method. On the other hand, the weighted average of the hamming distance means the average value normalized by dividing the hamming distance by the elapsed time after obtaining the elapsed time using the time from the time of visiting the web page to the current visit in the past. Therefore, even if the Hamming distance is the same, if the elapsed time is short, the weighted average of the Hamming distance may have a higher value.
그리고, 해밍 거리가 0인 비율은 해당 웹 페이지의 총 방문 횟수에 대한 해밍 거리가 0인 횟수의 비율로 구할 수 있다. 다시 말해, 해밍 거리가 0이라 함은 웹 페이지가 변하지 않은 것을 의미하므로, 해밍 거리가 0인 비율은 웹 페이지가 변하지 않은 횟수를 총 방문 횟수로 나누어 구할 수 있는 것이다.The ratio of the hamming distance of zero may be obtained as the ratio of the number of times of the hamming distance of the total number of visits of the web page. In other words, since the hamming distance of 0 means that the web page has not changed, the ratio of the hamming distance of 0 can be obtained by dividing the number of times that the web page has not changed by the total number of visits.
한편, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 해당 웹 페이지에 대해 현 시점으로부터 과거 N번까지의 방문 이력을 유지, 관리함으로써, 해당 웹 페이지의 변경 이력으로서 해밍 거리의 평균, 표준편차, 가중 평균 및 해밍 거리가 0인 비율 등을 생성할 수 있다.Meanwhile, the web page index updating method according to an embodiment of the present invention maintains and manages the visit history from the current time point to the past N times for the web page, thereby changing the average and standard of the hamming distance as the change history of the web page. Ratios with zero deviation, weighted average, and hamming distance, and the like.
예측 결과, 예측된 변경 정도 및 변경 빈도 중 적어도 하나를 이용하여 웹 페이지의 재방문 우선순위를 결정한다(S720). 일 실시예에 있어서, 우선순위를 결정하는 방법은 예측된 변경 빈도에 대해 정규화를 수행한 후 우선 순위를 결정할 수 있다. 다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 변경 빈도가 높으면 높을수록 웹 페이지 재방문 우선순위가 높을 수 있으나, 변경 빈도가 너무 높은 경우에는 재방문을 하더라도 계속 웹 페이지가 변경되기 때문에 재방문의 효과가 떨어지는 것에 대한 고려를 하기 위해 예측된 변경 빈도에 대한 정규화를 수행하는 것이다.As a result of the prediction, the revisit priority of the web page is determined using at least one of the predicted change degree and the change frequency (S720). In one embodiment, the method of determining priority may be prioritized after performing normalization on the predicted frequency of change. In other words, in the web page index updating method according to an embodiment of the present invention, the higher the frequency of change, the higher the priority of re-visiting the web page, but if the change frequency is too high, the web page continues to change even if the re-visit is too high. In order to consider the effect of revisit, the normalization of the predicted change frequency is performed.
다른 실시예에 있어서, 우선순위를 결정하는 방법은 웹 페이지를 마지막으로 방문한 시점부터의 경과 시간을 이용하여 우선순위를 결정할 수 있다. 다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 간혹 특정 웹 페이지의 경우 낮은 우선순위로 인해 시간이 지나면서 계속적으로 재방문의 기회를 갖지 못하는 경우가 발생하는 것을 방지하기 위해서 빈경 빈도 및 변경 정도와 함께 웹 페이지를 가장 마지막으로 방문했던 시점으로부터의 경과 시간을 이용하여 우선순위를 결정하는 것이다.In another embodiment, the method of determining the priority may determine the priority using the elapsed time since the last visit of the web page. In other words, the web page index updating method according to an embodiment of the present invention sometimes changes the frequency of frequent changes in order to prevent a certain web page from failing to have a chance to revisit over time due to a low priority. And elapsed time from the last visit to the web page along with the degree of change.
마지막으로, 결정된 우선순위에 따라 웹 페이지를 재방문하여 상기 웹 페이 지의 색인을 업데이트한다(S730). 다시 말해, 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 방법은 각 웹 페이지의 재방문 우선순위 별로 해당 웹 페이지를 재방문하여 색인 업데이트 작업을 수행하는 것이다.Finally, the web page is re-visited according to the determined priority to update the index of the web page (S730). In other words, the web page index update method according to an embodiment of the present invention is to re-visit the corresponding web page for each revisit priority of each web page to perform an index update operation.
한편, 상술한 웹 페이지 색인 업데이트 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.On the other hand, the above-described web page index updating method is implemented in the form of program instructions that can be executed by various computer means can be recorded in a computer-readable recording medium. In this case, the computer-readable recording medium may include program instructions, data files, data structures, and the like, alone or in combination. On the other hand, the program instructions recorded on the recording medium may be those specially designed and configured for the present invention or may be available to those skilled in the art of computer software.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.The computer-readable recording medium includes a magnetic recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical medium such as a CD-ROM and a DVD, a magnetic disk such as a floppy disk, A magneto-optical media, and a hardware device specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. The recording medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이 다.In addition, program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
한편, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.On the other hand, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.
도 1은 본 발명의 일 실시예에 따른 웹 페이지 색인 업데이트 시스템의 개략적인 블럭도이다.1 is a schematic block diagram of a web page index update system according to an embodiment of the present invention.
도 2는 동적 피쳐 및 정적 피쳐의 예를 보여주는 도면이다.2 is a diagram illustrating examples of dynamic and static features.
도 3은 도 1에 도시된 변경 이력 구축부의 세부 구성을 보여주는 블록도이다.3 is a block diagram illustrating a detailed configuration of the change history construction unit shown in FIG. 1.
도 4는 심해쉬값을 이용하여 해밍 거리가 산출되는 예를 보여주는 도면이다.4 is a diagram illustrating an example in which a hamming distance is calculated using a deep hash value.
도 5는 변경 빈도가 예측되는 예를 보여주는 도면이다.5 is a diagram illustrating an example in which a change frequency is predicted.
도 6은 변경 정도가 예측되는 예를 보여주는 도면이다.6 is a diagram illustrating an example in which a degree of change is predicted.
도 7은 본 발명에 의한 일 실시예에 따른 색인 업데이트 방법을 보여주는 플로우차트이다.7 is a flowchart showing an index update method according to an embodiment of the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
100 : 색인 업데이트 시스템 120 : 예측부100: index update system 120: prediction unit
122 : 변경 이력 구축부 124 : 회귀 모형 예측부122: change history construction unit 124: regression model prediction unit
140 : 우선순위 결정부 142 : 제1우선순위 결정부140: priority determination unit 142: first priority determination unit
144 : 제2우선순위 결정부 160 : 색인 업데이트부144: second priority determining unit 160: index updating unit
Claims (25)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080069498A KR100975510B1 (en) | 2008-07-17 | 2008-07-17 | Method and System for Updating Web Page Index |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080069498A KR100975510B1 (en) | 2008-07-17 | 2008-07-17 | Method and System for Updating Web Page Index |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100008885A KR20100008885A (en) | 2010-01-27 |
KR100975510B1 true KR100975510B1 (en) | 2010-08-11 |
Family
ID=41817397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080069498A KR100975510B1 (en) | 2008-07-17 | 2008-07-17 | Method and System for Updating Web Page Index |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100975510B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102442535B1 (en) | 2021-12-31 | 2022-09-13 | (주)케이엔랩 | Crawling management method, crawling management system, and computer program therefor |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120124581A (en) | 2011-05-04 | 2012-11-14 | 엔에이치엔(주) | Method, device and computer readable recording medium for improvded detection of similar documents |
KR20190125662A (en) | 2018-04-30 | 2019-11-07 | 노한숙 | Panel Using Wasted Material And Apparatus And Method For Manufacturing The Same |
CN111143744B (en) * | 2019-12-26 | 2023-10-13 | 杭州安恒信息技术股份有限公司 | Method, device and equipment for detecting web asset and readable storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000075203A (en) * | 1999-05-31 | 2000-12-15 | 홍오성 | General-purpose robot agent and real-time search method |
KR20020045650A (en) * | 2000-12-09 | 2002-06-20 | 이철호 | Method for updating web pages on the internet and apparatus thereof |
KR20050011034A (en) * | 2003-07-21 | 2005-01-29 | 엘지전자 주식회사 | Method for setting a masking block |
KR20060041874A (en) * | 2004-02-12 | 2006-05-12 | 마이크로소프트 코포레이션 | Decision-theoretic web-crawling and predicting web-page change |
-
2008
- 2008-07-17 KR KR1020080069498A patent/KR100975510B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000075203A (en) * | 1999-05-31 | 2000-12-15 | 홍오성 | General-purpose robot agent and real-time search method |
KR20020045650A (en) * | 2000-12-09 | 2002-06-20 | 이철호 | Method for updating web pages on the internet and apparatus thereof |
KR20050011034A (en) * | 2003-07-21 | 2005-01-29 | 엘지전자 주식회사 | Method for setting a masking block |
KR20060041874A (en) * | 2004-02-12 | 2006-05-12 | 마이크로소프트 코포레이션 | Decision-theoretic web-crawling and predicting web-page change |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102442535B1 (en) | 2021-12-31 | 2022-09-13 | (주)케이엔랩 | Crawling management method, crawling management system, and computer program therefor |
Also Published As
Publication number | Publication date |
---|---|
KR20100008885A (en) | 2010-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241241B (en) | Case retrieval method, device, equipment and storage medium based on knowledge graph | |
US9171078B2 (en) | Automatic recommendation of vertical search engines | |
US7788276B2 (en) | Predictive stemming for web search with statistical machine translation models | |
US8312035B2 (en) | Search engine enhancement using mined implicit links | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
CN105488024B (en) | The abstracting method and device of Web page subject sentence | |
KR101532715B1 (en) | Search engine that applies feedback from users to improve search results | |
US8099417B2 (en) | Semi-supervised part-of-speech tagging | |
US8108374B2 (en) | Optimization framework for tuning ranking engine | |
US20090248661A1 (en) | Identifying relevant information sources from user activity | |
US7818208B1 (en) | Accurately estimating advertisement performance | |
JP2008541228A (en) | How to find semantically relevant search engine queries | |
US8527564B2 (en) | Image object retrieval based on aggregation of visual annotations | |
CN102254004A (en) | Method and system for modeling Web in weblog excavation | |
JP2004164290A (en) | Information processing device and method, record medium and program | |
CN108710672B (en) | Theme crawler method based on incremental Bayesian algorithm | |
CN112836029A (en) | Graph-based document retrieval method, system and related components thereof | |
US7818334B2 (en) | Query dependant link-based ranking using authority scores | |
KR100975510B1 (en) | Method and System for Updating Web Page Index | |
CN103324641B (en) | Information record recommendation method and device | |
CN113901056A (en) | Interface recommendation method and device and electronic equipment | |
Oo | Pattern discovery using association rule mining on clustered data | |
CN110413763B (en) | Automatic selection of search ranker | |
JP6749865B2 (en) | INFORMATION COLLECTION DEVICE AND INFORMATION COLLECTION METHOD | |
JP5832869B2 (en) | Keyword extraction system and keyword extraction method using category matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130626 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150722 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20160725 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170704 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190701 Year of fee payment: 10 |