KR20090025536A - Method and system for providing newest information - Google Patents

Method and system for providing newest information Download PDF

Info

Publication number
KR20090025536A
KR20090025536A KR1020070090462A KR20070090462A KR20090025536A KR 20090025536 A KR20090025536 A KR 20090025536A KR 1020070090462 A KR1020070090462 A KR 1020070090462A KR 20070090462 A KR20070090462 A KR 20070090462A KR 20090025536 A KR20090025536 A KR 20090025536A
Authority
KR
South Korea
Prior art keywords
main word
web page
extracted
type
anchor text
Prior art date
Application number
KR1020070090462A
Other languages
Korean (ko)
Other versions
KR100953491B1 (en
Inventor
김병학
곽태영
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070090462A priority Critical patent/KR100953491B1/en
Priority to JP2008218391A priority patent/JP4751430B2/en
Publication of KR20090025536A publication Critical patent/KR20090025536A/en
Application granted granted Critical
Publication of KR100953491B1 publication Critical patent/KR100953491B1/en
Priority to JP2011055193A priority patent/JP5216887B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

A method and a system for providing the latest information are provided to supply the latest information that each web site additionally provides, thereby increasing user's convenience. A latest information providing system extracts and stores a predetermined web page from each web site included in a web site list with regard to a specific topics(100). The latest information providing system extracts and stores an extracted topic word from the web page(110). The system counts an occurrence number of extracted topic words to store the result per each topic word(130) and repeat the above processes(140). The system compares the occurrence number of extracted topic words every predetermined period to determine a varied amount of the occurrence number of each topic word(150).

Description

최신정보 제공 방법 및 시스템{Method and System for Providing Newest Information}Method and System for Providing Newest Information

본 발명은 인터넷상에서 정보를 제공하는 방법에 관한 것으로서 보다 상세하게는 인터넷상에서 각 분야별로 최신 정보를 수집하여 제공할 수 있는 최신 정보 제공 방법 및 시스템에 관한 것이다.The present invention relates to a method for providing information on the Internet, and more particularly, to a method and system for providing the latest information that can collect and provide the latest information for each field on the Internet.

최근 과학기술의 발전 및 경제 수준의 향상으로 인해 초고속 인터넷과 같은 통신망의 보급과 초고속 통신망 이용자의 급격한 증가가 이루어졌고, 초고속 통신망 이용자의 급격한 증가는 통신망을 통한 신규 서비스의 개발 및 서비스 아이템의 다양화를 가능하게 하였다. 이러한 통신망을 이용한 서비스 중 가장 일반적인 서비스가 통신망을 이용한 검색 서비스라 할 수 있다.Recently, due to the development of science and technology and the improvement of economic level, the spread of communication network such as high-speed Internet and the rapid increase of users of high-speed communication network have been made, and the rapid increase of users of high-speed communication network has led to the development of new services and diversification of service items through communication networks. Made it possible. The most common service among such services using a communication network may be referred to as a search service using a communication network.

검색 서비스란 사용자로부터 입력되는 쿼리에 대해 검색을 수행한 후 입력된 쿼리에 상응하는 검색 결과 문서(예컨대, 사용자로부터 입력된 검색 쿼리를 포함하는 웹 사이트, 기사, 또는 해당 검색 쿼리를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.A search service is a name of a search result document (eg, a web site, an article containing a search query entered by a user, or a file containing the search query) corresponding to a query entered after a search is performed on a query input from a user. Means a service for providing a user with an image, etc.).

이용자들은 이러한 검색 서비스를 이용하여 최신의 정보를 제공받기를 희망 하지만, 최근에는 컨텐츠의 양 및 그 종류의 증가로 인해 검색 서비스를 제공하는 검색 사이트들이 최신의 정보를 추출하는데 많은 시간이 걸리고 있고, 따라서 사용자들이 원하는 최신 정보를 효과적으로 제공하지 못한다는 문제점이 있다.Users want to be provided with the latest information by using such a search service, but recently, due to the increase in the amount and type of contents, search sites that provide a search service take a lot of time to extract the latest information. Therefore, there is a problem in that it does not effectively provide the latest information that users want.

또한, 사용자가 특정 주제에 대한 최신 정보를 얻고자 하는 경우, 이러한 검색 서비스를 이용하는 방법 이외에 특정 주제를 다루고 있는 웹사이트를 직접 방문함으로써 최신의 정보를 획득할 수도 있다. 그러나, 이러한 방법에 의하는 경에도 동일한 주제를 다루는 웹사이트들마다 서로 다른 최신 정보를 제공하는 경우가 많기 때문에, 사용자들은 특정 주제에 대한 최신의 정보를 획득하기 위해서는 특정 주제를 다루고 있는 모든 웹사이트를 방문하여야 하는 불편함이 있었다.In addition, when the user wants to obtain the latest information on a specific subject, the latest information may be obtained by directly visiting a website dealing with the specific subject in addition to using the search service. However, even with this method, websites that deal with the same topic often provide different and up-to-date information. Therefore, in order to obtain up-to-date information on a particular topic, all the websites that deal with a particular topic are required. There was an inconvenience to visit.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 특정 주제에 대해 각 웹사이트들이 제공하는 최신 정보들을 한번에 사용자에게 제공할 수 있는 최신정보 제공 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problems, and it is a technical task of the present invention to provide a method and system for providing the latest information that can provide the user with the latest information provided by each website on a particular subject at one time.

또한, 본 발명은 각 분야별 웹사이트들로부터 추출된 최신정보를 출현횟수의 변화량의 차이에 따라 하나 이상의 타입으로 분류하여 사용자에게 제공할 수 있는 최신정보 제공 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다. In addition, the present invention is to provide a method and system for providing the latest information that can be provided to the user by classifying the latest information extracted from the website of each field into one or more types according to the difference in the number of changes in the appearance frequency as another technical problem do.

또한, 본 발명은 각 분야별 웹사이트들로부터 최신 정보를 일정한 주기마다 추출함으로써 사용자에게 제공되는 최신 정보의 업데이트 주기를 단축시킬 수 있는 최신정보 제공 방법 및 시스템을 제공하는 것을 또 다른 기술적 과제로 한다.Another object of the present invention is to provide a method and system for providing the latest information that can shorten the update cycle of the latest information provided to the user by extracting the latest information at regular intervals from the websites for each field.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 최신정보 제공 방법은 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 추출하여 저장하는 단계; 상기 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 단계; 상기 각 주제어의 출현횟수를 카운팅하는 단계; 상기 각 단계들을 소정 주기마다 반복함으로써 상기 각 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 제1 타입 주제어를 선정하는 단계; 및 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주제어와 함께 사용자에게 제공하는 단계를 포함한다. 이때, 상기 소정 주제에 대한 웹사이트 리스트는 웹사이트들의 디렉토리 정보로부터 추출된다.According to an aspect of the present invention, there is provided a method of providing latest information, the method including: extracting and storing a predetermined web page from each website included in a website list on a predetermined subject; Extracting one or more main words from the extracted web pages; Counting the number of occurrences of each main word; Selecting the first type main word whose variation in the number of occurrences of each main word is equal to or greater than a first reference value by repeating the steps at predetermined intervals; And providing a content including the first type main term of the web page to the user together with the first type main term. At this time, the website list for the predetermined subject is extracted from the directory information of the websites.

한편, 상술한 최신정보 제공 방법은 상기 주제어 중 상기 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 제2 타입 주제어를 선정하는 단계; 및 상기 웹페이지 중 상기 제2 타입 주제어가 포함된 내용을 상기 제2 타입 주제어와 함께 사용자에게 제공하는 단계를 더 포함할 수 있다.On the other hand, the above-described latest information providing method comprises the steps of selecting a second type of the main subject of the change in the number of appearance of the main word is more than a second reference value and less than a third reference value; And providing a content including the second type main term in the webpage to the user together with the second type main term.

일 실시예에 있어서, 상기 소정 웹페이지는 상기 각 웹사이트의 첫 번째 웹페이지이고, 상기 각 주제어는 상기 각 웹페이지에 포함된 앵커 텍스트(Anchor Text)로부터 추출된다. 이러한 실시예에 의하는 경우, 상기 주제어 추출단계에서, 상기 주제어가 추출된 상기 앵커 텍스트 및 상기 앵커 텍스트와 링크되어 있는 유알엘 주소(URL: Uniform Resource Locator)를 상기 추출된 주제어와 함께 저장하고, 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용으로는 상기 제1 타입 주제어가 포함되어 있는 앵커 텍스트를 제공한다.In one embodiment, the predetermined web page is the first web page of each website, and each main word is extracted from anchor text included in each web page. According to this embodiment, in the extracting the main word, the anchor text from which the main word is extracted and a Uniform Resource Locator (URL) linked with the anchor text are stored together with the extracted main word, and An anchor text including the first type main term is provided as a content including the first type main term in a web page.

한편, 상기 제1 타입 주제어를 제공하는 단계는, 각 주제별 디렉토리를 생성하는 단계; 및 상기 디렉토리 중 상기 제1 타입 주제어가 속하는 주제 영역에 상기 제1 타입 주제어를 나열함으로써 상기 제1 타입 주제어를 제공하는 단계를 더 포함한다.On the other hand, the step of providing the first type of key word, generating a directory for each subject; And providing the first type main word by listing the first type main word in a subject area to which the first type main word belongs in the directory.

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 최신정보 제공 시스템은 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 소정 주기마다 추출하여 저장하는 웹페이지 추출부; 상기 웹페이지 추출부에 의해 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 주제어 추출 부; 상기 각 주제어의 출현횟수를 카운팅하는 카운터; 상기 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 주제어를 선정하여 제1 타입 주제어로 분류하는 판단부; 및 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주제어와 함께 사용자에게 제공하는 정보 제공부를 포함한다.The latest information providing system according to another aspect of the present invention for achieving the above object is a web page extraction unit for extracting and storing a predetermined web page at a predetermined period from each website included in the website list on a predetermined topic; A main word extracting unit extracting one or more main words from the web page extracted by the web page extracting unit; A counter for counting the number of occurrences of each main word; A determination unit for selecting a main word having a change amount of the occurrence frequency greater than or equal to a first reference value among the main words and classifying the first type as a main word; And an information providing unit for providing a content including the first type main term in the web page to the user together with the first type main term.

상술한 바와 같이 본 발명에 따르면, 특정 주제에 대해 각 웹사이트들마다 별도로 제공되던 최신정보들을 한번에 제공할 수 있어 사용자의 편의성을 증대시킬 수 있다는 효과가 있다.As described above, according to the present invention, it is possible to provide the latest information that was separately provided for each website on a specific subject at a time, thereby increasing the convenience of the user.

또한, 본 발명에 따르면, 각 분야별 웹사이트들로부터 추출된 최신정보를 그 출현횟수의 변화량의 차이에 따라 하나 이상의 타입으로 분류하여 제공할 수 있어 사용자들의 다양한 요구에 능동적으로 대처할 수 있다는 효과가 있다. In addition, according to the present invention, it is possible to categorize and provide the latest information extracted from the websites of each field by one or more types according to the difference in the number of changes in the number of appearances can actively cope with various needs of users. .

또한, 본 발명에 따르면 각 분야별 웹사이트들로부터 최신 정보를 일정한 주기마다 추출하여 사용자에게 제공함으로써 사용자에게 제공되는 최신 정보의 업데이트 주기를 단축시킬 수 있는 효과가 있다.In addition, according to the present invention has the effect of reducing the update period of the latest information provided to the user by extracting the latest information from the respective websites for each field at regular intervals to the user.

이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 최신정보 제공 시스템의 개략적인 블록도이다.1 is a schematic block diagram of a system for providing up-to-date information according to an embodiment of the present invention.

도 1에 도시된 바와 같이 본 발명의 일 실시예에 따른 최신정보 제공 시스템(10)은 웹페이지 추출부(12), 웹페이지 저장부(14), 주제어 추출부(16), 카운 터(18), 주제어 저장부(20), 판단부(22), 및 정보 제공부(24)를 포함한다.As shown in FIG. 1, the latest information providing system 10 according to an exemplary embodiment of the present invention includes a web page extractor 12, a webpage storage unit 14, a main word extractor 16, and a counter 18. ), A main word storage unit 20, a determination unit 22, and an information providing unit 24.

웹페이지 추출부(12)는 각 주제별 웹사이트 리스트에 포함된 각각의 웹사이트들로부터 소정 웹페이지를 추출한다. 이때 각 주제별 웹사이트 리스트는 각종 포탈 사이트가 제공하고 있는 디렉토리 정보로부터 추출될 수 있다. 예컨대, 도 2a에 도시된 바와 같이 디렉토리 정보로부터 도 2b에 도시된 바와 같은 웹사이트 리스트를 추출하는 것이다. 여기서, 도 2b는 '영화'라는 주제에 대한 웹사이트 리스트를 보여준다.The web page extracting unit 12 extracts a predetermined web page from respective websites included in the website list for each subject. At this time, the list of websites for each topic may be extracted from directory information provided by various portal sites. For example, as shown in FIG. 2A, a list of websites as shown in FIG. 2B is extracted from directory information. 2b shows a list of websites on the subject of 'movie'.

일 실시예에 있어서, 웹페이지 추출부(12)는 각 주제별 웹사이트 리스트에 포함된 각각의 웹사이트의 첫 번째 페이지를 추출한다. 이는, 각 웹사이트의 첫 번째 페이지에 신규정보나 컨텐츠의 업데이트 정보가 포함되어 있는 경우가 많기 때문이다. 변형된 실시예에 있어서는 웹사이트의 첫 번째 웹페이지뿐만 아니라 신규정보를 제공하는 웹페이지를 추출할 수도 있을 것이다.In one embodiment, the web page extraction unit 12 extracts the first page of each website included in the website list for each subject. This is because the first page of each website often contains new information or updated information of the content. In the modified embodiment, not only the first web page of the website but also a web page providing new information may be extracted.

웹페이지 추출부(12)는 웹사이트로부터 상술한 웹페이지를 소정 주기 단위로 추출하는 데, 이때 소정 주기는 하루로 설정하는 것이 바람직하다.The web page extracting unit 12 extracts the above-mentioned web page from the website in predetermined cycle units, and the predetermined cycle is preferably set to one day.

웹페이지 저장부(14)는 웹페이지 추출부(12)에 의해 추출된 웹페이지들이 각 분야별로 저장된다. 웹페이지 저장부(14)에 저장되어 있는 웹페이지들의 경우 카운터(18)에 의해 웹페이지에 포함된 주제어가 카운팅된 이후에는 저장공간을 효율적으로 사용하기 위해 삭제하여도 무방할 것이다.The web page storage unit 14 stores web pages extracted by the web page extraction unit 12 for each field. In the case of web pages stored in the web page storage unit 14, after the main word included in the web page is counted by the counter 18, the web pages may be deleted to efficiently use the storage space.

주제어 추출부(16)는 웹페이지 추출부(12)에 의해 추출된 웹페이지로부터 하나 이상의 주제어를 추출한다. 일 실시예에 있어서, 주제어 추출부(16)는 각 웹페 이지에 포함된 앵커 텍스트(Anchor Text)로부터 주제어를 추출한다. 앵커 텍스트란 특정 웹페이지에서 클릭이 가능한 부분을 의미하는 것으로서, 이러한 앵커 텍스트는 링크된 문서의 제목 등과 같이 링크된 문서를 대표하는 단어로 이루어진다. 주제어 추출부(16)는 각 웹페이지에 포함된 모든 앵커 텍스트로부터 각각의 주제어를 추출하게 된다.The main word extractor 16 extracts one or more main words from the web page extracted by the web page extractor 12. In one embodiment, the main word extraction unit 16 extracts a main word from the anchor text included in each web page. The anchor text refers to a clickable portion of a specific web page. The anchor text is a word representing the linked document, such as the title of the linked document. The main word extractor 16 extracts each main word from all anchor texts included in each web page.

일 실시예에 있어서 주제어 추출부(16)는 웹페이지의 앵커 텍스트로부터 주제어를 추출함에 있어서 앵커 텍스트에 포함된 명사 또는 복합명사를 주제어로 추출하게 된다. 이때, 앵커 텍스트에 포함된 모든 명사나 복합명사가 주제어로 추출될 수도 있지만, 추출된 명사나 복합명사만으로 된 앵커 텍스트가 해당 웹페이지 또는 다른 웹페이지에 존재하지 않는 것들은 주제어에서 제외할 수도 있다.In one embodiment, the main word extractor 16 extracts a noun or a compound noun included in the anchor text as the main word in extracting the main word from the anchor text of the web page. In this case, all nouns or compound nouns included in the anchor text may be extracted as the subject words, but anchor texts of only the extracted nouns or compound nouns may be excluded from the main word.

예컨대, 영화에 관련된 웹페이지 중에서 "화려한 휴가 어떻게 보셨나요?"라는 앵커 텍스트가 존재하는 경우 이러한 앵커 텍스트로부터 "화려한 휴가"라는 복합 명사를 주제어로 추출하게 되는 것이다. 또 다른 예로, "화려한 휴가를 보고 나서 묘골이 송연해지는 듯한…"이라는 앵커 텍스트가 존재하는 경우 이러한 앵커 텍스트로부터 "화려한 휴가", "묘골", "송연" 등의 명사 또는 복합명사가 추출되고, 해당 웹페이지 또는 다른 웹페이지에서 "화려한 휴가"라는 단어로 된 앵커 텍스트는 존재하지만 "묘골"과 "송연"이라는 단어로 된 앵커 텍스트는 존재하지 않는 경우에는 "화려한 휴가"를 해당 앵커 텍스트의 주제어로 추출하게 되는 것이다.For example, if there is an anchor text "How did you see the colorful vacation?" Among web pages related to the movie, the compound noun "gorgeous vacation" is extracted from the anchor text as the subject. As another example, when there is an anchor text of "the gravestone seems to smoke after seeing the colorful holiday", nouns or compound nouns such as "gorgeous holiday", "myo", "song" are extracted from the anchor text, If an anchor text with the word "gorgeous holiday" exists on the web page or another web page, but no anchor text with the words "myo" and "spinning" does not exist, "gorgeous holiday" is the subject of the anchor text. Will be extracted.

한편, 이미지로 되어 있는 링크와 같이 앵커 텍스트가 존재하지 않는 링크의 경우에는 해당 웹페이지의 제목으로부터 주제어를 추출할 수 있다. 이때 해당 웹 페이지의 제목은 해당 웹페이지 자체를 다운로드 함으로써 획득할 수 있을 것이다.Meanwhile, in the case of a link having no anchor text, such as a link formed as an image, the main word may be extracted from the title of the web page. At this time, the title of the web page may be obtained by downloading the web page itself.

카운터(18)는 주제어 추출부(16)에 의해 추출된 주제어들의 출현 횟수를 카운팅하여 주제어 저장부(20)에 각 주제어 별로 저장한다. 일 실시예에 있어서, 카운터(18)는 특정 주제에 대해 추출된 각각의 웹페이지로부터 추출된 주제어들의 출현 횟수를 웹페이지가 추출되는 주기에 맞추어서 카운팅하여 그 결과를 주제어 저장부(18)에 저장할 수 있다.The counter 18 counts the number of occurrences of the main words extracted by the main word extracting unit 16 and stores them in the main word storage unit 20 for each main word. In one embodiment, the counter 18 counts the number of occurrences of the main words extracted from each web page extracted for a specific subject according to the period in which the web pages are extracted and stores the result in the main word storage 18. Can be.

예컨대, 웹사이트 리스트로부터 하루 단위로 웹페이지를 추출하는 것으로 설정되어 있고 웹사이트 리스트의 주제가 영화인 경우, 2007년 8월1일에 "영화"라는 주제에 대해 추출된 웹페이지의 각 주제어들의 출현횟수를 카운팅하여 각 주제어별로 저장하고, 2007년 8월 2일에 추출된 웹페이지의 각 주제어들의 출현횟수를 카운팅하여 각 주제어 별로 저장하는 것이다.For example, if it is set to extract a web page from the website list on a daily basis, and the theme of the website list is a movie, the number of occurrences of the main words of each web page extracted on the theme "movie" on August 1, 2007 Counting and storing each key word, and counting the number of occurrences of each key word of the web page extracted on August 2, 2007 to store each key word.

주제어 저장부(20)는 주제어 추출부(16)에 의해 추출된 주제어를 카운터(18)에 의해 산출된 각 주제어의 출현횟수 및 해당 주제어가 포함되어 있는 앵커 텍스트와 함께 저장한다. 일 실시예에 있어서, 주제어 저장부(20)는 추출된 주제어를 저장함에 있어서 추출된 주제어가 포함된 앵커 텍스트에 매핑되어 있는 유알엘(URL: Uniform Resource Locator)주소를 해당 주제어와 함께 저장할 수 있다.The main word storage unit 20 stores the main word extracted by the main word extracting unit 16 together with the occurrence number of each main word calculated by the counter 18 and the anchor text including the main word. In one embodiment, in storing the extracted main word, the main word storage unit 20 may store a URL (Uniform Resource Locator) address mapped to the anchor text including the extracted main word along with the main word.

상술한 데이터들이 주제어 저장부(20)에 저장되는 형식을 도 3을 참조하여 설명한다. 도시된 바와 같이 상술한 데이터들은 테이블 형태로 주제어 저장부(20)에 기록되는데, 주제어 필드(26)에는 각 웹페이지로부터 추출된 주제어들이 저장되고, 앵커 텍스트 필드(28)에는 해당 주제어가 포함되어 있는 앵커 텍스트가 저장되 며, URL 필드(30)에는 해당 앵커 텍스트와 링크되어 있는 URL주소가 저장된다. 또한, 카운팅 날짜 필드(32)에는 해당 주제어가 카운팅된 날짜가 저장되며, 출현횟수 필드(34)에는 추출된 주제어의 출현횟수가 저장된다.A format in which the above-described data is stored in the main control unit 20 will be described with reference to FIG. 3. As shown, the above-described data is recorded in the main word storage unit 20 in the form of a table. The main word field 26 stores the main words extracted from each web page, and the anchor text field 28 includes the main word. The anchor text is stored, and the URL field 30 stores the URL address linked to the anchor text. In addition, the counting date field 32 stores the date on which the corresponding main word is counted, and the appearance frequency field 34 stores the number of occurrences of the extracted main word.

다시 도 1을 참조하면, 판단부(22)는 주제어 추출부(16)에 의해 추출된 주제어의 출현횟수를 소정 주기마다 비교하여 각 주제어의 출현횟수의 변화량을 판단하고 출현횟수의 변화량을 이용하여 해당 주제어들을 제1 타입 주제어 또는 제2 타입 주제어로 분류한다. 구체적으로 판단부(22)는 주제어의 출현횟수의 변화량이 제1 기준치 이상인 경우 해당 주제어를 제1 타입 주제어로 분류한다.Referring back to FIG. 1, the determination unit 22 compares the number of occurrences of the main word extracted by the main word extraction unit 16 at predetermined intervals to determine the amount of change in the number of occurrences of each main word and use the amount of change in the number of occurrences. The main words are classified as first type main words or second type main words. In detail, the determination unit 22 classifies the corresponding main word as the first type main word when the amount of change in the appearance frequency of the main word is equal to or greater than the first reference value.

여기서, 출현횟수의 변화량이 제1 기준치 이상이라는 것은 이전의 출현횟수에 비해 최근 출현횟수가 증가 또는 감소한 것을 의미하는 것으로서, 출현횟수가 증가하였다는 것은 최근 많은 웹사이트들이 해당 주제어와 관련된 내용을 포함하고 있다는 것을 의미하므로, 이러한 주제어는 최신 정보를 나타내는 것으로 판단할 수 있는 것이다. 예컨대, 영화가 개봉하게 되는 경우 개봉 이전에 해당 영화에 대한 평론이나 주연 배우 등의 인터뷰 등으로 인하여 이전에는 출현되지 않았던 해당 영화와 관련된 주제어가 많은 웹사이트에 포함되게 되는 것이다.Here, the change in the number of appearances is more than the first reference value means that the recent number of appearances increases or decreases compared to the previous appearances, and that the increase in the number of appearances includes content related to the relevant keyword recently. This means that the subject can be judged to represent the latest information. For example, when a movie is released, many websites include a topic related to the movie that has not appeared before due to a review of the movie or an interview with a main actor before the release.

또한, 출현횟수가 감소하였다는 것은 이전까지는 많은 웹사이트에서 다루고 있던 주제어였으나 최근 그 내용이 현격히 줄어든 것을 의미하는 것으로서, 더 이상 사람들에게 이슈가 되지 못하는 주제어인 것으로 판단함으로써, 이러한 주제어가 최신정보로 등록되어 있었다면 해당 주제어들을 삭제할 수 있게 된다.In addition, the decrease in the number of occurrences was a topic that had been dealt with by many websites until recently, but its content has been greatly reduced, and it is determined that this topic is not a problem for people anymore. If registered, you can delete the subjects.

한편, 출현횟수가 많긴 하지만 모든 웹페이지에 항상 공통적으로 포함되어 메뉴 등과 같은 주제어들의 경우 이전에 비해 출현횟수의 변화량이 거의 없기 때문에 상술한 과정을 통해 최신 정보로부터 제외될 수 있다. 예컨대, 영화 관련 웹사이트에서 "예매"라는 주제어는 항상 웹사이트에 포함되어 있는 주제어이므로 그 출현회수가 많을 수는 있지만 출현횟수의 변화량이 제1 기준치 미만이므로 최신정보에서 배제되는 것이다.Meanwhile, although the number of appearances is large, it is always included in all web pages so that the main words such as menus can be excluded from the latest information through the above-described process since there is almost no change in the appearance frequency compared to the previous. For example, in a movie-related website, the term "pre-sale" is always included in the website, so the number of occurrences may be high, but the change in the number of appearances is less than the first reference value and thus excluded from the latest information.

한편, 판단부(22)는 주제어의 출현횟수의 변화량이 제2 기준치 이상이면서 제3 기준치 미만인 경우 해당 주제어를 제2 타입 주제어로 분류한다. 구체적으로, 최신정보이긴 하지만 그 출현횟수의 변화량이 많지 않은 주제어를 제2 타입 주제어로 분류하는 것이다. 즉, 제2 기준치는 해당 주제어가 새로운 정보인지를 판단하는 기준이 되는 것이고, 제3 기준치는 해당 주제어가 이유성이 있는 주제인지를 판단할 수 있는 기준이 되는 것이다. 이때, 제3 기준치는 제1 기준치와 동일하게 설정될 수 있지만 제1 기준치 미만으로 설정될 수도 있다.Meanwhile, the determination unit 22 classifies the corresponding main word as the second type main word when the amount of change in the number of occurrences of the main word is more than the second reference value and less than the third reference value. Specifically, the main word, which is the latest information but does not change much in the number of occurrences, is classified as the second type main word. That is, the second reference value serves as a criterion for determining whether the corresponding main word is new information, and the third reference value serves as a criterion for determining whether the corresponding main word is a reason for reason. In this case, the third reference value may be set to be the same as the first reference value, but may be set to be less than the first reference value.

예컨대, 요리 관련 웹사이트에서 음식정보가 업데이트된 경우 업데이트 된 음식정보는 이전에는 출현되지 않다가 최근에 출현된 것이므로 새로운 정보이긴 하지만, 사람들에게 이슈화되지는 않으므로 그 출현횟수의 변화량이 크지 않아 제2 타입 주제어로 분류되는 것이다.For example, when food information is updated on a cooking-related website, the updated food information is new information because it has not appeared before but recently appeared, but since it is not an issue for people, the change in the number of appearances is not large. It is classified as a type subject.

일 실시예에 있어서, 판단부(22)는 각 주제어의 출현횟수의 변화량을 1일, 7일, 또는 10일 마다 판단할 수 있다.In one embodiment, the determination unit 22 may determine the amount of change in the appearance frequency of each main word every 1 day, 7 days, or 10 days.

정보 제공부(22)는 판단부(20)에 의해 분류된 제1 타입 주제어와 제2 타입 주제어를 해당 주제어가 포함된 내용과 함께 각 타입별로 사용자에게 제공한다. 구체적으로, 제1 타입으로 분류된 주제어는 제1 타입끼리 그룹핑하여 사용자에게 제공하고, 제2 타입으로 분류된 주제어는 제2 타입끼리 그룹핑하여 사용자에게 제공하는 것이다. 이때, 정보 제공부(22)는 해당 주제어가 포함된 내용으로 해당 주제어가 포함된 앵커 텍스트를 제공하는 것이 바람직하다. 이를 통해 사용자는 해당 앵커 텍스트를 클릭함에 의해 해당 앵커 텍스트와 링크된 웹페이지를 열람할 수 있게 된다.The information providing unit 22 provides the first type main word and the second type main word classified by the determination unit 20 to the user for each type together with the contents including the corresponding main word. Specifically, the main words classified as the first type are provided to the user by grouping the first types, and the main words classified as the second type are provided to the user by grouping the second types. In this case, the information providing unit 22 preferably provides anchor text including the corresponding main word as the content including the corresponding main word. This allows the user to view the web page linked with the anchor text by clicking on the anchor text.

일 실시예에 있어서, 정보 제공부(22)는 제1 타입 또는 제2 타입 주제어를 사용자에게 제공함에 있어서, 각 주제별로 디렉토리를 생성하고 제1 타입 또는 제2 타입 주제어가 속하는 주제의 디렉토리에 해당 주제어를 나열하는 방법으로 최신정보를 제공할 수 있다. 예컨대, 제1 타입 또는 제2 타입 주제어가 영화에 관련된 것인 경우, 제1 타입 또는 제2 타입 주제어를 생성된 디렉토리 중 영화 영역에 키워드 형식으로 나열하는 것이다. 변형된 실시예에 있어서는 별도의 디렉토리를 생성하지 않고, 각 포탈 사이트에서 제공되는 디렉토리 중 해당 주제어가 속하는 영역에 제1 타입 또는 제2 타입 주제어를 포함시켜 사용자에게 제공할 수도 있을 것이다.In one embodiment, the information providing unit 22, in providing the first type or the second type main word to the user, creates a directory for each subject and corresponds to the directory of the subject to which the first type or the second type main word belongs. You can provide up-to-date information by listing topics. For example, when the first type or the second type main word is related to a movie, the first type or the second type main word is arranged in a keyword form in the movie area of the generated directory. In the modified embodiment, the first type or the second type main word may be provided to the user in a region to which the corresponding main word belongs among the directories provided in each portal site without creating a separate directory.

다른 실시예에 있어서는 검색결과를 통해서 제1 타입 또는 제2 타입 주제어를 제공할 수도 있다. 예컨대, 검색 질의어로 제1 타입 주제어가 입력되는 경우 제1 타입 주제어와 함께 저장되어 있는 앵커 텍스트를 검색결과로 사용자에게 제공하는 것이다.In another embodiment, the first type or the second type main word may be provided through the search result. For example, when a first type subject is input as a search query, the anchor text stored together with the first type subject is provided to the user as a search result.

상술한 최신정보 제공 시스템을 통해 사용자에게 최신정보를 제공하는 방법 을 도 4를 참조하여 구체적으로 설명한다.A method of providing the latest information to the user through the above-described latest information providing system will be described in detail with reference to FIG. 4.

먼저, 특정 주제에 대한 웹사이트 리스트에 포함된 각 웹사이트로부터 소정 웹페이지를 추출하여 저장한다(제100단계). 이때 각 주제별 웹사이트 리스트는 각종 포탈 사이트가 제공하고 있는 디렉토리 정보로부터 추출될 수 있다. 일 실시예에 있어서, 각 주제별 웹사이트 리스트에 포함된 각각의 웹사이트로부터 웹페이지를 추출함에 있어서, 각 웹사이트들의 첫 번째 페이지를 추출한다. 이는, 각 웹사이트의 첫 번째 페이지에 신규정보나 컨텐츠의 업데이트 정보가 포함되어 있는 경우가 많기 때문이다. 변형된 실시예에 있어서는 웹사이트의 첫 번째 웹페이지뿐만 아니라 신규정보를 제공하는 웹페이지를 추출할 수도 있을 것이다.First, a predetermined web page is extracted and stored from each website included in a website list on a specific topic (step 100). At this time, the list of websites for each topic may be extracted from directory information provided by various portal sites. In one embodiment, in extracting a web page from each website included in the website list for each subject, the first page of each website is extracted. This is because the first page of each website often contains new information or updated information of the content. In the modified embodiment, not only the first web page of the website but also a web page providing new information may be extracted.

다음으로 추출된 웹페이지로부터 하나 이상의 주제어를 추출하여 저장한다(제110단계). 일 실시예에 있어서, 웹페이지로부터 주제어를 추출함에 있어서 각 웹페이지에 포함된 앵커 텍스트(Anchor Text)로부터 주제어를 추출할 수 있다. 이를 위해 먼저 각 웹페이지로부터 모든 앵커 텍스트를 추출하고, 추출된 모든 앵커 텍스트로부터 각각의 주제어를 추출한다.Next, at least one topic word is extracted from the extracted web page and stored (step 110). In an embodiment, in extracting a main word from a web page, the main word may be extracted from anchor text included in each web page. To do this, we first extract all anchor text from each web page, and then extract each main word from all extracted anchor text.

웹페이지의 앵커 텍스트로부터 주제어를 추출함에 있어서 앵커 텍스트에 포함된 명사 또는 복합명사를 주제어로 추출할 수 있는데, 이때, 앵커 텍스트에 포함된 명사나 복합명사 모두를 주제어로 추출할 수도 있지만, 추출된 명사나 복합명사 중 해당 명사나 복합명사로 된 앵커 텍스트가 해당 웹페이지 또는 다른 웹페이지에 존재하지 않는 것들은 주제어에서 제외하는 것이 바람직하다.In extracting the main word from the anchor text of the web page, a noun or compound noun included in the anchor text may be extracted as the main word. In this case, all nouns or compound nouns included in the anchor text may be extracted as the main word. It is preferable to exclude from the main word that the noun or compound noun anchor text of the noun or compound noun does not exist in the web page or other web pages.

이러한 과정을 통해 추출된 주제어는 해당 주제어가 포함된 앵커 텍스트, 해 당 앵커 텍스트와 링크된 URL주소와 함께 저장된다.The extracted subject word is saved along with the anchor text containing the subject word and the URL address linked with the anchor text.

이후, 추출된 주제어의 출현횟수를 카운팅하여 그 결과를 각 주제어별로 저장하고(제130단계), 상술한 제100단계 내지 제130단계를 소정 주기마다 반복한다(제140단계). 예컨대, 소정 주기가 하루인 경우, 웹사이트 리스트로부터 소정 웹페이지를 추출하고 추출된 웹페이지로부터 주제어를 추출하며 추출된 주제어의 출현횟수를 카운팅하는 과정을 매일 반복적으로 수행하는 것이다.Thereafter, the number of occurrences of the extracted main word is counted and the result is stored for each main word (step 130), and the above-described steps 100 to 130 are repeated for each predetermined period (step 140). For example, when a predetermined period is one day, the process of extracting a predetermined web page from the website list, extracting a main word from the extracted web page, and counting the number of occurrences of the extracted main word is repeated every day.

다음으로, 추출된 주제어의 출현횟수를 소정 주기마다 비교하여 각 주제어의 출현횟수의 변화량을 판단한다(제150단계). 일 실시예에 있어서, 각 주제어의 출현횟수의 변화량은 1일, 7일, 또는 10일을 주기로 하여 판단할 수 있다.Next, the amount of change in the number of occurrences of each main word is determined by comparing the number of occurrences of the extracted main word every predetermined period (step 150). In one embodiment, the amount of change in the number of occurrences of each main word may be determined based on one day, seven days, or ten days.

판단결과, 출현횟수의 변화량이 제1 기준치 이상인 경우에는 해당 주제어를 제1 타입 주제어로 분류한다(제160단계). 출현횟수의 변화량이 제1 기준치 이상이라는 것은 이전의 출현횟수에 비해 최근 출현횟수가 증가 또는 감소한 것을 의미하는 것으로서, 출현횟수가 증가하였다는 것은 최근 많은 웹사이트들이 해당 주제어와 관련된 내용을 포함하고 있다는 것을 의미하므로, 이러한 주제어는 최신 정보를 나타내는 것으로 판단할 수 있다.As a result of the determination, when the amount of change in the appearance frequency is equal to or greater than the first reference value, the corresponding main word is classified into the first type main word (step 160). Changes in the number of occurrences above the first threshold means that the number of recent occurrences has increased or decreased compared to the number of previous occurrences. The increase in the number of appearances indicates that many websites have recently been related to the topic. As such, it can be determined that such a subject word represents the latest information.

또한, 출현횟수가 감소하였다는 것은 이전까지는 많은 웹사이트에서 다루고 있던 주제어였으나 최근 그 내용이 현격히 줄어든 것으로서, 더 이상 사람들에게 이슈가 되지 못하는 것이므로 이러한 주제어는 더 이상 최신 정보가 아닌 것으로 판단하고, 해당 주제어가 최신정보로 등록되어 있었다면 삭제하는 것이 바람직하다.In addition, the decrease in the number of occurrences was a topic that had been dealt with by many websites until recently, but its contents have been greatly reduced, and it is no longer an issue for people. If the main word is registered with the latest information, it is preferable to delete it.

한편, 제150단계에서 판단결과 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 경우에는 해당 주제어를 제2 타입 주제어로 분류한다(제170단계). 이러한 타입에 해당하는 주제어는 새로운 정보이긴 하지만, 출현횟수의 변화량이 많지 않아 사회적으로 이슈화되고 있지 않은 주제어로 판단할 수 있다.In operation 150, when the amount of change in the appearance frequency is greater than or equal to the second reference value and less than the third reference value, the corresponding main word is classified into the second type main word (step 170). Although this type of main word is new information, it can be judged as a main word that is not being socially issued due to the small amount of change in the appearance frequency.

마지막으로, 제1 타입 주제어 또는 제2 타입 주제어를 해당 주제어가 포함된 내용과 함께 각 타입별로 사용자에게 제공한다(제180단계). 구체적으로, 제1 타입으로 분류된 주제어는 제1 타입끼리 그룹핑하여 사용자에게 제공하고, 제2 타입으로 분류된 주제어는 제2 타입끼리 그룹핑하여 사용자에게 제공하는 것이다.Finally, the first type main word or the second type main word is provided to the user for each type along with the contents including the corresponding main word (step 180). Specifically, the main words classified as the first type are provided to the user by grouping the first types, and the main words classified as the second type are provided to the user by grouping the second types.

이때, 해당 주제어가 포함된 내용으로 해당 주제어를 포함하고 있는 앵커 텍스트를 제공하는 것이 바람직하다. 이를 통해 사용자는 해당 앵커 텍스트를 클릭함에 의해 해당 앵커 텍스트와 링크된 웹페이지를 열람할 수 있게 된다.In this case, it is preferable to provide anchor text including the corresponding main word as the content including the corresponding main word. This allows the user to view the web page linked with the anchor text by clicking on the anchor text.

일 실시예에 있어서, 제1 타입 또는 제2 타입 주제어를 사용자에게 제공함에 있어서, 각 주제별로 디렉토리를 생성하고 제1 타입 또는 제2 타입 주제어가 속하는 주제의 디렉토리에 제1 타입 또는 제2 타입 주제어를 나열하여 제공하거나, 검색결과를 통해서 제1 타입 또는 제2 타입 주제어를 포함하는 앵커 텍스트를 제공할 수도 있다.In one embodiment, in providing a user with a first type or a second type main word, a directory for each subject is created and a first type or second type main word is included in a directory of a subject to which the first type or second type main word belongs. May be provided by listing, or anchor text including a first type or a second type main word may be provided through a search result.

상술한 최신정보 제공 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 최신정보 제공 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.The above-described latest information providing method may also be implemented in the form of a program that can be performed using various computer means. In this case, the program for performing the latest information providing method may be a hard disk, a CD-ROM, a DVD, a ROM. Data is stored in a computer-readable recording medium, such as, RAM, or flash memory.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.Those skilled in the art to which the present invention pertains will understand that the present invention can be implemented in other specific forms without changing the technical spirit or essential features.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

도 1은 본 발명의 일 실시예에 따른 최신정보 제공 시스템의 개략적인 블록도.1 is a schematic block diagram of a system for providing up-to-date information according to an embodiment of the present invention.

도 2는 포탈 사이트의 웹사이트 디렉토리 정보를 보여주는 화면을 캡쳐한 도면.2 is a screen capture showing the website directory information of the portal site.

도 3은 주제어 저장부에 저장되는 데이터 테이블의 구조를 보여주는 도면.3 is a diagram showing the structure of a data table stored in a main control unit;

도 4는 본 발명의 일 실시예에 따른 최신정보 제공 방법의 플로우차트.4 is a flowchart of a method for providing latest information according to an embodiment of the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

10: 최신정보 제공 시스템 12: 웹페이지 추출부10: latest information providing system 12: web page extraction unit

14: 웹페이지 저장부 16: 주제어 추출부14: Web page storage unit 16: Subject extraction unit

18: 카운터 20: 주제어 저장부18: counter 20: keyword storage unit

22: 판단부 22: 정보 제공부22: judgment unit 22: information provider

Claims (18)

소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 추출하여 저장하는 단계;Extracting and storing a predetermined web page from each website included in the website list on the predetermined subject; 상기 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 단계;Extracting one or more main words from the extracted web pages; 상기 추출된 각 주제어의 출현횟수를 카운팅하는 단계;Counting the number of occurrences of each extracted main word; 상기 각 단계들을 소정 주기마다 반복함으로써 상기 각 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 제1 타입 주제어를 선정하는 단계; 및Selecting the first type main word whose variation in the number of occurrences of each main word is equal to or greater than a first reference value by repeating the steps at predetermined intervals; And 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주제어와 함께 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 최신정보 제공 방법.And providing a content including the first type main term of the web page to the user together with the first type main term. 제1항에 있어서, 상기 소정 주제에 대한 웹사이트 리스트는 웹사이트들의 디렉토리 정보로부터 추출되는 것을 특징으로 하는 최신정보 제공 방법.The method of claim 1, wherein the website list of the predetermined topic is extracted from directory information of the websites. 제1항에 있어서, 상기 소정 웹페이지는 상기 각 웹사이트의 첫 번째 웹페이지인 것을 특징으로 하는 최신정보 제공 방법.The method of claim 1, wherein the predetermined web page is a first web page of each website. 제1항에 있어서, 상기 각 주제어는 상기 각 웹페이지에 포함된 앵커 텍스트(Anchor Text)로부터 추출되는 것을 특징으로 하는 최신정보 제공 방법.The method of claim 1, wherein each of the main words is extracted from anchor text included in each web page. 제4항에 있어서, 상기 주제어 추출 단계에서, 상기 주제어가 추출된 상기 앵커 텍스트 및 상기 앵커 텍스트와 링크되어 있는 유알엘 주소(URL: Uniform Resource Locator)를 상기 추출된 주제어와 함께 저장하는 것을 특징으로 하는 최신정보 제공 방법.The method of claim 4, wherein in the extracting of the main word, the extracted anchor text and a Uniform Resource Locator (URL) linked with the anchor text are stored together with the extracted main word. How to provide the latest information. 제4항에 있어서, 상기 주제어는 상기 앵커 텍스트에 포함된 명사 또는 복합명사 중에서 추출되는 것을 특징으로 하는 최신정보 제공 방법.The method of claim 4, wherein the main word is extracted from a noun or a compound noun included in the anchor text. 제4항에 있어서, 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용으로 상기 제1 타입 주제어가 포함되어 있는 앵커 텍스트를 제공하는 것을 특징으로 하는 최신정보 제공 방법.The method of claim 4, wherein the anchor text including the first type main term is provided as the content including the first type main term in the web page. 제1항에 있어서, 상기 제1 타입 주제어를 제공하는 단계는,The method of claim 1, wherein the providing of the first type main word comprises: 각 주제별 디렉토리를 생성하는 단계; 및Creating a directory for each subject; And 상기 디렉토리 중 상기 제1 타입 주제어가 속하는 주제 영역에 상기 제1 타입 주제어를 나열함으로써 상기 제1 타입 주제어를 제공하는 단계를 더 포함하는 것을 특징으로 하는 최신정보 제공방법.And providing the first type main word by listing the first type main word in a subject area to which the first type main word belongs in the directory. 제1항에 있어서, 상기 주제어 중 상기 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 제2 타입 주제어를 선정하는 단계; 및The method of claim 1, further comprising: selecting a second type main word whose variation in the number of occurrences of the main word is greater than or equal to a second reference value and less than a third reference value; And 상기 웹페이지 중 상기 제2 타입 주제어가 포함된 내용을 상기 제2 타입 주제어와 함께 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 최신정보 제공 방법.And providing a content including the second type main word of the web page to the user together with the second type main word. 제8항에 있어서, 상기 웹페이지 중 상기 제2 타입 주제어가 포함된 내용은 상기 제2 타입 주제어가 포함되어 있는 앵커 텍스트인 것을 특징으로 하는 최신정보 제공 방법.The method of claim 8, wherein the content of the web page including the second type main word is anchor text including the second type main word. 제1항 내지 제10항 중 어느 하나의 항에 기재된 최신정보 제공 방법을 수행하기 위한 프로그램이 기록된 기록매체.  A recording medium on which a program for performing the method of providing the latest information according to any one of claims 1 to 10 is recorded. 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 소정 주기마다 추출하여 저장하는 웹페이지 추출부; A web page extraction unit for extracting and storing a predetermined web page at predetermined periods from each website included in a website list on a predetermined topic; 상기 웹페이지 추출부에 의해 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 주제어 추출부;A main word extracting unit extracting one or more main words from the web page extracted by the web page extracting unit; 상기 각 주제어의 출현횟수를 카운팅하는 카운터;A counter for counting the number of occurrences of each main word; 상기 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 주제어를 선정하여 제1 타입 주제어로 분류하는 판단부; 및A determination unit for selecting a main word having a change amount of the occurrence frequency greater than or equal to a first reference value among the main words and classifying the first type as a main word; And 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주 제어와 함께 사용자에게 제공하는 정보 제공부를 포함하는 것을 특징으로 하는 최신정보 제공 시스템.And an information providing unit which provides the user with the first type main control the contents including the first type main term in the web page. 제12항에 있어서, 상기 소정 주제에 대한 웹사이트 리스트는 웹사이트들의 디렉토리 정보로부터 추출되는 것을 특징으로 하는 최신정보 제공 시스템.The system of claim 12, wherein the website list of the predetermined subject is extracted from directory information of the websites. 제12항에 있어서, 상기 소정 웹페이지는 상기 각 웹사이트의 첫 번째 웹페이지인 것을 특징으로 하는 최신정보 제공 시스템.The system of claim 12, wherein the predetermined web page is a first web page of each web site. 제12항에 있어서, 상기 주제어 추출부는 상기 주제어를 상기 각 웹페이지에 포함된 앵커 텍스트로부터 추출하는 것을 특징으로 하는 최신정보 제공 시스템.The system of claim 12, wherein the main word extracting unit extracts the main word from anchor text included in each web page. 제15항에 있어서, 상기 주제어 추출부는 상기 추출된 주제어를 상기 주제어가 추출된 상기 앵커 텍스트 및 상기 앵커 텍스트와 링크되어 있는 유알엘 주소와 함께 저장하는 것을 특징으로 하는 최신정보 제공 시스템.The system of claim 15, wherein the main word extracting unit stores the extracted main word together with the anchor text from which the main word is extracted and a URL address linked to the anchor text. 제15항에 있어서, 상기 정보 제공부는 상기 제1 타입 주제어가 포함된 내용으로 상기 제1 타입 주제어가 포함되어 있는 앵커 텍스트를 제공하는 것을 특징으로 하는 최신정보 제공 시스템.The system of claim 15, wherein the information providing unit provides anchor text including the first type main term as content including the first type main term. 제12항에 있어서, 상기 판단부는 상기 주제어 중 상기 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 주제어를 선정하여 제2 타입 주제어로 분류하고, 상기 정보 제공부는 상기 제2 타입 주제어가 포함되어 있는 앵커 텍스트를 상기 사용자에게 제공하는 것을 특징으로 하는 최신정보 제공 시스템.The method of claim 12, wherein the determining unit selects a main word whose variation in the number of occurrences from the main word is greater than or equal to a second reference value and less than a third reference value and classifies the main word into a second type main word, and the information providing part includes the second type main word. Latest information providing system, characterized in that to provide the anchor text to the user.
KR1020070090462A 2007-09-06 2007-09-06 Method and System for Providing Newest Information KR100953491B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020070090462A KR100953491B1 (en) 2007-09-06 2007-09-06 Method and System for Providing Newest Information
JP2008218391A JP4751430B2 (en) 2007-09-06 2008-08-27 Latest information providing method and system
JP2011055193A JP5216887B2 (en) 2007-09-06 2011-03-14 How to provide the latest information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070090462A KR100953491B1 (en) 2007-09-06 2007-09-06 Method and System for Providing Newest Information

Publications (2)

Publication Number Publication Date
KR20090025536A true KR20090025536A (en) 2009-03-11
KR100953491B1 KR100953491B1 (en) 2010-04-16

Family

ID=40558928

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070090462A KR100953491B1 (en) 2007-09-06 2007-09-06 Method and System for Providing Newest Information

Country Status (2)

Country Link
JP (2) JP4751430B2 (en)
KR (1) KR100953491B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5679400B2 (en) * 2010-01-22 2015-03-04 日本電信電話株式会社 Category theme phrase extracting device, hierarchical tagging device and method, program, and computer-readable recording medium
JP5852327B2 (en) 2011-05-27 2016-02-03 デルタ工業株式会社 Seat slide lock device
JP6908308B2 (en) * 2019-08-27 2021-07-21 ククレブ・アドバイザーズ株式会社 Sales support equipment and sales support program

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07141396A (en) * 1993-11-17 1995-06-02 Hitachi Ltd Information watching system
KR19990069010A (en) * 1998-02-03 1999-09-06 김덕중 Web page access information service device and its service method
KR100621737B1 (en) * 1999-12-27 2006-09-06 학교법인 포항공과대학교 Method for auto-classifying Web Sites
KR20000071937A (en) * 2000-03-31 2000-12-05 임구영 Method for retrieving data on internet through constructing site information database
JP2001306596A (en) * 2000-04-17 2001-11-02 Sharp Corp Network information display method, recording medium stored with the method as program, and computer for executing the program
JP3606556B2 (en) * 2000-05-16 2005-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション Information organizing method, information processing apparatus, storage medium, and program transmission apparatus
JP2002092025A (en) * 2000-09-18 2002-03-29 Sanyo Electric Co Ltd Service provider server
JP2004206211A (en) * 2002-12-24 2004-07-22 Casio Comput Co Ltd Information retrieval device, information retrieval method, program and storage medium storing the program
JP2006139716A (en) * 2004-11-15 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> Method and device for extracting topical word, program, and storage medium storing the same
KR100850776B1 (en) * 2006-07-24 2008-08-06 한국과학기술정보연구원 search system of non-keyword type using tree structure and search method for the same

Also Published As

Publication number Publication date
KR100953491B1 (en) 2010-04-16
JP2011118946A (en) 2011-06-16
JP2009064435A (en) 2009-03-26
JP4751430B2 (en) 2011-08-17
JP5216887B2 (en) 2013-06-19

Similar Documents

Publication Publication Date Title
JP6887489B2 (en) Managing tasks in a content management system
US11281743B2 (en) Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
JP6854041B2 (en) Project management in a content management system
US7899829B1 (en) Intelligent bookmarks and information management system based on same
US8533199B2 (en) Intelligent bookmarks and information management system based on the same
JP5147947B2 (en) Method and system for generating search collection by query
US8347231B2 (en) Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content
CN105608117B (en) Information recommendation method and device
US8589373B2 (en) System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US20090094189A1 (en) Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content
US20070276801A1 (en) Systems and methods for constructing and using a user profile
JP5314504B2 (en) SEARCH DEVICE, SEARCH PROGRAM, AND SEARCH METHOD
US20100268776A1 (en) System and Method for Determining Information Reliability
Teevan et al. Changing how people view changes on the web
US20150106335A1 (en) Hierarchical data archiving
JP2012524331A (en) Theme-based vitality
KR100953491B1 (en) Method and System for Providing Newest Information
US20110252313A1 (en) Document information selection method and computer program product
CN110955855A (en) Information interception method, device and terminal
JP5186880B2 (en) File management system, file management method, and file management program
JP2010244187A (en) Document retrieval system and method
Meier TWikiL–the Twitter Wikipedia Link Dataset
JP2006235882A (en) Method and system for browsing informations
JP6275685B2 (en) Web page creation processing program and electronic device
JP5334214B2 (en) Organizational social map creation system and organization social map creation method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 10