KR100953491B1 - 최신정보 제공 방법 및 시스템 - Google Patents
최신정보 제공 방법 및 시스템 Download PDFInfo
- Publication number
- KR100953491B1 KR100953491B1 KR1020070090462A KR20070090462A KR100953491B1 KR 100953491 B1 KR100953491 B1 KR 100953491B1 KR 1020070090462 A KR1020070090462 A KR 1020070090462A KR 20070090462 A KR20070090462 A KR 20070090462A KR 100953491 B1 KR100953491 B1 KR 100953491B1
- Authority
- KR
- South Korea
- Prior art keywords
- main word
- web page
- main
- extracted
- type
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 150000001875 compounds Chemical class 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010411 cooking Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
특정 주제에 대해 각 웹사이트들이 제공하는 최신 정보들을 한번에 사용자에게 제공할 수 있는 본 발명의 일 실시예에 따른 최신정보 제공 방법은 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 추출하여 저장하는 단계; 상기 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 단계; 상기 각 주제어의 출현횟수를 카운팅하는 단계; 상기 각 단계들을 소정 주기마다 반복함으로써 상기 각 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 제1 타입 주제어를 선정하는 단계; 및 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주제어와 함께 사용자에게 제공하는 단계를 포함한다. 이를 통해 특정 주제에 대해 각 웹사이트들마다 별도로 제공되던 최신정보들을 한번에 제공할 수 있어 사용자의 편의성을 증대시킬 수 있다는 효과가 있다.
최신정보, 컨텐츠, 웹사이트, 유알엘
Description
본 발명은 인터넷상에서 정보를 제공하는 방법에 관한 것으로서 보다 상세하게는 인터넷상에서 각 분야별로 최신 정보를 수집하여 제공할 수 있는 최신 정보 제공 방법 및 시스템에 관한 것이다.
최근 과학기술의 발전 및 경제 수준의 향상으로 인해 초고속 인터넷과 같은 통신망의 보급과 초고속 통신망 이용자의 급격한 증가가 이루어졌고, 초고속 통신망 이용자의 급격한 증가는 통신망을 통한 신규 서비스의 개발 및 서비스 아이템의 다양화를 가능하게 하였다. 이러한 통신망을 이용한 서비스 중 가장 일반적인 서비스가 통신망을 이용한 검색 서비스라 할 수 있다.
검색 서비스란 사용자로부터 입력되는 쿼리에 대해 검색을 수행한 후 입력된 쿼리에 상응하는 검색 결과 문서(예컨대, 사용자로부터 입력된 검색 쿼리를 포함하는 웹 사이트, 기사, 또는 해당 검색 쿼리를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.
이용자들은 이러한 검색 서비스를 이용하여 최신의 정보를 제공받기를 희망 하지만, 최근에는 컨텐츠의 양 및 그 종류의 증가로 인해 검색 서비스를 제공하는 검색 사이트들이 최신의 정보를 추출하는데 많은 시간이 걸리고 있고, 따라서 사용자들이 원하는 최신 정보를 효과적으로 제공하지 못한다는 문제점이 있다.
또한, 사용자가 특정 주제에 대한 최신 정보를 얻고자 하는 경우, 이러한 검색 서비스를 이용하는 방법 이외에 특정 주제를 다루고 있는 웹사이트를 직접 방문함으로써 최신의 정보를 획득할 수도 있다. 그러나, 이러한 방법에 의하는 경에도 동일한 주제를 다루는 웹사이트들마다 서로 다른 최신 정보를 제공하는 경우가 많기 때문에, 사용자들은 특정 주제에 대한 최신의 정보를 획득하기 위해서는 특정 주제를 다루고 있는 모든 웹사이트를 방문하여야 하는 불편함이 있었다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 특정 주제에 대해 각 웹사이트들이 제공하는 최신 정보들을 한번에 사용자에게 제공할 수 있는 최신정보 제공 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.
또한, 본 발명은 각 분야별 웹사이트들로부터 추출된 최신정보를 출현횟수의 변화량의 차이에 따라 하나 이상의 타입으로 분류하여 사용자에게 제공할 수 있는 최신정보 제공 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.
또한, 본 발명은 각 분야별 웹사이트들로부터 최신 정보를 일정한 주기마다 추출함으로써 사용자에게 제공되는 최신 정보의 업데이트 주기를 단축시킬 수 있는 최신정보 제공 방법 및 시스템을 제공하는 것을 또 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 최신정보 제공 방법은 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 추출하여 저장하는 단계; 상기 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 단계; 상기 각 주제어의 출현횟수를 카운팅하는 단계; 상기 각 단계들을 소정 주기마다 반복함으로써 상기 각 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 제1 타입 주제어를 선정하는 단계; 및 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주제어와 함께 사용자에게 제공하는 단계를 포함한다. 이때, 상기 소정 주제에 대한 웹사이트 리스트는 웹사이트들의 디렉토리 정보로부터 추출된다.
한편, 상술한 최신정보 제공 방법은 상기 주제어 중 상기 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 제2 타입 주제어를 선정하는 단계; 및 상기 웹페이지 중 상기 제2 타입 주제어가 포함된 내용을 상기 제2 타입 주제어와 함께 사용자에게 제공하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 소정 웹페이지는 상기 각 웹사이트의 첫 번째 웹페이지이고, 상기 각 주제어는 상기 각 웹페이지에 포함된 앵커 텍스트(Anchor Text)로부터 추출된다. 이러한 실시예에 의하는 경우, 상기 주제어 추출단계에서, 상기 주제어가 추출된 상기 앵커 텍스트 및 상기 앵커 텍스트와 링크되어 있는 유알엘 주소(URL: Uniform Resource Locator)를 상기 추출된 주제어와 함께 저장하고, 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용으로는 상기 제1 타입 주제어가 포함되어 있는 앵커 텍스트를 제공한다.
한편, 상기 제1 타입 주제어를 제공하는 단계는, 각 주제별 디렉토리를 생성하는 단계; 및 상기 디렉토리 중 상기 제1 타입 주제어가 속하는 주제 영역에 상기 제1 타입 주제어를 나열함으로써 상기 제1 타입 주제어를 제공하는 단계를 더 포함한다.
상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 최신정보 제공 시스템은 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 소정 주기마다 추출하여 저장하는 웹페이지 추출부; 상기 웹페이지 추출부에 의해 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 주제어 추출 부; 상기 각 주제어의 출현횟수를 카운팅하는 카운터; 상기 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 주제어를 선정하여 제1 타입 주제어로 분류하는 판단부; 및 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주제어와 함께 사용자에게 제공하는 정보 제공부를 포함한다.
상술한 바와 같이 본 발명에 따르면, 특정 주제에 대해 각 웹사이트들마다 별도로 제공되던 최신정보들을 한번에 제공할 수 있어 사용자의 편의성을 증대시킬 수 있다는 효과가 있다.
또한, 본 발명에 따르면, 각 분야별 웹사이트들로부터 추출된 최신정보를 그 출현횟수의 변화량의 차이에 따라 하나 이상의 타입으로 분류하여 제공할 수 있어 사용자들의 다양한 요구에 능동적으로 대처할 수 있다는 효과가 있다.
또한, 본 발명에 따르면 각 분야별 웹사이트들로부터 최신 정보를 일정한 주기마다 추출하여 사용자에게 제공함으로써 사용자에게 제공되는 최신 정보의 업데이트 주기를 단축시킬 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 최신정보 제공 시스템의 개략적인 블록도이다.
도 1에 도시된 바와 같이 본 발명의 일 실시예에 따른 최신정보 제공 시스템(10)은 웹페이지 추출부(12), 웹페이지 저장부(14), 주제어 추출부(16), 카운 터(18), 주제어 저장부(20), 판단부(22), 및 정보 제공부(24)를 포함한다.
웹페이지 추출부(12)는 각 주제별 웹사이트 리스트에 포함된 각각의 웹사이트들로부터 소정 웹페이지를 추출한다. 이때 각 주제별 웹사이트 리스트는 각종 포탈 사이트가 제공하고 있는 디렉토리 정보로부터 추출될 수 있다. 예컨대, 도 2a에 도시된 바와 같이 디렉토리 정보로부터 도 2b에 도시된 바와 같은 웹사이트 리스트를 추출하는 것이다. 여기서, 도 2b는 '영화'라는 주제에 대한 웹사이트 리스트를 보여준다.
일 실시예에 있어서, 웹페이지 추출부(12)는 각 주제별 웹사이트 리스트에 포함된 각각의 웹사이트의 첫 번째 페이지를 추출한다. 이는, 각 웹사이트의 첫 번째 페이지에 신규정보나 컨텐츠의 업데이트 정보가 포함되어 있는 경우가 많기 때문이다. 변형된 실시예에 있어서는 웹사이트의 첫 번째 웹페이지뿐만 아니라 신규정보를 제공하는 웹페이지를 추출할 수도 있을 것이다.
웹페이지 추출부(12)는 웹사이트로부터 상술한 웹페이지를 소정 주기 단위로 추출하는 데, 이때 소정 주기는 하루로 설정하는 것이 바람직하다.
웹페이지 저장부(14)는 웹페이지 추출부(12)에 의해 추출된 웹페이지들이 각 분야별로 저장된다. 웹페이지 저장부(14)에 저장되어 있는 웹페이지들의 경우 카운터(18)에 의해 웹페이지에 포함된 주제어가 카운팅된 이후에는 저장공간을 효율적으로 사용하기 위해 삭제하여도 무방할 것이다.
주제어 추출부(16)는 웹페이지 추출부(12)에 의해 추출된 웹페이지로부터 하나 이상의 주제어를 추출한다. 일 실시예에 있어서, 주제어 추출부(16)는 각 웹페 이지에 포함된 앵커 텍스트(Anchor Text)로부터 주제어를 추출한다. 앵커 텍스트란 특정 웹페이지에서 클릭이 가능한 부분을 의미하는 것으로서, 이러한 앵커 텍스트는 링크된 문서의 제목 등과 같이 링크된 문서를 대표하는 단어로 이루어진다. 주제어 추출부(16)는 각 웹페이지에 포함된 모든 앵커 텍스트로부터 각각의 주제어를 추출하게 된다.
일 실시예에 있어서 주제어 추출부(16)는 웹페이지의 앵커 텍스트로부터 주제어를 추출함에 있어서 앵커 텍스트에 포함된 명사 또는 복합명사를 주제어로 추출하게 된다. 이때, 앵커 텍스트에 포함된 모든 명사나 복합명사가 주제어로 추출될 수도 있지만, 추출된 명사나 복합명사만으로 된 앵커 텍스트가 해당 웹페이지 또는 다른 웹페이지에 존재하지 않는 것들은 주제어에서 제외할 수도 있다.
예컨대, 영화에 관련된 웹페이지 중에서 "화려한 휴가 어떻게 보셨나요?"라는 앵커 텍스트가 존재하는 경우 이러한 앵커 텍스트로부터 "화려한 휴가"라는 복합 명사를 주제어로 추출하게 되는 것이다. 또 다른 예로, "화려한 휴가를 보고 나서 묘골이 송연해지는 듯한…"이라는 앵커 텍스트가 존재하는 경우 이러한 앵커 텍스트로부터 "화려한 휴가", "묘골", "송연" 등의 명사 또는 복합명사가 추출되고, 해당 웹페이지 또는 다른 웹페이지에서 "화려한 휴가"라는 단어로 된 앵커 텍스트는 존재하지만 "묘골"과 "송연"이라는 단어로 된 앵커 텍스트는 존재하지 않는 경우에는 "화려한 휴가"를 해당 앵커 텍스트의 주제어로 추출하게 되는 것이다.
한편, 이미지로 되어 있는 링크와 같이 앵커 텍스트가 존재하지 않는 링크의 경우에는 해당 웹페이지의 제목으로부터 주제어를 추출할 수 있다. 이때 해당 웹 페이지의 제목은 해당 웹페이지 자체를 다운로드 함으로써 획득할 수 있을 것이다.
카운터(18)는 주제어 추출부(16)에 의해 추출된 주제어들의 출현 횟수를 카운팅하여 주제어 저장부(20)에 각 주제어 별로 저장한다. 일 실시예에 있어서, 카운터(18)는 특정 주제에 대해 추출된 각각의 웹페이지로부터 추출된 주제어들의 출현 횟수를 웹페이지가 추출되는 주기에 맞추어서 카운팅하여 그 결과를 주제어 저장부(18)에 저장할 수 있다.
예컨대, 웹사이트 리스트로부터 하루 단위로 웹페이지를 추출하는 것으로 설정되어 있고 웹사이트 리스트의 주제가 영화인 경우, 2007년 8월1일에 "영화"라는 주제에 대해 추출된 웹페이지의 각 주제어들의 출현횟수를 카운팅하여 각 주제어별로 저장하고, 2007년 8월 2일에 추출된 웹페이지의 각 주제어들의 출현횟수를 카운팅하여 각 주제어 별로 저장하는 것이다.
주제어 저장부(20)는 주제어 추출부(16)에 의해 추출된 주제어를 카운터(18)에 의해 산출된 각 주제어의 출현횟수 및 해당 주제어가 포함되어 있는 앵커 텍스트와 함께 저장한다. 일 실시예에 있어서, 주제어 저장부(20)는 추출된 주제어를 저장함에 있어서 추출된 주제어가 포함된 앵커 텍스트에 매핑되어 있는 유알엘(URL: Uniform Resource Locator)주소를 해당 주제어와 함께 저장할 수 있다.
상술한 데이터들이 주제어 저장부(20)에 저장되는 형식을 도 3을 참조하여 설명한다. 도시된 바와 같이 상술한 데이터들은 테이블 형태로 주제어 저장부(20)에 기록되는데, 주제어 필드(26)에는 각 웹페이지로부터 추출된 주제어들이 저장되고, 앵커 텍스트 필드(28)에는 해당 주제어가 포함되어 있는 앵커 텍스트가 저장되 며, URL 필드(30)에는 해당 앵커 텍스트와 링크되어 있는 URL주소가 저장된다. 또한, 카운팅 날짜 필드(32)에는 해당 주제어가 카운팅된 날짜가 저장되며, 출현횟수 필드(34)에는 추출된 주제어의 출현횟수가 저장된다.
다시 도 1을 참조하면, 판단부(22)는 주제어 추출부(16)에 의해 추출된 주제어의 출현횟수를 소정 주기마다 비교하여 각 주제어의 출현횟수의 변화량을 판단하고 출현횟수의 변화량을 이용하여 해당 주제어들을 제1 타입 주제어 또는 제2 타입 주제어로 분류한다. 구체적으로 판단부(22)는 주제어의 출현횟수의 변화량이 제1 기준치 이상인 경우 해당 주제어를 제1 타입 주제어로 분류한다.
여기서, 출현횟수의 변화량이 제1 기준치 이상이라는 것은 이전의 출현횟수에 비해 최근 출현횟수가 증가 또는 감소한 것을 의미하는 것으로서, 출현횟수가 증가하였다는 것은 최근 많은 웹사이트들이 해당 주제어와 관련된 내용을 포함하고 있다는 것을 의미하므로, 이러한 주제어는 최신 정보를 나타내는 것으로 판단할 수 있는 것이다. 예컨대, 영화가 개봉하게 되는 경우 개봉 이전에 해당 영화에 대한 평론이나 주연 배우 등의 인터뷰 등으로 인하여 이전에는 출현되지 않았던 해당 영화와 관련된 주제어가 많은 웹사이트에 포함되게 되는 것이다.
또한, 출현횟수가 감소하였다는 것은 이전까지는 많은 웹사이트에서 다루고 있던 주제어였으나 최근 그 내용이 현격히 줄어든 것을 의미하는 것으로서, 더 이상 사람들에게 이슈가 되지 못하는 주제어인 것으로 판단함으로써, 이러한 주제어가 최신정보로 등록되어 있었다면 해당 주제어들을 삭제할 수 있게 된다.
한편, 출현횟수가 많긴 하지만 모든 웹페이지에 항상 공통적으로 포함되어 메뉴 등과 같은 주제어들의 경우 이전에 비해 출현횟수의 변화량이 거의 없기 때문에 상술한 과정을 통해 최신 정보로부터 제외될 수 있다. 예컨대, 영화 관련 웹사이트에서 "예매"라는 주제어는 항상 웹사이트에 포함되어 있는 주제어이므로 그 출현회수가 많을 수는 있지만 출현횟수의 변화량이 제1 기준치 미만이므로 최신정보에서 배제되는 것이다.
한편, 판단부(22)는 주제어의 출현횟수의 변화량이 제2 기준치 이상이면서 제3 기준치 미만인 경우 해당 주제어를 제2 타입 주제어로 분류한다. 구체적으로, 최신정보이긴 하지만 그 출현횟수의 변화량이 많지 않은 주제어를 제2 타입 주제어로 분류하는 것이다. 즉, 제2 기준치는 해당 주제어가 새로운 정보인지를 판단하는 기준이 되는 것이고, 제3 기준치는 해당 주제어가 이유성이 있는 주제인지를 판단할 수 있는 기준이 되는 것이다. 이때, 제3 기준치는 제1 기준치와 동일하게 설정될 수 있지만 제1 기준치 미만으로 설정될 수도 있다.
예컨대, 요리 관련 웹사이트에서 음식정보가 업데이트된 경우 업데이트 된 음식정보는 이전에는 출현되지 않다가 최근에 출현된 것이므로 새로운 정보이긴 하지만, 사람들에게 이슈화되지는 않으므로 그 출현횟수의 변화량이 크지 않아 제2 타입 주제어로 분류되는 것이다.
일 실시예에 있어서, 판단부(22)는 각 주제어의 출현횟수의 변화량을 1일, 7일, 또는 10일 마다 판단할 수 있다.
정보 제공부(22)는 판단부(20)에 의해 분류된 제1 타입 주제어와 제2 타입 주제어를 해당 주제어가 포함된 내용과 함께 각 타입별로 사용자에게 제공한다. 구체적으로, 제1 타입으로 분류된 주제어는 제1 타입끼리 그룹핑하여 사용자에게 제공하고, 제2 타입으로 분류된 주제어는 제2 타입끼리 그룹핑하여 사용자에게 제공하는 것이다. 이때, 정보 제공부(22)는 해당 주제어가 포함된 내용으로 해당 주제어가 포함된 앵커 텍스트를 제공하는 것이 바람직하다. 이를 통해 사용자는 해당 앵커 텍스트를 클릭함에 의해 해당 앵커 텍스트와 링크된 웹페이지를 열람할 수 있게 된다.
일 실시예에 있어서, 정보 제공부(22)는 제1 타입 또는 제2 타입 주제어를 사용자에게 제공함에 있어서, 각 주제별로 디렉토리를 생성하고 제1 타입 또는 제2 타입 주제어가 속하는 주제의 디렉토리에 해당 주제어를 나열하는 방법으로 최신정보를 제공할 수 있다. 예컨대, 제1 타입 또는 제2 타입 주제어가 영화에 관련된 것인 경우, 제1 타입 또는 제2 타입 주제어를 생성된 디렉토리 중 영화 영역에 키워드 형식으로 나열하는 것이다. 변형된 실시예에 있어서는 별도의 디렉토리를 생성하지 않고, 각 포탈 사이트에서 제공되는 디렉토리 중 해당 주제어가 속하는 영역에 제1 타입 또는 제2 타입 주제어를 포함시켜 사용자에게 제공할 수도 있을 것이다.
다른 실시예에 있어서는 검색결과를 통해서 제1 타입 또는 제2 타입 주제어를 제공할 수도 있다. 예컨대, 검색 질의어로 제1 타입 주제어가 입력되는 경우 제1 타입 주제어와 함께 저장되어 있는 앵커 텍스트를 검색결과로 사용자에게 제공하는 것이다.
상술한 최신정보 제공 시스템을 통해 사용자에게 최신정보를 제공하는 방법 을 도 4를 참조하여 구체적으로 설명한다.
먼저, 특정 주제에 대한 웹사이트 리스트에 포함된 각 웹사이트로부터 소정 웹페이지를 추출하여 저장한다(제100단계). 이때 각 주제별 웹사이트 리스트는 각종 포탈 사이트가 제공하고 있는 디렉토리 정보로부터 추출될 수 있다. 일 실시예에 있어서, 각 주제별 웹사이트 리스트에 포함된 각각의 웹사이트로부터 웹페이지를 추출함에 있어서, 각 웹사이트들의 첫 번째 페이지를 추출한다. 이는, 각 웹사이트의 첫 번째 페이지에 신규정보나 컨텐츠의 업데이트 정보가 포함되어 있는 경우가 많기 때문이다. 변형된 실시예에 있어서는 웹사이트의 첫 번째 웹페이지뿐만 아니라 신규정보를 제공하는 웹페이지를 추출할 수도 있을 것이다.
다음으로 추출된 웹페이지로부터 하나 이상의 주제어를 추출하여 저장한다(제110단계). 일 실시예에 있어서, 웹페이지로부터 주제어를 추출함에 있어서 각 웹페이지에 포함된 앵커 텍스트(Anchor Text)로부터 주제어를 추출할 수 있다. 이를 위해 먼저 각 웹페이지로부터 모든 앵커 텍스트를 추출하고, 추출된 모든 앵커 텍스트로부터 각각의 주제어를 추출한다.
웹페이지의 앵커 텍스트로부터 주제어를 추출함에 있어서 앵커 텍스트에 포함된 명사 또는 복합명사를 주제어로 추출할 수 있는데, 이때, 앵커 텍스트에 포함된 명사나 복합명사 모두를 주제어로 추출할 수도 있지만, 추출된 명사나 복합명사 중 해당 명사나 복합명사로 된 앵커 텍스트가 해당 웹페이지 또는 다른 웹페이지에 존재하지 않는 것들은 주제어에서 제외하는 것이 바람직하다.
이러한 과정을 통해 추출된 주제어는 해당 주제어가 포함된 앵커 텍스트, 해 당 앵커 텍스트와 링크된 URL주소와 함께 저장된다.
이후, 추출된 주제어의 출현횟수를 카운팅하여 그 결과를 각 주제어별로 저장하고(제130단계), 상술한 제100단계 내지 제130단계를 소정 주기마다 반복한다(제140단계). 예컨대, 소정 주기가 하루인 경우, 웹사이트 리스트로부터 소정 웹페이지를 추출하고 추출된 웹페이지로부터 주제어를 추출하며 추출된 주제어의 출현횟수를 카운팅하는 과정을 매일 반복적으로 수행하는 것이다.
다음으로, 추출된 주제어의 출현횟수를 소정 주기마다 비교하여 각 주제어의 출현횟수의 변화량을 판단한다(제150단계). 일 실시예에 있어서, 각 주제어의 출현횟수의 변화량은 1일, 7일, 또는 10일을 주기로 하여 판단할 수 있다.
판단결과, 출현횟수의 변화량이 제1 기준치 이상인 경우에는 해당 주제어를 제1 타입 주제어로 분류한다(제160단계). 출현횟수의 변화량이 제1 기준치 이상이라는 것은 이전의 출현횟수에 비해 최근 출현횟수가 증가 또는 감소한 것을 의미하는 것으로서, 출현횟수가 증가하였다는 것은 최근 많은 웹사이트들이 해당 주제어와 관련된 내용을 포함하고 있다는 것을 의미하므로, 이러한 주제어는 최신 정보를 나타내는 것으로 판단할 수 있다.
또한, 출현횟수가 감소하였다는 것은 이전까지는 많은 웹사이트에서 다루고 있던 주제어였으나 최근 그 내용이 현격히 줄어든 것으로서, 더 이상 사람들에게 이슈가 되지 못하는 것이므로 이러한 주제어는 더 이상 최신 정보가 아닌 것으로 판단하고, 해당 주제어가 최신정보로 등록되어 있었다면 삭제하는 것이 바람직하다.
한편, 제150단계에서 판단결과 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 경우에는 해당 주제어를 제2 타입 주제어로 분류한다(제170단계). 이러한 타입에 해당하는 주제어는 새로운 정보이긴 하지만, 출현횟수의 변화량이 많지 않아 사회적으로 이슈화되고 있지 않은 주제어로 판단할 수 있다.
마지막으로, 제1 타입 주제어 또는 제2 타입 주제어를 해당 주제어가 포함된 내용과 함께 각 타입별로 사용자에게 제공한다(제180단계). 구체적으로, 제1 타입으로 분류된 주제어는 제1 타입끼리 그룹핑하여 사용자에게 제공하고, 제2 타입으로 분류된 주제어는 제2 타입끼리 그룹핑하여 사용자에게 제공하는 것이다.
이때, 해당 주제어가 포함된 내용으로 해당 주제어를 포함하고 있는 앵커 텍스트를 제공하는 것이 바람직하다. 이를 통해 사용자는 해당 앵커 텍스트를 클릭함에 의해 해당 앵커 텍스트와 링크된 웹페이지를 열람할 수 있게 된다.
일 실시예에 있어서, 제1 타입 또는 제2 타입 주제어를 사용자에게 제공함에 있어서, 각 주제별로 디렉토리를 생성하고 제1 타입 또는 제2 타입 주제어가 속하는 주제의 디렉토리에 제1 타입 또는 제2 타입 주제어를 나열하여 제공하거나, 검색결과를 통해서 제1 타입 또는 제2 타입 주제어를 포함하는 앵커 텍스트를 제공할 수도 있다.
상술한 최신정보 제공 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 최신정보 제공 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명의 일 실시예에 따른 최신정보 제공 시스템의 개략적인 블록도.
도 2는 포탈 사이트의 웹사이트 디렉토리 정보를 보여주는 화면을 캡쳐한 도면.
도 3은 주제어 저장부에 저장되는 데이터 테이블의 구조를 보여주는 도면.
도 4는 본 발명의 일 실시예에 따른 최신정보 제공 방법의 플로우차트.
<도면의 주요부분에 대한 부호의 설명>
10: 최신정보 제공 시스템 12: 웹페이지 추출부
14: 웹페이지 저장부 16: 주제어 추출부
18: 카운터 20: 주제어 저장부
22: 판단부 22: 정보 제공부
Claims (18)
- 웹페이지 추출부, 주제어 추출부, 카운터, 판단부 및 정보 제공부를 포함하는 최신정보 제공 시스템에서의 최신정보 제공 방법에 있어서,상기 웹페이지 추출부가 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 추출하는 단계;상기 주제어 추출부가 상기 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 단계;상기 카운터가 상기 추출된 각 주제어의 출현횟수를 카운팅하는 단계;상기 판단부가 상기 각 단계들을 소정 주기마다 반복함으로써 상기 각 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 제1 타입 주제어를 선정하는 단계; 및상기 정보 제공부가 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주제어와 함께 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 최신정보 제공 방법.
- 제1항에 있어서, 상기 소정 주제에 대한 웹사이트 리스트는 웹사이트들의 디렉토리 정보로부터 추출되는 것을 특징으로 하는 최신정보 제공 방법.
- 제1항에 있어서, 상기 소정 웹페이지는 상기 각 웹사이트의 첫 번째 웹페이지인 것을 특징으로 하는 최신정보 제공 방법.
- 제1항에 있어서, 상기 각 주제어는 상기 각 웹페이지에 포함된 앵커 텍스트(Anchor Text)로부터 추출되는 것을 특징으로 하는 최신정보 제공 방법.
- 제4항에 있어서,상기 주제어 추출 단계에서, 상기 주제어 추출부에 의해 상기 추출된 상기 앵커 텍스트 및 상기 앵커 텍스트와 링크되어 있는 유알엘 주소(URL: Uniform Resource Locator)를 상기 추출된 주제어와 함께 저장하는 것을 특징으로 하는 최신정보 제공 방법.
- 제4항에 있어서, 상기 주제어는 상기 앵커 텍스트에 포함된 명사 또는 복합명사 중에서 추출되는 것을 특징으로 하는 최신정보 제공 방법.
- 제4항에 있어서,상기 정보 제공부가 상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용으로 상기 제1 타입 주제어가 포함되어 있는 앵커 텍스트를 제공하는 것을 특징으로 하는 최신정보 제공 방법.
- 제1항에 있어서,상기 제1 타입 주제어를 제공하는 단계는,상기 정보 제공부가 각 주제별 디렉토리를 생성하는 단계; 및상기 정보 제공부가 상기 디렉토리 중 상기 제1 타입 주제어가 속하는 주제 영역에 상기 제1 타입 주제어를 나열함으로써 상기 제1 타입 주제어를 제공하는 단계를 더 포함하는 것을 특징으로 하는 최신정보 제공방법.
- 제1항에 있어서,상기 판단부가 상기 주제어 중 상기 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 제2 타입 주제어를 선정하는 단계; 및상기 정보 제공부가 상기 웹페이지 중 상기 제2 타입 주제어가 포함된 내용을 상기 제2 타입 주제어와 함께 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 최신정보 제공 방법.
- 제9항에 있어서,상기 웹페이지 중 상기 제2 타입 주제어가 포함된 내용은 상기 제2 타입 주제어가 포함되어 있는 앵커 텍스트인 것을 특징으로 하는 최신정보 제공 방법.
- 제1항 내지 제10항 중 어느 하나의 항에 기재된 최신정보 제공 방법을 수행하기 위한 프로그램이 기록된 기록매체.
- 소정 주제에 대한 웹사이트 리스트에 포함된 각각의 웹사이트로부터 소정 웹페이지를 소정 주기마다 추출하여 저장하는 웹페이지 추출부;상기 웹페이지 추출부에 의해 추출된 웹페이지로부터 하나 이상의 주제어를 추출하는 주제어 추출부;상기 각 주제어의 출현횟수를 카운팅하는 카운터;상기 주제어 중 상기 출현횟수의 변화량이 제1 기준치 이상인 주제어를 선정하여 제1 타입 주제어로 분류하는 판단부; 및상기 웹페이지 중 상기 제1 타입 주제어가 포함된 내용을 상기 제1 타입 주 제어와 함께 사용자에게 제공하는 정보 제공부를 포함하는 것을 특징으로 하는 최신정보 제공 시스템.
- 제12항에 있어서, 상기 소정 주제에 대한 웹사이트 리스트는 웹사이트들의 디렉토리 정보로부터 추출되는 것을 특징으로 하는 최신정보 제공 시스템.
- 제12항에 있어서, 상기 소정 웹페이지는 상기 각 웹사이트의 첫 번째 웹페이지인 것을 특징으로 하는 최신정보 제공 시스템.
- 제12항에 있어서, 상기 주제어 추출부는 상기 주제어를 상기 각 웹페이지에 포함된 앵커 텍스트로부터 추출하는 것을 특징으로 하는 최신정보 제공 시스템.
- 제15항에 있어서, 상기 주제어 추출부는 상기 추출된 주제어를 상기 주제어가 추출된 상기 앵커 텍스트 및 상기 앵커 텍스트와 링크되어 있는 유알엘 주소와 함께 저장하는 것을 특징으로 하는 최신정보 제공 시스템.
- 제15항에 있어서, 상기 정보 제공부는 상기 제1 타입 주제어가 포함된 내용으로 상기 제1 타입 주제어가 포함되어 있는 앵커 텍스트를 제공하는 것을 특징으로 하는 최신정보 제공 시스템.
- 제12항에 있어서, 상기 판단부는 상기 주제어 중 상기 출현횟수의 변화량이 제2 기준치 이상 제3 기준치 미만인 주제어를 선정하여 제2 타입 주제어로 분류하고, 상기 정보 제공부는 상기 제2 타입 주제어가 포함되어 있는 앵커 텍스트를 상기 사용자에게 제공하는 것을 특징으로 하는 최신정보 제공 시스템.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070090462A KR100953491B1 (ko) | 2007-09-06 | 2007-09-06 | 최신정보 제공 방법 및 시스템 |
JP2008218391A JP4751430B2 (ja) | 2007-09-06 | 2008-08-27 | 最新情報提供方法及びそのシステム |
JP2011055193A JP5216887B2 (ja) | 2007-09-06 | 2011-03-14 | 最新情報提供方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070090462A KR100953491B1 (ko) | 2007-09-06 | 2007-09-06 | 최신정보 제공 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090025536A KR20090025536A (ko) | 2009-03-11 |
KR100953491B1 true KR100953491B1 (ko) | 2010-04-16 |
Family
ID=40558928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070090462A KR100953491B1 (ko) | 2007-09-06 | 2007-09-06 | 최신정보 제공 방법 및 시스템 |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP4751430B2 (ko) |
KR (1) | KR100953491B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5679400B2 (ja) * | 2010-01-22 | 2015-03-04 | 日本電信電話株式会社 | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP5852327B2 (ja) | 2011-05-27 | 2016-02-03 | デルタ工業株式会社 | シートスライドロック装置 |
JP6908308B2 (ja) * | 2019-08-27 | 2021-07-21 | ククレブ・アドバイザーズ株式会社 | 営業支援装置および営業支援プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990069010A (ko) * | 1998-02-03 | 1999-09-06 | 김덕중 | 웹 페이지 접속 정보 서비스 장치 및 그 서비스 방법 |
KR20000071937A (ko) * | 2000-03-31 | 2000-12-05 | 임구영 | 사이트 정보 데이터베이스 구축을 통한 인터넷 상에서의정보 검색 방법 |
KR20010060623A (ko) * | 1999-12-27 | 2001-07-07 | 정명식 | 웹사이트 자동 분류방법 |
KR20080009433A (ko) * | 2006-07-24 | 2008-01-29 | 한국과학기술정보연구원 | 트리구조를 이용한 무 검색어 검색 시스템 및 그에 따른검색방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07141396A (ja) * | 1993-11-17 | 1995-06-02 | Hitachi Ltd | 情報ウォッチングシステム |
JP2001306596A (ja) * | 2000-04-17 | 2001-11-02 | Sharp Corp | ネットワーク情報の表示方法およびその方法をプログラムとして格納した記録媒体ならびにそのプログラムを実行するコンピュータ |
JP3606556B2 (ja) * | 2000-05-16 | 2005-01-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置 |
JP2002092025A (ja) * | 2000-09-18 | 2002-03-29 | Sanyo Electric Co Ltd | サービスプロバイダ・サーバ |
JP2004206211A (ja) * | 2002-12-24 | 2004-07-22 | Casio Comput Co Ltd | 情報検索装置、情報検索方法、プログラム及びそのプログラムを格納した記録媒体 |
JP2006139716A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
-
2007
- 2007-09-06 KR KR1020070090462A patent/KR100953491B1/ko active IP Right Grant
-
2008
- 2008-08-27 JP JP2008218391A patent/JP4751430B2/ja active Active
-
2011
- 2011-03-14 JP JP2011055193A patent/JP5216887B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990069010A (ko) * | 1998-02-03 | 1999-09-06 | 김덕중 | 웹 페이지 접속 정보 서비스 장치 및 그 서비스 방법 |
KR20010060623A (ko) * | 1999-12-27 | 2001-07-07 | 정명식 | 웹사이트 자동 분류방법 |
KR20000071937A (ko) * | 2000-03-31 | 2000-12-05 | 임구영 | 사이트 정보 데이터베이스 구축을 통한 인터넷 상에서의정보 검색 방법 |
KR20080009433A (ko) * | 2006-07-24 | 2008-01-29 | 한국과학기술정보연구원 | 트리구조를 이용한 무 검색어 검색 시스템 및 그에 따른검색방법 |
Also Published As
Publication number | Publication date |
---|---|
JP5216887B2 (ja) | 2013-06-19 |
KR20090025536A (ko) | 2009-03-11 |
JP4751430B2 (ja) | 2011-08-17 |
JP2009064435A (ja) | 2009-03-26 |
JP2011118946A (ja) | 2011-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6887489B2 (ja) | コンテンツ管理システムにおけるタスクの管理 | |
JP5147947B2 (ja) | クエリ別検索コレクション生成方法およびシステム | |
US8347231B2 (en) | Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content | |
CN105608117B (zh) | 一种信息推荐方法及装置 | |
US9300755B2 (en) | System and method for determining information reliability | |
US8589373B2 (en) | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers | |
CN101454781B (zh) | 扩展的摘录 | |
US20090094189A1 (en) | Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content | |
US20130311862A1 (en) | Intelligent bookmarks and information management system based on the same | |
CN102054003B (zh) | 网络信息推荐、建立网络资源索引的方法及系统 | |
Teevan et al. | Changing how people view changes on the web | |
US10394939B2 (en) | Resolving outdated items within curated content | |
JP2010182340A (ja) | コンテンツナビゲーションプログラム | |
JP2009026249A (ja) | 閲覧履歴編集端末及びプログラムおよびその方法 | |
KR100953491B1 (ko) | 최신정보 제공 방법 및 시스템 | |
US20110252313A1 (en) | Document information selection method and computer program product | |
CN110955855B (zh) | 一种信息拦截的方法、装置及终端 | |
JP5186880B2 (ja) | ファイル管理システム、ファイル管理方法、及び、ファイル管理プログラム | |
CN103823805B (zh) | 基于社区的相关帖推荐系统及推荐方法 | |
JP2010244187A (ja) | 文書検索システムおよび方法 | |
Meier | TWikiL–the Twitter Wikipedia Link Dataset | |
US8645381B2 (en) | Document taxonomy generation from tag data using user groupings of tags | |
JP2006235882A (ja) | 複数情報の閲覧方法およびシステム | |
JP6275685B2 (ja) | Webページ作成処理プログラムおよび電子機器 | |
JP5334214B2 (ja) | 組織内ソーシャルマップ作成システム及び組織内ソーシャルマップ作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130329 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160329 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170328 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190401 Year of fee payment: 10 |