KR20090125559A - 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템 - Google Patents

시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템 Download PDF

Info

Publication number
KR20090125559A
KR20090125559A KR1020080051724A KR20080051724A KR20090125559A KR 20090125559 A KR20090125559 A KR 20090125559A KR 1020080051724 A KR1020080051724 A KR 1020080051724A KR 20080051724 A KR20080051724 A KR 20080051724A KR 20090125559 A KR20090125559 A KR 20090125559A
Authority
KR
South Korea
Prior art keywords
query
search
index
information
type
Prior art date
Application number
KR1020080051724A
Other languages
English (en)
Other versions
KR100952284B1 (ko
Inventor
양미승
최재호
김광현
김형기
한미나
이상호
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080051724A priority Critical patent/KR100952284B1/ko
Publication of KR20090125559A publication Critical patent/KR20090125559A/ko
Application granted granted Critical
Publication of KR100952284B1 publication Critical patent/KR100952284B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자에 의해 입력되는 검색 질의어가 시의성 질의어인지 여부를 결정할 수 있는 본 발명의 일 측면에 따른 시의성 질의어를 이용한 검색 서비스 제공 방법은 시의성 질의어들이 저장된 시의성 질의어 데이터베이스를 유지하는 단계; 사용자로부터 입력된 검색 질의어가 상기 시의성 질의어 데이터베이스에 저장된 시의성 질의어에 해당하는지 여부를 판단하는 단계; 및 상기 입력된 검색 질의어에 대한 검색결과를 생성하되, 상기 입력된 검색 질의어가 시의성 질의어에 해당하는 것으로 판단되는 경우, 검색 결과 문서들의 최신성(Recency)에 제1 가중치를 부여하여 각 검색 결과 문서들의 적합도(Relevance)를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 단계를 포함한다.
검색, 시의성, 질의어, 최신, 시기

Description

시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템{Method and System for Providing Search Service Using Timeliness Query}
본 발명은 인터넷 검색에 관한 것으로서 보다 상세하게는 시의성 질의어를 이용하여 검색 서비스를 제공하는 방법에 관한 것이다.
인터넷의 발달 및 보급의 증가로 인해 인터넷을 이용한 다양한 서비스가 제공되고 있는데, 그 중 대표적인 예가 검색 서비스라 할 수 있다. 이러한 검색 서비스는 사용자가 검색하고자 하는 단어 또는 단어의 조합을 질의어로 입력하면, 검색 엔진이 입력된 질의어에 상응하는 검색결과 문서(예컨대, 사용자로부터 입력된 검색 질의어를 포함하는 웹 사이트, 기사, 또는 해당 검색 질의어를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공하는 서비스를 의미한다.
일반적인 검색 서비스의 경우 사용자에 의해 입력된 검색 질의어에 대한 검색 결과를 제공함에 있어서, 검색 결과 내에서 사용자들에 의한 선택횟수가 높거나 양질인 검색 결과 문서를 검색 결과의 상단에 배치하는 것이 일반적이다.
그러나, 일괄적으로 사용자에 의한 선택 횟수가 높거나 양질인 검색 결과 문서를 검색 결과 내에서 상단에 배치하게 되는 경우, 사용자가 시기와 관련된 질의 어를 입력하였을 때 사용자가 의도하지 않았던 검색 결과 문서들이 상단에 배치될 수 있다는 문제점이 있다.
예컨대, 도 1a에 도시된 바와 같이, 사용자가 2008년 3월의 로또 복권 당첨 번호를 알기 위해 검색창에 "로또복권당첨번호"를 입력한 경우, 검색 결과에는 2008년 3월의 로또 복권 당첨 번호가 아닌 2005년부터 2007년까지의 로또 복권 당첨 번호에 대한 검색 결과 문서가 상단에 배치됨을 알 수 있다.
이외에도, 도 1b에 도시된 바와 같이 사용자가 2007년 10월 경에 "수능접수기간"과 같은 질의어를 입력했을 때 사용자가 원하는 검색 결과는 2007년의 대학수학능력시험에 대한 내용 이었음에도 불구하고, 2004년부터 2006년 사이에 작성된 수능접수기간에 대한 검색결과 문서가 제공됨을 알 수 있다.
이는, 실제 검색 결과에는 과거에 있었던 문서들 중에 사용자가 입력한 단어가 포함되어 있으면서 다른 검색 결과 문서에 비해 양질이거나 중요도가 높은 검색 결과 문서가 상단에 배치되는 것이 일반적이기 때문이다.
따라서, 이러한 경우 사용자는 원하는 결과를 얻기 위해서 검색 결과를 최신 순으로 다시 정렬하거나, 검색 결과에 포함된 모든 검색 결과 문서들을 개별적으로 확인함으로써 원하는 정보를 얻을 수 밖에 없어 검색 서비스를 이용하는 사용자의 불편을 초래하게 되고, 이는 결국 검색 서비스의 만족도 및 신뢰도의 저하로 이어질 수 있다는 문제점이 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 사용자에 의해 입력되는 검색 질의어가 시의성 질의어인지 여부를 결정할 수 있는 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.
또한, 본 발명은 사용자에 의해 입력된 검색 질의어가 시의성 질의어인지 여부를 반영하여 검색 서비스를 제공할 수 있는 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 시의성 질의어를 이용한 검색 서비스 제공 방법은 시의성 질의어들이 저장된 시의성 질의어 데이터베이스를 유지하는 단계; 사용자로부터 입력된 검색 질의어가 상기 시의성 질의어 데이터베이스에 저장된 시의성 질의어에 해당하는지 여부를 판단하는 단계; 및 상기 입력된 검색 질의어에 대한 검색결과를 생성하되, 상기 입력된 검색 질의어가 시의성 질의어에 해당하는 것으로 판단되는 경우, 검색 결과 문서들의 최신성(Recency)에 제1 가중치를 부여하여 각 검색 결과 문서들의 적합도(Relevance)를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 단계를 포함한다.
이때, 상기 검색결과 생성 단계에서, 상기 입력된 검색 질의어가 시의성 질의어에 해당하지 않는 것으로 판단되는 경우, 상기 검색 결과 문서들의 최신성에 상기 제1 가중치보다 작은 제2 가중치를 부여하여 각 검색 결과 문서들의 적합도를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 시의성 질의어는 특정시점에 관계없이 시의성을 띄는 제1 타입 시의성 질의어, 특정 이슈로 인해 특정 시점에 시의성을 띄는 제2 타입 시의성 질의어, 및 특정 시점마다 반복적으로 시의성을 띄는 제3 타입 시의성 질의어 중 적어도 하나를 포함하는 것을 특징으로 한다.
상기 시의성 질의어가 상기 제1 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는, 후보 키워드들을 선정하는 단계; 및 상기 후보 키워드들을 분석하여 반복되는 패턴을 선별하는 단계를 포함하는 것을 특징으로 한다. 이때, 상기 후보 키워드는 로그 데이터베이스에 저장된 검색 질의어들 중에서 선정된 검색 질의어 또는 정보매체로부터 추출된 색인 키워드인 것을 특징으로 한다.
일 실시예에 있어서, 상기 후보 키워드 선정 단계에서, 상기 후보 키워드가 로그 데이터베이스에 저장된 검색 질의어들 중에서 선정된 것인 경우 상기 검색 질의어들 중에서 입력횟수 순위가 상위 N개 이내의 검색 질의어들을 상기 후보 검색 질의어로 선정한다.
한편, 상기 패턴 선별단계에서, 상기 후보 키워드들에 포함된 접두어(Prefix) 또는 접미어(Suffix) 중 소정횟수 이상 반복하여 출현되는 접두어 또는 접미어를 패턴으로 선별하고, 상기 패턴 선별 단계 이후에 상기 반복되는 패턴을 카테고리 별로 분류하는 단계를 더 포함하거나, 상기 카테고리별 분류 단계 이후에 상기 선별된 패턴을 정규 표현식(Regular Expression)을 이용하여 상기 카테고리 별로 저장하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 시의성 질의어가 상기 제2 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는, 소정 기간 동안 발생된 정보매체들로부터 추출된 색인 키워드들을 이용하여 대조군을 결정하는 단계; 상기 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나와, 특정일에 발생된 정보매체들로부터 추출된 색인 키워드들의 출현횟수의 평균값 및 출현횟수 분산값 중 적어도 하나를 계산하는 단계; 및 상기 추출된 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 이용하여 상기 특정일의 제2 타입 시의성 질의어를 결정하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 제2 타입 시의성 질의어 결정단계는, 상기 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 이용하여 기준값을 생성하는 단계; 상기 특정일에 발생된 정보매체들로부터 추출된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나와 상기 기준값을 비교하는 단계; 및 상기 특정일에 발생된 정보매체들로부터 추출된 색인 키워드들 중 그 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나가 상기 기준값 이상인 색인 키워드들을 제2 타입 시의성 질의어로 판단하는 단계를 포함하는 것을 특징으로 한다.
일 실시예에 있어서, 상기 대조군 결정단계 이전에, 상기 각 정보매체가 발생된 시간정보에 따라 상기 정보매체들을 분류하는 단계; 상기 정보매체들 중 상기 정보매체의 제목 또는 본문 내용이 중복되는 정보매체들을 필터링하는 단계; 및 상기 필터링 된 정보매체들로부터 색인 키워드를 추출하는 단계를 더 포함할 수 있 다. 상술한 실시예에 있어서, 상기 정보매체는 뉴스기사일 수 있다.
다른 실시예에 있어서, 상기 시의성 질의어가 상기 제2 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는, 정보매체로부터 색인 키워드를 추출하는 단계; 상기 추출된 색인 키워드가 포함된 정보매체의 개수를 산출하는 단계; 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 제1 임계치 이상인지 여부를 판단하는 단계; 및 판단결과, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제1 임계치 이상인 경우 상기 추출된 색인 키워드를 제2 타입 시의성 질의어로를 결정하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 제1 임계치는 상기 색인 키워드가 포함된 정보매체의 최근 N일 동안의 일평균 개수 및 최근 N일 동안의 표준편차값을 이용하여 결정되는 것을 특징으로 한다.
또한, 이때, 상기 정보매체의 개수 산출 단계 이전에, 상기 추출된 색인 키워드 중 상기 추출된 색인 키워드를 포함하는 정보매체의 과거 노출일수가 제2 임계치 이상 제3 임계치 미만인 색인 키워드를 제거하는 단계를 더 포함할 수 있다.
한편, 상기 색인 키워드가 포함된 정보매체의 개수가 제1 임계치 이상인지 여부 판단 단계 이전에, 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는지 여부를 판단하는 단계를 더 포함하고, 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는 경우, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제1 임계치 이상이면 상기 추출된 색인 키워드를 제2 시의성 질의어로 결정하는 것을 특징으로 한다.
만약, 이때 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는지 여부를 판단하는 단계에서, 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 없는 경우, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 제4 임계치 이상인지 여부를 판단하는 단계; 및 판단결과, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제4 임계치 이상인 경우 상기 추출된 색인 키워드를 제2 타입 시의성 질의어로 결정하는 단계를 포함하는 것을 특징으로 한다. 상술한 실시예에 있어서, 상기 정보매체는 뉴스기사일 수 있다.
한편, 상기 시의성 질의어가 상기 제3 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는, 로그 데이터베이스에 저장된 각 검색 질의어들의 시간구간 별 입력횟수 또는 정보매체로부터 추출된 색인 키워드들의 시간구간별 발생횟수를 산출하는 단계; 상기 각 검색 질의어들 중 그 입력횟수가 소정 주기 패턴으로 증감하는 검색 질의어들 또는 상기 색인 키워드들 중 발생횟수가 소중 주기 패턴을 증감하는 색인 키워드들을 상기 제3 타입 시의성 질의어로 결정하는 단계; 및 상기 제3 타입 시의성 질의어로 결정된 검색 질의어들의 입력횟수 증감에 대한 패턴 정보 또는 색인 키워드들의 발생횟수 증감에 대한 패턴 정보를 상기 제3 타입 시의성 질의어와 매핑시켜 저장하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 패턴 정보는 상기 제3 타입 시의성 질의어로 결정된 검색 질의어들의 입력횟수 또는 색인 키워드들의 발생횟수가 기준치 이상인 시간구간이 나타나는 시점에 대한 정보 및 상기 입력횟수 또는 발생횟수가 기준치 이상인 시간구간의 크기에 대한 정보를 포함하는 것을 특징으로 한다.
상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 시의성 질의어를 이용한 검색 서비스 제공 시스템은 시의성 질의어들이 저장되는 시의성 질의어 데이터베이스; 사용자로부터 입력된 검색 질의어가 상기 시의성 질의어 데이터베이스에 저장된 시의성 질의어에 해당하는지 여부를 판단하는 시의성 질의어 판단부; 및 상기 입력된 검색 질의어에 대한 검색을 수행하여 검색결과를 생성하되, 상기 입력된 검색 질의어가 시의성 질의어에 해당하는 것으로 판단되는 경우, 검색 결과 문서들의 최신성(Recency)에 제1 가중치를 부여하여 각 검색 결과 문서들의 적합도(Relevance)를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 검색부를 포함한다.
상술한 바와 같이 본 발명에 따르면, 사용자들에 의해 입력되는 검색 질의어 또는 뉴스기사로부터 추출되는 색인 키워드를 이용하여 시의성 질의어들을 보다 정확하고 용이하게 결정할 수 있다는 효과가 있다.
또한, 본 발명에 따르면, 사용자로부터 시의성 질의어가 입력되는 경우 검색 결과 문서들의 최신성에 가중치를 적용하여 검색결과를 생성하기 때문에, 사용자가 검색 결과를 다시 최신 순으로 정렬하거나, 검색 결과에 포함된 모든 검색 결과 문서들을 개별적으로 확인할 필요가 없어 사용자의 편의성을 증대시킴은 물론, 이로 인해 검색 서비스의 만족도 및 신뢰도를 향상시킬 수 있다는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 검색 서비스 제공 시스템의 개략적인 블록도이다. 도시된 바와 같이, 검색 서비스 제공 시스템(100)은 시의성 질의어 데이터베이스(110), 제1 타입 시의성 질의어 결정부(120), 제2 타입 시의성 질의어 결정부(130), 제3 타입 시의성 질의어 결정부(140), 시의성 질의어 판단부(150), 및 검색부(160)를 포함한다.
시의성 질의어 데이터베이스(110)에는 각 타입 별 시의성 질의어들이 저장되는 것으로서, 여기서, 시의성(時宜性, Timeliness)이라 함은 때의 사정에 맞거나 시기에 적합한 성질을 나타내는 단어로써 시의성 질의어라 함은 시의성을 띄는 질의어를 의미한다.
이러한 시의성 질의어에는 특정시점에 관계없이 시의성을 띄는 제1 타입 시의성 질의어, 특정 이슈로 인해 특정시점에 한해 시의성을 띄는 제2 타입 시의성 질의어, 및 특정시점마다 반복적으로 시의성을 띄는 제3 타입 시의성 질의어 중 적어도 하나가 포함될 수 있다. 이하에서는, 각 타입 별 시의성 질의어를 결정하는 것에 관해 구체적으로 기술하기로 한다.
먼저, 제1 타입 시의성 질의어 결정부(120)는 특정시점에 관계없이 시의성을 띄는 단어들을 제1 타입 시의성 질의어로 결정하고, 결정된 제1 타입 시의성 질의어를 시의성 질의어 데이터베이스(110)에 저장하는 것으로서, 도 3에 도시된 바와 같이 후보 검색 질의어 선정부(122), 검색 질의어 분석부(124), 및 패턴 분류부(126)를 포함한다.
후보 검색 질의어 선정부(122)는 로그 데이터베이스(미도시)에 저장된 검색 질의어들 중에서 후보 검색 질의어들을 선정한다. 일 실시예에 있어서 후보 검색 질의어 선정부(122)는 선호도 테스트(Preference Test)와 같은 사용자 피드백을 이용하여 후보 검색 질의어를 선정하거나, 사용자들에 의해 입력된 횟수가 많은 검색 질의어, 즉 인기 질의어들 중 상위 N개의 검색 질의어들을 후보 검색 질의어들로 선정할 수 있다.
검색 질의어 분석부(124)는 후보 검색 질의어 선정부(122)에 의해 선정된 후보 검색 질의어들을 분석하여 후보 검색 질의어들에 반복적으로 포함되어 있는 패턴을 선별한다.
일 실시예에 있어서, 검색 질의어 분석부(124)는 형태소 분석 등과 같은 분석 기법을 통해 추출된 각 후보 검색 질의어들의 접두어(Prefix) 또는 접미어(Suffix)들 중 반복적으로 출현되는 접두어 또는 접미어를 제1 타입 시의성 질의어 패턴으로 선별한다. 예컨대, "~회 또는 ~화", "최신~ 또는 최근~", "~순위 또는 ~랭킹", "~시세", "~로또 또는 ~당첨번호"등과 같은 접두어 또는 접미어를 제1 타입 시의성 질의어 패턴으로 선별할 수 있다.
패턴 분류부(126)는 검색 질의어 분석부(124)에 의해 선별된 제1 타입 시의성 질의어 패턴들을 각 카테고리 별로 분류하여 저장한다. 일 실시예에 있어서, 제1 타입 시의성 질의어 패턴을 엔터테인먼트, 시기, 리스트, 시세, 또는 생활정보와 같은 카테고리로 분류할 수 있다. 패턴 분류부(126)가 제1 타입 시의성 질의어 패턴들을 각 카테고리 별로 분류한 예가 도 4에 도시되어 있다.
일 실시예에 있어서, 패턴 분류부(126)는 제1 타입 시의성 질의어 패턴을 카 테고리 별로 분류하여 저장함에 있어서, 제1 타입 시의성 질의어 패턴을 정규 표현식(Regular Expression)을 이용하여 표현할 수 있다. 예컨대, 제1 시의성 질의어 패턴이 “∼회”인경우, “*.회”와 같은 형태로 저장하고, 제1 시의성 질의어 패턴이 “최신∼”인경우, “최신.*”와 같은 형태로 저장하는 것이다.
이와 같이, 제1 타입 시의성 질의어 패턴을 정규 표현식을 이용하여 저장함으로써 시의성 질의어 패턴을 포함하는 모든 질의어를 저장하지 않아도 되므로, 시의성 질의어 데이터베이스(110)의 크기를 감소시킬 수 있게 된다.
상술한 실시예에 있어서, 제1 타입 시의성 질의어를 로그 데이터베이스에 저장된 검색 질의어들을 이용하여 결정하는 것으로 기재하였지만, 변형된 실시예에 있어서, 제1 타입 시의성 질의어를 로그 데이터베이스에 저장된 검색 질의어가 아닌 뉴스기사 또는 블로그 등과 같은 정보매체로부터 추출된 색인 키워드들을 이용하여 결정할 수도 있을 것이다.
이러한 경우, 후보 검색 질의어 선정부(122)는 로그 데이터베이스에 저장된 검색 질의어로부터 후보 검색 질의어를 선정하는 것이 아니라 정보매체로부터 색인 키워드들을 추출함으로써 후보 색인 키워드를 선정하고, 검색 질의어 분석부(124)는 선정된 후보 색인 키워드를 분석하여 색인 키워드에 포함되어 있는 반복적인 패턴을 선별하게 될 것이다.
다시 도 2를 참조하면, 제2 타입 시의성 질의어 결정부(130)는 특정 이슈로 인해 특정시점에 한해 시의성을 띄는 단어들을 제2 타입 시의성 질의어로 결정하고, 결정된 제2 타입 시의성 질의어를 시의성 질의어 데이터베이스(110)에 저장한 다.
본 발명의 제1 실시예에 따른 제2 타입 시의성 질의어 결정부(130)는 뉴스기사들로부터 추출되는 이슈들을 이용하여 제2 타입 시의성 질의어를 결정할 수 있다. 이를 위해 제1 실시예에 따른 제2 타입 시의성 질의어 결정부(130)는, 도 5a에 도시된 바와 같이 전처리부(131), 색인 키워드 추출부(132), 대조군 결정부(134), 연산부(136), 및 판단부(138)를 포함한다.
먼저, 전처리부(131)는 뉴스 서버(미도시) 또는 외부 서버(미도시)로부터 뉴스기사들을 수신하고, 수신된 뉴스기사들을 뉴스기사가 발생된 시간정보에 따라 분류한다. 또한, 전처리부(131)는 URL(Uniform Resource Locator)은 상이하지만 그 제목 또는 본문 내용이 다른 뉴스기사와 동일한 뉴스기사들은 중복되는 뉴스기사이므로 필터링할 수 있다.
색인 키워드 추출부(132)는 전처리부(131)에 의해 수신된 뉴스기사들로부터 색인 키워드들을 추출한다. 이때, 색인어 추출기를 이용해서 뉴스기사로부터 색인 키워드들을 추출할 수 있다. 이후, 색인 키워드 추출부(132)는 해당 색인 키워드가 포함된 뉴스기사의 발생 시간 정보 등과 매핑되어 색인 키워드 저장부(미도시)에 저장한다.
대조군 결정부(134)는 소정 기간 동안 발생된 뉴스기사들로부터 추출된 색인 키워드들을 이용하여 대조군을 결정한다. 일 실시예에 있어서, 대조군 결정부(134)는 시의성 질의어 결정일로부터 최근 N일 동안 발생된 뉴스기사들로부터 추출된 모든 색인 키워드들을 대조군으로 결정할 수 있다. 이와 같이, 시의성 질의 어 결정일로부터 최근 N일 동안 발생된 뉴스기사들로부터 추출된 색인 키워드들을 대조군으로 결정하기 때문에, 시의성 질의어 결정일이 변경될 때마다 대조군도 적응적으로 변경되므로 시의성 질의어 결정에 최신의 이슈를 반영할 수 있게 된다.
연산부(136)는 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나와 시의성 질의어 결정일에 수신된 뉴스기사로부터 추출된 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 계산한다.
또한, 연산부(136)는 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 분산값 중 적어도 하나를 이용하여 제2 타입 시의성 질의어 결정을 위한 기준값을 생성한다. 일 실시예에 있어서, 연산부(136)는 평균값 또는 분산값 중 어느 하나를 기준값으로 생성할 수 있지만, 평균값 및 분산값 모두를 이용하여 기준값을 생성할 수도 있다.
판단부(138)는 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 분산값 중 적어도 하나와 시의성 질의어 결정일에 발생된 뉴스기사로부터 추출된 색인 키워드들의 출현횟수 평균값 및 분산값 중 적어도 하나를 서로 비교함으로써 제2 타입 시의성 질의어를 결정할 수 있다.
일 실시예에 있어서, 판단부(138)는 연산부(136)에 의해 생성된 기준값과 시의성 질의어 결정일에 발생된 뉴스기사로부터 추출된 색인 키워드들의 출현횟수 평균값 및 분산값을 비교하여, 출현횟수 평균값 및 분산값 중 적어도 하나가 기준값 이상인 색인 키워드들을 제2 타입 시의성 질의어로 결정한다.
판단부(138)에 의해 2008년 2월 25일에 결정된 제2 타입 시의성 질의어의 예가 도 6에 도시되어 있다. 2008년 2월 25일에는 제17대 대통령 취임식과 제80회 아카데미 시상식이 있었던 날이었으므로, 도 6에 도시된 바와 같이 색인 키워드에는 "대통령", "이명박", "취임식"과 같은 색인 키워드나, "아카데미"등과 같은 색인 키워드가 제2 타입 시의성 질의어로 결정되었음을 알 수 있다.
판단부(138)는 이러한 과정을 통해 결정된 제2 타입 시의성 질의어를 상술한 시의성 질의어 데이터베이스(110)에 저장한다.
상술한 제1 실시예에 따른 제2 타입 시의성 질의어 결정부(130)는 뉴스기사들로부터 추출되는 이슈들을 이용하여 제2 타입 시의성 질의어를 결정하되, 시의성 질의어 결정일에 발생된 뉴스기사들로부터 추출된 색인 키워드들과 대조군에 포함된 색인 키워드들의 출현횟수의 통계값을 이용하여 제2 타입 시의성 질의어를 결정하는 것으로 기재하였지만, 변형된 실시예에 있어서는 각 색인 키워드 자체의 출현횟수 통계값이 아닌 각 색인 키워드가 포함된 뉴스기사의 개수에 대한 통계값을 이용하여 제2 타입 시의성 질의어를 결정할 수도 있을 것이다.
이하에서는 색인 키워드가 포함된 뉴스기사의 개수에 대한 통계값을 이용하여 제2 타입 시의성 질의어를 결정하는 제2 실시예에 따른 시의성 질의어 결정부(130)를 도 5b를 참조하여 구체적으로 설명한다. 제2 실시예에 따른 시의성 질의어 결정부(130)는 도 5b에 도시된 바와 같이, 전처리부(532), 색인 키워드 추출부(534), 색인 키워드 필터링부(536), 판단부(538)를 포함한다.
먼저, 전처리부(532)는 뉴스 서버 또는 외부 서버로부터 뉴스기사들을 수신 하고, 수신된 뉴스기사들을 뉴스기사가 발생된 시간정보에 따라 분류한다. 또한, 전처리부(532)는 URL은 상이하지만 그 제목 또는 본문 내용이 다른 뉴스기사와 동일한 뉴스기사들은 중복되는 뉴스기사이므로 이를 뉴스기사 목록으로부터 제거하는 필터링 작업을 수행할 수도 있다.
색인 키워드 추출부(534)는 전처리부(532)에 의해 수신된 뉴스기사들로부터 색인 키워드들을 추출한다. 이때, 색인 키워드들은 색인어 추출기를 이용해서 뉴스기사로부터 추출할 수 있다. 일 실시예에 있어서, 색인 키워드 추출부(534)는 Greedy 색인 방식을 이용하여 색인 키워드를 추출할 수 있다.
색인 키워드 필터링부(536)는 색인 키워드 추출부(534)에 의해 추출된 색인 키워드들 중에서 일부를 제거하는 작업을 수행한다. 구체적으로, 색인 키워드 필터링부(536)는, 추출된 색인 키워드들 중에서 해당 색인 키워드가 포함된 뉴스 기사의 과거 노출 일수가 제1 임계치 이상이면서 제2 임계치 미만인 색인 키워드들을 제거할 수 있다. 예컨대, 추출된 색인 키워드들 중에서 해당 색인 키워드를 포함하는 뉴스기사가 과거에 1일 이상이면서 3일 미만인 색인 키워드를 제거할 수 있다.
이후, 색인 키워드 필터링부(536)는 필터링된 색인 키워드를 필터링된 색인 키워드가 포함된 뉴스기사의 발생 시간 정보 등과 매핑하여 색인 키워드 저장부(미도시)에 저장한다.
판단부(538)는 필터링된 색인 키워드들이 포함되어 있는 뉴스기사의 개수를 산출하고, 각 색인 키워드 별로 각 색인 키워드가 포함되어 있는 뉴스기사의 개수 와 해당 색인 키워드가 포함되어 있는 뉴스기사의 과거 일평균 개수를 비교하여 필터링된 색인 키워드들이 포함되어 있는 뉴스기사의 개수가 제3 임계치 이상인 경우 해당 색인 키워드를 제2 타입 시의성 질의어로 결정한다. 일 실시예에 있어서, 제3 임계치는 해당 키워드가 포함된 뉴스기사의 과거 일평균 개수와 해당 키워드가 포함된 과거 뉴스기사 개수의 표준편차값을 이용해서 결정할 수 있다.
판단부(538)는 해당 색인 키워드들이 포함된 뉴스기사의 과거 일평균 개수 및 표준편차를 산출함에 있어서, 시의성 결정일로부터 최근 N일, 예컨대 최근 30일 동안 해당 색인 키워드들이 포함된 뉴스기사의 개수를 이용하여 해당 색인 키워드들이 포함된 뉴스기사의 과거 일평균 개수 및 표준편차값을 산출할 수 있다.
한편, 판단부(538)는 필터링된 색인 키워드들이 포함되어 있는 뉴스기사의 개수와 해당 색인 키워드가 포함되어 있는 뉴스기사의 과거 일평균 개수를 비교함에 있어서, 해당 색인 키워드가 포함되어 있는 뉴스기사가 과거에 한번도 노출되지 않은 경우, 즉 해당 색인 키워드가 시의성 질의어 결정일에 처음 출현된 색인 키워드인 경우, 시의성 질의어 결정일에 해당 색인 키워드가 포함된 뉴스기사가 노출된 횟수가 제4 임계치 이상인 경우 해당 색인 키워드를 제2 타입 시의성 질의어로 결정할 수 있다.
예컨대, 시의성 질의어 결정일에 해당 색인 키워드가 포함된 뉴스기사가 노출된 횟수가 5회 이상인 경우 해당 색인 키워드를 제2 타입 시의성 질의어로 결정할 수 있다.
상술한 실시예에 있어서는 색인 키워드를 뉴스기사로부터 추출하는 것으로 기재하였지만, 변형된 실시예에 있어서는 색인 키워드 추출 대상은 뉴스기사뿐만 아니라 소정 시간 주기, 예컨대, 일단위로 새로운 정보가 업데이트 되는 정보매체라면 그 어떤 것이든 가능할 것이다.
상술한 제1 및 제2 실시예에 따른 제2 타입 시의성 질의어 결정부(130)는 뉴스기사들로부터 추출되는 이슈들을 이용하여 제2 타입 시의성 질의어를 결정하는 것으로 기재하였다. 하지만, 제3 실시예에 따른 제2 타입 시의성 질의어 결정부(130)는 사용자들에 의해 입력된 검색 질의어들을 이용하여 제2 타입 시의성 질의어를 결정할 수도 있을 것이다.
제3 실시예의 경우 제1 실시예와 비교할 때, 사용자들에 의해 입력된 검색 질의어들을 이용하여 제2 타입 시의성 질의어를 결정한다는 내용을 제외하고서는 제1 실시예와 거의 동일하므로, 이하에서는 제1 실시예와의 차이점을 중심으로 기술하기로 한다.
먼저, 제3 실시예에 따른 제2 타입 시의성 질의어 결정부(130)는 뉴스기사로부터 추출된 색인 키워드들을 이용하여 제2 타입 시의성 질의어를 결정하는 것이 아니기 때문에, 전처리부(131) 및 색인 키워드 추출부(134)는 포함하지 않는다.
대조군 결정부(134)의 경우, 제1 실시예에 있어서는, 전처리부(131)부를 통해 수신된 뉴스기사로부터 추출된 색인 키워드들을 이용하여 대조군을 결정하였지만, 제2 실시예에 있어서는 로그 데이터베이스(미도시)로부터 사용자들에 의해 입력된 검색 질의어들을 추출함으로써 대조군을 결정하게 된다. 이때, 로그 데이터베이스로부터 추출되는 검색 질의어들은 시의성 질의어 결정일로부터 최근 N일 이 내의 것들이다.
연산부(136)는 대조군에 포함된 검색 질의어들의 입력횟수 평균값 및 분산값 중 적어도 하나와 시의성 질의어 결정일에 입력된 검색 질의어들의 입력횟수 평균값 및 분산값 중 적어도 하나를 계산하고, 대조군에 포함된 검색 질의어들의 입력횟수 평균값 및 분산값 중 적어도 하나를 이용하여 기준값을 생성한다. 이때, 시의성 질의어 결정일에 입력된 검색 질의어들은 로그 데이터베이스로부터 추출할 수 있다.
판단부(138)는 시의성 질의어 결정일에 입력된 검색 질의어들 중 그 입력횟수 평균값 및 분산값 중 적어도 하나가 기준값 이상인 검색 질의어들을 제2 타입 시의성 질의어로 결정하고, 결정된 제2 타입 시의성 질의어들을 시의성 질의어 데이터베이스(110)에 저장한다.
상술한 실시예에 있어서는 제2 타입 시의성 질의어 결정부(140)가 뉴스기사로부터 추출된 색인 키워드 또는 검색 질의어 중 어느 하나를 이용하여 제2 타입 시의성 질의어를 결정하는 것으로 기재하였지만, 변형된 실시예에 있어서는 뉴스기사로부터 추출된 색인 키워드 및 검색 질의어 모두를 이용하여 제2 타입 시의성 질의어를 결정할 수도 있을 것이다.
다시 도 2를 참조하면, 제3 타입 시의성 질의어 결정부(140)는 특정시점마다 반복적으로 시의성을 띄는 단어들을 제3 타입 시의성 질의어로 결정하고, 결정된 제3 타입 시의성 질의어를 시의성 질의어 데이터베이스(110)에 저장한다. 이를 위해 제3 타입 시의성 질의어 결정부(140)는 도 7에 도시된 바와 같이 판단부(142) 및 저장부(144)를 포함한다.
먼저, 판단부(142)는 로그 데이터베이스에 저장된 각 검색 질의어들의 소정 시간구간별 입력횟수를 산출하고, 시간구간별 입력횟수가 소정 주기 패턴으로 증감하는 검색 질의어들을 제3 타입 시의성 질의어로 결정한다. 이때, 시간구간은 검색 서비스 제공 시스템 운영자에 의해서 결정될 수 있는데, 일 실시예에 있어서 시간구간은 일별 또는 월별 단위로 결정함으로써, 각 검색 질의어들로부터 일별, 월별, 또는 계절별로 시의성을 갖는 질의어를 선별할 수 있다.
구체적으로, 판단부(142)는 로그 데이터베이스에 저장된 각 검색 질의어들의 시간구간별 입력횟수의 평균값 또는 분산값을 계산한 후, 이를 이용하여 기준값을 산출하고, 특정 검색 질의어의 입력횟수가 기준값을 상회하는 시간구간이 소정 주기로 반복적으로 나타나는 경우 해당 검색 질의어를 제3 타입 시의성 질의어로 결정하는 것이다.
예컨대, 특정 검색 질의어의 입력횟수를 나타내는 그래프가 도시된 도 8을 참조하면, 특정 검색 질의어의 입력횟수가 기준값을 상회하는 시간구간(800)이 대략 12개월 주기로 반복적으로 나타나고 있음을 알 수 있다. 따라서, 판단부(142)는 이러한 패턴을 나타내는 특정 검색 질의어를 제3 타입 검색 질의어로 결정하는 것이다.
저장부(144)는 판단부(142)에 의해 제3 타입 시의성 질의어로 결정된 검색 질의어들의 입력횟수 증감에 대한 패턴 정보를 제3 타입 시의성 질의어와 매핑시켜 상술한 시의성 질의어 데이터베이스(110)에 저장한다. 일 실시예에 있어서, 입력 횟수 증감에 대한 패턴 정보는 제3 타입 시의성 질의어로 결정된 검색 질의어의 입력횟수가 기준값을 상회하는 시간구간이 나타나는 시기 및 해당 시간구간의 크기에 대한 정보를 포함한다.
예컨대, 도 8을 참조하면, 저장부(144)는 제3 타입 시의성 질의어로 결정된 검색 질의어와 함께 패턴 정보로써 입력횟수가 기준값을 상회하는 시간구간(800)이 나타나는 시기(810)를 나타내는 9월이라는 정보와, 해당 시간구간의 크기(820)를 나타내는 4개월이라는 정보를 시의성 질의어 데이터베이스(110)에 저장하는 것이다.
상술한 실시예에 있어서, 제3 타입 시의성 질의어를 로그 데이터베이스에 저장된 검색 질의어들을 이용하여 결정하는 것으로 기재하였지만, 변형된 실시예에 있어서, 제3 타입 시의성 질의어를 로그 데이터베이스에 저장된 검색 질의어가 아닌 뉴스기사 또는 블로그 등과 같은 정보매체로부터 추출된 색인 키워드들을 이용하여 결정할 수도 있을 것이다.
이러한 경우, 판단부(142)는 로그 데이터베이스에 저장된 검색 질의어들의 소정 시간구간별 입력횟수를 산출하는 것이 아니라 정보매체로부터 추출된 색인 키워드들의 소정 시간구간별 발생 횟수를 산출함으로써, 시간구간별 발생횟수가 소정 주기 패턴으로 증감하는 색인 키워드들을 제3 타입 시의성 질의어로 결정하고, 저장부(144)는 색인 키워드들의 발생횟수 증감에 대한 패턴 정보를 제3 타입 시의성 질의어와 매핑시켜 상술한 시의성 질의어 데이터베이스(110)에 저장한다.
상술한 바와 같이, 본 발명의 일 실시예에 따른 검색 서비스 제공 시스 템(100)은 제1 타입 내지 제3 타입 시의성 질의어 결정부(120 내지 140)을 통해 특정 시점에 관계없이 항상 시의성을 띄는 제1 타입 시의성 질의어, 특정 이슈로 인해 특정 시점에 한해 시의성을 띄는 제2 타입 시의성 질의어, 및 특정시점마다 반복적으로 시의성을 띄는 제3 타입 시의성 질의어를 결정하고, 각 타입 별 시의성 질의어를 저장함으로써 시의성 질의어 데이터베이스(110)를 구축함으로써, 사용자로부터 시의성 질의어가 입력되는 경우 시의성이 반영된 검색결과를 제공할 수 있게 된다.
다시 도 2를 참조하면, 시의성 질의어 판단부(150)는 사용자로부터 검색 질의어를 입력받고, 입력된 검색 질의어가 시의성 질의어인지 여부를 판단한다. 구체적으로, 시의성 질의어 판단부(150)는 사용자로부터 검색 질의어가 입력되면, 입력된 검색 질의어가 시의성 질의어 데이터베이스(110)에 존재하는지 여부를 판단하여, 존재하는 경우 입력된 검색 질의어를 시의성 질의어로 결정하고, 그렇지 않은 경우 입력된 검색 질의어가 시의성 질의어가 아닌 것으로 판단한다.
검색부(160)는 사용자로부터 입력된 검색 질의어를 시의성 질의어 판단부(150)로부터 제공받고, 해당 검색 질의어에 대한 검색을 수행함으로써 검색결과를 생성한다. 검색결과를 생성함에 있어서, 검색부(160)는 입력된 검색 질의어가 시의성 질의어로 판단된 경우, 각 검색 결과 문서들의 최신성(Recency)에 제1 가중치를 부여하여 각 검색 결과 문서들의 적합도(Relevance)를 계산함으로써 입력된 검색 질의어에 대한 검색결과를 생성한다.
한편, 검색부(160)는 입력된 검색 질의어가 시의성 질의어가 아닌 것으로 판 단된 경우, 각 검색결과 문서들의 최신성에 제1 가중치보다 작은 제2 가중치를 부여하여 각 검색결과 문서들의 적합도를 계산함으로써 입력된 검색 질의어에 대한 검색결과를 생성한다.
이를 수학식으로 표현하면 아래의 수학식 1과 같다.
Figure 112008039531519-PAT00001
상술한 실시예에 있어서 검색부(160)는 입력된 검색 질의어가 시의성 질의어인지 비시의성 질의어인지 여부만을 판단하여 시의성 질의어인 경우에는 제1 가중치를 반영하고, 비시의성 질의어인 경우에는 제2 가중치를 반영하는 것으로 기재하였다.
하지만, 변형된 실시예에 있어서 시의성 질의어 판단부(150)는 입력된 검색 질의어가 시의성 질의어인 경우 어떤 타입의 시의성 질의어인지 여부를 추가로 판단하고, 그 결과를 검색부(160)로 제공함으로써 검색부(160)는 검색결과 생성시에 시의성 질의어의 타입별로 다른 가중치를 적용할 수도 있을 것이다.
예컨대, 입력된 검색 질의어가 제1 타입 시의성 질의어로 판단된 경우 최신성에 제1 가중치를 부여하고, 입력된 검색 질의어가 제2 타입 시의성 질의어로 판단된 경우 최신성에 제2 가중치를 부여하며, 입력된 검색 질의어가 제3 타입 시의성 질의어로 판단된 경우 최신성에 제3 가중치를 부여하고, 입력된 검색 질의어가 시의성 질의어가 아닌 것으로 판단된 경우 최신성에 제4 가중치를 부여하는 것이다.
이후, 검색부(160)는 생성된 검색결과를 사용자에게 제공하게 된다.
이하에서는 본 발명의 일 실시예에 따른 검색 서비스 제공 방법에 대한 플로우차트인 도 9를 참조하여 검색 서비스 제공 방법을 설명한다.
먼저, 시의성 질의어 데이터베이스를 유지한다(S900). 여기서, 시의성 질의어 데이터베이스에는 미리 결정된 제1 타입 내지 제3 타입 시의성 질의어 중 적어도 하나가 저장되어 있는데, 이하에서는 도 10 내지 도 12를 참조하여 각 타입 별 시의성 질의어를 이용한 검색 서비스 제공 방법에 대해 구체적으로 설명한다.
먼저, 도 10은 제1 타입 시의성 질의어를 결정하는 방법을 보여주는 플로우차트이다. 도시된 바와 같이, 로그 데이터베이스에 저장된 검색 질의어들 중에서 후보 검색 질의어들을 선정한다(S1000). 일 실시예에 있어서, 후보 검색 질의어들은 선호도 테스트와 같은 사용자 피드백을 이용하여 선정하거나, 사용자들에 의해 입력된 횟수가 많은 검색 질의어, 즉 인기 질의어들 중 상위 N개의 검색 질의어들로 선정할 수 있다.
이후, 선정된 후보 검색 질의어들을 분석하여 각 후보 검색 질의어들에 반복적으로 포함되어 있는 패턴을 선별한다(S1010). 구체적으로, 후보 검색 질의어들에 대해 형태소 분석 등과 같은 분석 기법을 적용함으로써 각 후보 검색 질의어들에 포함된 접두어 또는 접미어를 추출하고, 추출된 접두어 또는 접미어들 중에서 소정횟수 이상 반복적으로 출현된 접두어 또는 접미어를 패턴으로 선별하는 것이 다.
이후, 선별된 패턴을 각 카테고리 별로 분류하고(S1020), 카테고리 별로 분류된 패턴을 각 카테고리 별로 시의성 질의어 데이터베이스에 저장한다(S1030). 일 실시예에 있어서, 선별된 패턴을 저장함에 있어서, 각 패턴을 정규 표현식을 이용하여 저장할 수 있다. 즉, 각 패턴을 포함하는 모든 검색 질의어들을 저장하는 것이 아니라, 각 패턴을 “*.패턴”또는 “패턴.*”과같이 정규 표현식을 이용하여 표현한 후, 정규 표현식으로 표현된 패턴을 시의성 질의어 데이터베이스에 저장하는 것이다.
다음으로, 도 11을 참조하여 제2 타입 시의성 질의어를 결정하는 방법에 대해 설명한다. 먼저, 도 11a를 참조하면, 뉴스서버(미도시) 또는 외부서버(미도시)로부터 뉴스기사들을 수신하여(S1100), 각 뉴스기사들을 해당 뉴스기사가 발생된 시간정보에 따라 분류한다(S1110). 이후, 각 뉴스기사로부터 색인 키워드들을 추출한 후(S1120), 해당 색인 키워드가 포함된 뉴스기사의 발생 시간 정보 등과 매핑시켜 저장한다.
다음으로, 제2 타입 시의성 질의어 결정을 위한 대조군을 결정한다(S1130). 일 실시예에 있어서, 대조군은 시의성 질의어 결정일로부터 최근 N일 이전 기간 동안 발생된 뉴스기사로부터 추출된 색인 키워드들을 이용하여 결정할 수 있다.
다음으로, 대조군에 포함된 색인 키워드들의 출현횟수 평균값 및 분산값 중 적어도 하나를 산출한다(S1140). 이후, 산출된 평균값 및 분산값을 이용하여 기준값을 생성한다(S1150). 일 실시예에 있어서, 평균값 또는 분산값 중 어느 하나의 값을 기준값으로 결정할 수도 있지만, 변형된 실시예에 있어서는 평균값 또는 분산값 모두를 이용하여 기준값을 생성할 수도 있을 것이다.
다음으로, 시의성 질의어 결정일에 발생된 뉴스기사로부터 추출된 색인 키워드들의 출현횟수 평균값 및 분산값 중 적어도 하나를 산출하고(S1160), 산출된 평균값과 분산값 중 적어도 하나가 기준값 이상인 색인 키워드가 존재하는지 여부를 판단한다(S1170). 존재하는 경우 해당 색인 키워드들을 제2 타입 시의성 질의어로 결정하고(S1180), 제2 타입 시의성 질의어로 결정된 색인 키워드들을 시의성 질의어 데이터베이스에 저장한다(S1190).
상술한 실시예에 있어서는, 뉴스기사들로부터 추출되는 이슈들을 이용하여 제2 타입 시의성 질의어를 결정하되, 시의성 질의어 결정일에 발생된 뉴스기사들로부터 추출된 색인 키워드들과 대조군에 포함된 색인 키워드들의 출현횟수의 통계값을 이용하여 제2 타입 시의성 질의어를 결정하는 것으로 기재하였지만, 변형된 실시예에 있어서는 각 색인 키워드 자체의 출현횟수 통계값이 아닌 각 색인 키워드가 포함된 뉴스기사의 개수에 대한 통계값을 이용하여 제2 타입 시의성 질의어를 결정할 수도 있을 것이다.
도 11b를 참조하여 구체적으로 살펴보면, 먼저, 뉴스 서버 또는 외부 서버로부터 뉴스 기사들이 수신되면(S1191), 수신된 뉴스기사들을 뉴스기사가 발생된 시간정보에 따라 분류한 후(S1192), 뉴스기사들 중 그 제목 또는 본문 내용이 중복되는 뉴스기사들을 제거한다(S1193). 이후, 수신된 뉴스기사들로부터 색인 키워드들을 추출한 후(S1194), 추출된 색인 키워드들 중에서 해당 색인 키워드를 포함하는 뉴스기사의 과거 노출 일수가 제1 임계치 이상이면서 제2 임계치 미만인 색인 키워드들을 제거함으로써 색인 키워드를 필터링한다(S1195).
다음으로, 필터링된 색인 키워드들이 포함되어 있는 뉴스기사의 개수를 산출하고(S1196), 필터링된 색인 키워드가 포함되어 있는 뉴스기사가 과거에 노출된 적이 있는지 여부를 판단한다(S1197). 판단결과, 노출된 적이 있는 경우, 각 색인 키워드 별로 각 색인 키워드가 포함되어 있는 뉴스기사의 개수와 해당 색인 키워드가 제3 임계치 이상인지 여부를 판단한다(S1198).
일 실시예에 있어서, 제3 임계치는 해당 키워드가 포함된 뉴스기사의 과거 일평균 개수와 해당 키워드가 포함된 과거 뉴스기사 개수의 표준편차값을 이용해서 결정할 수 있다. 또한, 해당 색인 키워드들이 포함된 뉴스기사의 과거 일평균 개수 및 표준편차를 산출함에 있어서, 시의성 결정일로부터 최근 N일, 예컨대 최근 30일 동안 해당 색인 키워드들이 포함된 뉴스기사의 개수를 이용하여 해당 색인 키워드들이 포함된 뉴스기상의 과거 일평균 개수 및 표준편차값을 산출할 수 있다.
판단결과, 필터링된 색인 키워드들이 포함되어 있는 뉴스기사의 개수가 제3 임계치 이상 큰 경우 해당 색인 키워드를 제2 타입 시의성 질의어로 결정한다(S1199).
한편, S1197에서, 필터링된 색인 키워드가 포함되어 있는 뉴스기사가 과거에 한번도 노출되지 않은 경우, 즉 해당 색인 키워드가 시의성 질의어 결정일에 처음 출현된 색인 키워드인 경우, 시의성 질의어 결정일에 해당 키워드가 포함된 뉴스기사가 노출된 횟수가 제4 임계치 이상인지 여부를 판단하여(S1200), 판단결과 제4 임계치 이상인 경우 해당 색인 키워드를 제2 타입 시의성 질의어로 결정한다(S1201).
한편, 상술한 실시예들에 있어서는, 제2 타입 시의성 질의어를 뉴스기사로부터 추출되는 색인 키워드들을 이용하여 결정하는 것으로 기재하였지만, 변형된 실시예에 있어서는 검색 질의어들을 이용하여 제2 타입 시의성 질의어를 결정할 수도 있을 것이다.
구체적으로, 로그 데이터베이스에 저장된 검색 질의어들의 입력횟수에 대한 평균값 및 분산값 중 적어도 하나를 산출하고, 산출된 평균값 및 분산값 중 적어도 하나를 이용하여 기준값을 결정한다. 이후, 시의성 질의어 결정일에 입력된 검색 질의어들의 입력횟수에 대한 평균값 및 분산값을 산출하고, 산출된 평균값 및 분산값 중 적어도 하나가 기준값 이상인 검색 질의어들을 제2 타입 시의성 질의어로 결정할 수 있다.
다음으로, 도 12를 참조하여 제3 타입 시의성 질의어를 결정하는 방법에 대해 설명한다. 먼저, 로그 데이터베이스에 저장된 각 검색 질의어들의 시간구간 별 입력횟수를 산출한다(S1202).
이후, 각 검색 질의어들 중 그 입력횟수가 소정 주기 패턴으로 증감하는 검색 질의어들을 제3 타입 시의성 질의어로 결정한다(S1210). 구체적으로, 로그 데이터베이스에 저장된 각 검색 질의어들의 시간구간별 입력횟수의 평균값 또는 분산값을 계산한 후, 이를 이용하여 기준값을 산출하고, 특정 검색 질의어의 입력횟수가 기준값을 상회하는 시간구간이 소정 주기마다 반복적으로 나타나는 경우 해당 검색 질의어를 제3 타입 시의성 질의어로 결정하는 것이다.
이후, 제3 타입 시의성 질의어로 결정된 검색 질의어를 해당 검색 질의어들의 입력횟수 증감에 대한 패턴 정보와 함께 시의성 질의어 데이터베이스에 저장한다(S1220). 일 실시예에 있어서, 입력횟수 증감에 대한 패턴 정보는 제3 타입 시의성 질의어로 결정된 검색 질의어의 입력횟수가 기준값을 상회하는 시간구간이 나타나는 시기 및 해당 시간구간의 크기에 대한 정보를 포함할 수 있다.
다시 도 9를 참조하면, 사용자로부터 검색 질의어가 입력되면(S910), 입력된 검색 질의어가 시의성 질의어인지 여부를 판단한다(S920). 구체적으로, 입력된 검색 질의어가 시의성 질의어 데이터베이스에 저장되어 있는 경우, 해당 검색 질의어는 시의성 질의어로 판단하고, 그렇지 않은 경우 해당 검색 질의어는 시의성 질의어가 아닌 것으로 판단하게 된다.
이후, 입력된 검색 질의어가 시의성 질의어인 경우, 검색 결과 문서들의 최신성에 제1 가중치를 부여하고(S930), 가중치가 부여된 각 검색 결과 문서들의 유사도, 품질, 및 최신성을 이용하여 각 검색 결과 문서들의 적합도를 산출함으로써 입력된 검색 질의어에 대한 검색 결과를 생성한다(S940). 이후, 생성된 검색결과를 사용자에게 제공한다(S950).
한편, S920에서, 입력된 검색 질의어가 시의성 질의어가 아닌 경우, 검색 결과 문서들의 최신성에 제1 가중치보다 작은 제2 가중치를 부여한 후(S960), S940 및 S950단계를 반복한다.
상술한 시의성 질의어를 이용한 검색 서비스 제공 방법은 다양한 컴퓨터 수 단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 시의성 질의어를 이용한 검색 서비스 제공 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 일반적인 검색 서비스 제공 화면을 보여주는 도면.
도 2는 본 발명의 일 실시예에 따른 검색 서비스 제공 시스템의 개략적인 블록도.
도 3은 도 2에 도시된 제1 타입 시의성 질의어 결정부의 세부 구성을 보여주는 블록도.
도 4는 제1 타입 시의성 질의어의 패턴들의 예를 보여주는 도면.
도 5는 도 2에 도시된 제2 타입 시의성 질의어 결정부의 세부 구성을 보여주는 블록도.
도 6은 제2 타입 시의성 질의어의 예를 보여주는 도면.
도 7은 도 2에 도시된 제3 타입 시의성 질의어 결정부의 세부 구성을 보여주는 블록도.
도 8은 검색 질의어들의 입력횟수의 증감 패턴의 예를 보여주는 도면.
도 9는 본 발명의 일 실시예에 따른 검색 서비스 제공 방법을 보여주는 플로우차트.
도 10은 제1 타입 시의성 질의어를 결정하는 방법을 보여주는 플로우차트.
도 11은 제2 타입 시의성 질의어를 결정하는 방법을 보여주는 플로우차트.
도 12는 제3 타입 시의성 질의어를 결정하는 방법을 보여주는 플로우차트.

Claims (40)

  1. 시의성 질의어들이 저장된 시의성 질의어 데이터베이스를 유지하는 단계;
    사용자로부터 입력된 검색 질의어가 상기 시의성 질의어 데이터베이스에 저장된 시의성 질의어에 해당하는지 여부를 판단하는 단계; 및
    상기 입력된 검색 질의어에 대한 검색결과를 생성하되, 상기 입력된 검색 질의어가 시의성 질의어에 해당하는 것으로 판단되는 경우, 검색 결과 문서들의 최신성(Recency)에 제1 가중치를 부여하여 각 검색 결과 문서들의 적합도(Relevance)를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  2. 제1항에 있어서, 상기 검색결과 생성 단계에서,
    상기 입력된 검색 질의어가 시의성 질의어에 해당하지 않는 것으로 판단되는 경우, 상기 검색 결과 문서들의 최신성에 상기 제1 가중치보다 작은 제2 가중치를 부여하여 각 검색 결과 문서들의 적합도를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  3. 제1항에 있어서,
    상기 시의성 질의어는 특정시점에 관계없이 시의성을 띄는 제1 타입 시의성 질의어, 특정 이슈로 인해 특정 시점에 시의성을 띄는 제2 타입 시의성 질의어, 및 특정 시점마다 반복적으로 시의성을 띄는 제3 타입 시의성 질의어 중 적어도 하나를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  4. 제3항에 있어서, 상기 시의성 질의어가 상기 제1 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는,
    후보 키워드들을 선정하는 단계;
    상기 후보 키워드들을 분석하여 반복되는 패턴을 선별하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  5. 제4항에 있어서,
    상기 후보 키워드는 로그 데이터베이스에 저장된 검색 질의어들 중에서 선정된 검색 질의어 또는 정보매체로부터 추출된 색인 키워드인 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  6. 제5항에 있어서, 상기 후보 키워드 선정 단계에서,
    상기 후보 키워드가 로그 데이터베이스에 저장된 검색 질의어들 중에서 선정된 것인 경우 상기 검색 질의어들 중에서 입력횟수 순위가 상위 N개 이내의 검색 질의어들을 상기 후보 키워드로 선정하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  7. 제4항에 있어서, 상기 패턴 선별단계에서,
    상기 후보 키워드들에 포함된 접두어(Prefix) 또는 접미어(Suffix) 중 소정횟수 이상 반복하여 출현되는 접두어 또는 접미어를 패턴으로 선별하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  8. 제4항에 있어서, 상기 패턴 선별단계 이후에,
    상기 반복되는 패턴을 카테고리 별로 분류하는 단계를 더 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  9. 제8항에 있어서, 상기 카테고리별 분류 단계 이후에,
    상기 선별된 패턴을 정규 표현식(Regular Expression)을 이용하여 상기 카테고리 별로 저장하는 단계를 더 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  10. 제3항에 있어서, 상기 시의성 질의어가 상기 제2 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는,
    소정 기간 동안 발생된 정보매체로부터 추출된 색인 키워드들을 이용하여 대조군을 결정하는 단계;
    상기 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분 산값 중 적어도 하나와, 특정일에 발생된 정보매체들로부터 추출된 색인 키워드들의 출현횟수의 평균값 및 출현횟수 분산값 중 적어도 하나를 계산하는 단계; 및
    상기 추출된 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 이용하여 상기 특정일의 제2 타입 시의성 질의어를 결정하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  11. 제10항에 있어서, 상기 제2 타입 시의성 질의어 결정단계는,
    상기 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 이용하여 기준값을 생성하는 단계;
    상기 특정일에 발생된 정보매체로부터 추출된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나와 상기 기준값을 비교하는 단계;
    상기 특정일에 발생된 정보매체로부터 추출된 색인 키워드들 중 그 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나가 상기 기준값 이상인 색인 키워드들을 제2 타입 시의성 질의어로 판단하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  12. 제10항에 있어서, 상기 대조군 결정단계 이전에,
    상기 각 정보매체가 발생된 시간정보에 따라 상기 정보매체들을 분류하는 단계;
    상기 정보매체들 중 상기 정보매체의 제목 또는 본문 내용이 중복되는 정보 매체들을 필터링하는 단계; 및
    상기 필터링 된 정보매체들로부터 색인 키워드를 추출하는 단계를 더 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  13. 제10항에 있어서,
    상기 정보매체는 뉴스기사인 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  14. 제3항에 있어서, 상기 시의성 질의어가 상기 제2 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는,
    로그 데이터베이스로부터 추출된 소정 기간 동안 입력된 검색 질의어들을 이용하여 대조군을 결정하는 단계;
    상기 대조군에 포함된 각 검색 질의어들의 입력횟수 평균값 및 입력횟수 분산값 중 적어도 하나와, 특정일에 입력된 각 검색 질의어들의 입력횟수 평균값 및 입력횟수 분산값 중 적어도 하나를 계산하는 단계; 및
    상기 입력횟수 평균값 및 입력횟수 분산값 중 적어도 하나를 이용하여 상기 특정일의 제2 타입 시의성 질의어를 결정하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  15. 제14항에 있어서, 상기 제2 타입 시의성 질의어 결정단계는,
    상기 대조군에 포함된 각 검색 질의어들의 입력횟수 평균값 및 입력횟수 분산값 중 적어도 하나를 이용하여 기준값을 생성하는 단계;
    상기 특정일에 입력된 검색 질의어들의 입력횟수 평균값 및 입력횟수 분산값 중 적어도 하나와 상기 기준값을 비교하는 단계; 및
    상기 특정일에 입력된 검색 질의어들 중 그 입력횟수 평균값 및 입력횟수 분산값 중 적어도 하나가 상기 기준값 이상인 검색 질의어들을 제2 타입 시의성 질의어로 판단하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  16. 제3항에 있어서, 상기 시의성 질의어가 상기 제2 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는,
    소정 정보매체로부터 색인 키워드를 추출하는 단계;
    상기 추출된 색인 키워드가 포함된 정보매체의 개수를 산출하는 단계;
    상기 추출된 색인 키워드가 포함된 정보매체의 개수가 제1 임계치 이상인지 여부를 판단하는 단계; 및
    판단결과, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제1 임계치 이상인 경우 상기 추출된 색인 키워드를 제2 타입 시의성 질의어로를 결정하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  17. 제16항에 있어서,
    상기 제1 임계치는 상기 색인 키워드가 포함된 정보매체의 최근 N일 동안의 일평균 개수 및 최근 N일 동안의 표준편차값을 이용하여 결정되는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  18. 제16항에 있어서, 상기 정보매체 개수 산출 단계 이전에,
    상기 추출된 색인 키워드 중 상기 추출된 색인 키워드를 포함하는 정보매체의 과거 노출일수가 제2 임계치 이상 제3 임계치 미만인 색인 키워드를 제거하는 단계를 더 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  19. 제16항에 있어서, 상기 색인 키워드가 포함된 정보매체의 개수가 제1 임계치 이상인지 여부 판단 단계 이전에,
    상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는지 여부를 판단하는 단계를 더 포함하고,
    상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는 경우, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제1 임계치 이상이면 상기 추출된 색인 키워드를 제2 시의성 질의어로 결정하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  20. 제19항에 있어서,
    상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는지 여부를 판단하는 단계에서, 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 없는 경우,
    상기 추출된 색인 키워드가 포함된 정보매체의 개수가 제4 임계치 이상인지 여부를 판단하는 단계; 및
    판단결과, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제4 임계치 이상인 경우 상기 추출된 색인 키워드를 제2 타입 시의성 질의어로 결정하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  21. 제16항에 있어서,
    상기 정보매체는 뉴스기사인 것을 특징으로 하는 검색 서비스 제공 방법.
  22. 제3항에 있어서, 상기 시의성 질의어가 상기 제3 타입 시의성 질의어를 포함하는 경우 상기 데이터베이스 유지 단계는,
    로그 데이터베이스에 저장된 각 검색 질의어들의 시간구간 별 입력횟수 또는 정보매체로부터 추출된 색인 키워드들의 시간구간별 발생횟수를 산출하는 단계;
    상기 각 검색 질의어들 중 그 입력횟수가 소정 주기 패턴으로 증감하는 검색 질의어들 또는 상기 색인 키워드들 중 발생횟수가 소중 주기 패턴을 증감하는 색인 키워드들을 상기 제3 타입 시의성 질의어로 결정하는 단계; 및
    상기 제3 타입 시의성 질의어로 결정된 검색 질의어들의 입력횟수 증감에 대한 패턴 정보 또는 색인 키워드들의 발생횟수 증감에 대한 패턴 정보를 상기 제3 타입 시의성 질의어와 매핑시켜 저장하는 단계를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  23. 제22항에 있어서,
    상기 패턴 정보는 상기 제3 타입 시의성 질의어로 결정된 검색 질의어들의 입력횟수 또는 색인 키워드들의 발생횟수가 기준치 이상인 시간구간이 나타나는 시점에 대한 정보 및 상기 입력횟수 또는 발생횟수가 기준치 이상인 시간구간의 크기에 대한 정보를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 방법.
  24. 제1항 내지 제23항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 기록매체.
  25. 시의성 질의어들이 저장되는 시의성 질의어 데이터베이스;
    사용자로부터 입력된 검색 질의어가 상기 시의성 질의어 데이터베이스에 저장된 시의성 질의어에 해당하는지 여부를 판단하는 시의성 질의어 판단부; 및
    상기 입력된 검색 질의어에 대한 검색을 수행하여 검색결과를 생성하되, 상 기 입력된 검색 질의어가 시의성 질의어에 해당하는 것으로 판단되는 경우, 검색 결과 문서들의 최신성(Recency)에 제1 가중치를 부여하여 각 검색 결과 문서들의 적합도(Relevance)를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 검색부를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  26. 제25항에 있어서,
    상기 입력된 검색 질의어가 시의성 질의어에 해당하지 않는 것으로 판단되는 경우, 상기 검색 결과 문서들의 최신성에 상기 제1 가중치보다 작은 제2 가중치를 부여하여 각 검색 결과 문서들의 적합도를 계산함으로써 상기 검색 질의어에 대한 검색 결과를 생성하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  27. 제25항에 있어서,
    특정시점에 관계없이 시의성을 띄는 제1 타입 시의성 질의어를 결정하여 상기 시의성 질의어 데이터베이스에 저장하는 제1 타입 시의성 질의어 결정부;
    특정 이슈로 인해 특정 시점에 시의성을 띄는 제2 타입 시의성 질의어를 결정하여 상기 시의성 질의어 데이터베이스에 저장하는 제2 타입 시의성 질의어 결정부; 및
    특정 시점마다 반복적으로 시의성을 띄는 제3 타입 시의성 질의어를 결정하 여 상기 시의성 질의어 데이터베이스에 저장하는 제3 타입 시의성 질의어 결정부 중 적어도 하나를 더 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  28. 제27항에 있어서, 상기 제1 타입 시의성 질의어 결정부는,
    로그 데이터베이스에 저장된 검색 질의어들 중에서 후보 검색 질의어들을 선정하는 후보 검색 질의어 선정부;
    상기 후보 검색 질의어들을 분석하여 반복되는 패턴을 선별하는 검색 질의어 분석부; 및
    상기 검색 질의어 분석부에 의해 선별된 패턴들을 정규 표현식(Regular Expression)을 이용하여 표현하고, 상기 정규 표현식으로 표현된 패턴들을 각 카테고리 별로 분류하여 저장하는 패턴 분류부를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  29. 제28항에 있어서,
    상기 검색 질의어 분석부는 상기 후보 검색 질의어들을 분석하여 상기 각 후보 검색 질의어들에 포함된 접두어(Prefix) 또는 접미어(Suffix) 중 소정횟수 이상 반복하여 출현하는 접두어 또는 접미어를 패턴으로 선별하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  30. 제27항에 있어서, 상기 제2 타입 시의성 질의어 결정부는,
    정보매체로부터 색인 키워드들을 추출하는 색인 키워드 추출부;
    소정 기간 동안 발생된 상기 정보매체들로부터 추출된 색인 키워드들을 이용하여 대조군을 결정하는 대조군 결정부;
    상기 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나와, 특정일에 발생된 정보매체들로부터 추출된 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 계산하는 연산부; 및
    상기 계산된 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 이용하여 상기 특정일의 제2 타입 시의성 질의어를 결정하는 판단부를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  31. 제30항에 있어서,
    상기 연산부는, 상기 대조군에 포함된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나를 이용하여 기준값을 생성하고,
    상기 판단부는, 상기 특정일에 발생된 정보매체들로부터 추출된 각 색인 키워드들의 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나와 상기 기준값을 비교하여, 상기 특정일에 발생된 정보매체들로부터 추출된 색인 키워드들 중 그 출현횟수 평균값 및 출현횟수 분산값 중 적어도 하나가 상기 기준값 이상인 색인 키워드들을 제2 타입 시의성 질의어로 판단하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  32. 제30항에 있어서,
    상기 각 정보매체가 발생된 시간정보에 따라 상기 정보매체들을 분류하고, 상기 정보매체들 중 상기 정보매체의 제목 또는 본문 내용이 중복되는 정보매체들을 필터링하는 전처리부를 더 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  33. 제27항에 있어서, 상기 제2 타입 시의성 질의어 결정부는,
    정보매체들로부터 색인 키워드들을 추출하는 색인 키워드 추출부; 및
    상기 추출된 색인 키워드가 포함된 정보매체의 개수를 산출하고, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 제1 임계치 이상인지 여부를 판단하여, 이상인 경우 상기 추출된 색인 키워드를 제2 타입 시의성 질의어로를 결정하는 판단부를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  34. 제33항에 있어서,
    상기 제1 임계치는 상기 색인 키워드가 포함된 정보매체의 최근 N일 동안의 일평균 개수 및 최근 N일 동안의 표준편차값을 이용하여 결정되는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  35. 제33항에 있어서,
    상기 정보매체들을 수신하고, 수신된 정보매체들 중 중복되는 정보매체를 제거하는 전처리부; 및
    상기 추출된 색인 키워드 중 상기 추출된 색인 키워드를 포함하는 정보매체의 과거 노출일수가 제2 임계치 이상 제3 임계치 미만인 색인 키워드를 제거하는 색인 키워드 필터링부를 더 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  36. 제33항에 있어서,
    상기 판단부는, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제1 임계치 이상인지 여부를 판단하기 이전에, 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는지 여부를 추가로 판단하여, 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 있는 것으로 판단되면, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 상기 제1 임계치 이상인지 여부를 판단하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  37. 제36항에 있어서,
    상기 판단부는, 상기 추출된 색인 키워드가 포함된 정보매체가 과거에 노출된 적이 없는 것으로 판단되면, 상기 추출된 색인 키워드가 포함된 정보매체의 개수가 제4 임계치 이상인지 여부를 판단하여 제4 임계치 이상인 경우, 상기 추출된 색인 키워드를 제2 타입 시의성 질의어로 결정하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  38. 제27항에 있어서, 상기 제3 타입 시의성 질의어 결정부는,
    로그 데이터베이스에 저장된 각 검색 질의어들의 시간구간 별 입력횟수 또는 정보매체로부터 추출된 색인 키워드들의 시간구간별 발생횟수를 산출하여, 상기 각 검색 질의어들 중 그 입력횟수가 소정 주기 패턴으로 증감하는 검색 질의어들 또는 상기 색인 키워드들 중 발생횟수가 소중 주기 패턴을 증감하는 색인 키워드들을 상기 제3 타입 시의성 질의어로 결정하는 판단부; 및
    상기 판단부에 의해 제3 타입 시의성 질의어로 결정된 검색 질의어들의 입력횟수 증감에 대한 패턴 정보 또는 색인 키워드들의 발생횟수 증감에 대한 패턴 정보를 상기 제3 타입 시의성 질의어와 매핑시켜 저장하는 저장부를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  39. 제38항에 있어서,
    상기 패턴 정보는 상기 제3 타입 시의성 질의어로 결정된 검색 질의어들의 입력횟수 또는 색인 키워드들의 발생횟수가 기준치 이상인 시간구간이 나타나는 시점에 대한 정보 및 상기 입력횟수 또는 발생횟수가 기준치 이상인 시간구간의 크기에 대한 정보를 포함하는 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
  40. 제30항 내지 제39항 중 어느 하나의 항에 있어서,
    상기 정보매체는 뉴스기사인 것을 특징으로 하는 시의성 질의어를 이용한 검색 서비스 제공 시스템.
KR1020080051724A 2008-06-02 2008-06-02 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템 KR100952284B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080051724A KR100952284B1 (ko) 2008-06-02 2008-06-02 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080051724A KR100952284B1 (ko) 2008-06-02 2008-06-02 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20090125559A true KR20090125559A (ko) 2009-12-07
KR100952284B1 KR100952284B1 (ko) 2010-04-12

Family

ID=41687045

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080051724A KR100952284B1 (ko) 2008-06-02 2008-06-02 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100952284B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101664711B1 (ko) * 2015-06-19 2016-10-10 (주) 더아이엠씨 기간 가중치를 이용한 핵심어 추출방법
KR101934240B1 (ko) * 2018-08-13 2019-04-05 주식회사 아발론교육 키워드를 표시하는 방법 및 그 장치
KR102111989B1 (ko) * 2019-12-05 2020-05-18 (주)플랜아이 자연어 질의에 대하여 시계열 정보를 제공하는 시스템 및 방법
KR20220120079A (ko) * 2021-02-23 2022-08-30 주식회사 카카오 설문 조사를 수행하는 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818553B1 (ko) * 2006-08-22 2008-04-01 에스케이커뮤니케이션즈 주식회사 문서랭킹 부여방법 및 이를 수행할 수 있는 프로그램이수록된 컴퓨터로 읽을 수 있는 기록 매체
KR101132450B1 (ko) * 2007-11-28 2012-03-30 엔에이치엔(주) 실시간 급상승 키워드 추출 방법 및 실시간 급상승 키워드추출 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101664711B1 (ko) * 2015-06-19 2016-10-10 (주) 더아이엠씨 기간 가중치를 이용한 핵심어 추출방법
KR101934240B1 (ko) * 2018-08-13 2019-04-05 주식회사 아발론교육 키워드를 표시하는 방법 및 그 장치
KR102111989B1 (ko) * 2019-12-05 2020-05-18 (주)플랜아이 자연어 질의에 대하여 시계열 정보를 제공하는 시스템 및 방법
KR20220120079A (ko) * 2021-02-23 2022-08-30 주식회사 카카오 설문 조사를 수행하는 방법 및 장치

Also Published As

Publication number Publication date
KR100952284B1 (ko) 2010-04-12

Similar Documents

Publication Publication Date Title
CN111008265B (zh) 企业信息搜索方法及装置
US9317613B2 (en) Large scale entity-specific resource classification
US9015194B2 (en) Root cause analysis using interactive data categorization
US6266664B1 (en) Method for scanning, analyzing and rating digital information content
US7496567B1 (en) System and method for document categorization
CN106682147A (zh) 一种基于海量数据的查询方法及装置
CN107451149B (zh) 流量数据查询任务的监控方法及其装置
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
US20010044791A1 (en) Automated adaptive classification system for bayesian knowledge networks
US20040049505A1 (en) Textual on-line analytical processing method and system
US20100228714A1 (en) Analysing search results in a data retrieval system
CN111444304A (zh) 搜索排序的方法和装置
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
CN112269816A (zh) 一种政务预约事项相关性检索方法
KR100952284B1 (ko) 시의성 질의어를 이용한 검색 서비스 제공 방법 및 시스템
US8548999B1 (en) Query expansion
US20100049761A1 (en) Search engine method and system utilizing multiple contexts
US8412671B2 (en) System and method for developing a star schema
CN113515610B (zh) 一种基于面向对象语言处理的档案管理方法
US20100268723A1 (en) Method of partitioning a search query to gather results beyond a search limit
KR20200000208A (ko) 소셜 데이터 수집 분석 시스템
CN109101506A (zh) 基于可视化的搜索方法及系统
JP4073734B2 (ja) 入力単語候補を推薦する情報検索システム
CN112765469B (zh) 一种从Web点击流数据中挖掘代表序列模式的方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 10