KR100899930B1 - 연관 데이터 클래스 생성 방법 및 시스템 - Google Patents

연관 데이터 클래스 생성 방법 및 시스템 Download PDF

Info

Publication number
KR100899930B1
KR100899930B1 KR1020070074112A KR20070074112A KR100899930B1 KR 100899930 B1 KR100899930 B1 KR 100899930B1 KR 1020070074112 A KR1020070074112 A KR 1020070074112A KR 20070074112 A KR20070074112 A KR 20070074112A KR 100899930 B1 KR100899930 B1 KR 100899930B1
Authority
KR
South Korea
Prior art keywords
search
subset
data
document information
association
Prior art date
Application number
KR1020070074112A
Other languages
English (en)
Other versions
KR20090010752A (ko
Inventor
강춘길
서광준
염승철
정찬수
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070074112A priority Critical patent/KR100899930B1/ko
Publication of KR20090010752A publication Critical patent/KR20090010752A/ko
Application granted granted Critical
Publication of KR100899930B1 publication Critical patent/KR100899930B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

검색 쿼리들간의 연관관계뿐만 아니라 검색 쿼리와 검색 결과 문서들의 연관관계 및 검색 결과 문서들간의 연관관계도 함께 판단할 수 있는 본 발명의 일 실시예에 따른 연관 데이터 클래스 생성 방법은 하나 이상의 검색 쿼리와 상기 하나 이상의 검색 쿼리에 상응하는 하나 이상의 문서 정보를 포함하는 검색 세션 데이터가 각 검색 세션 별로 저장된 데이터베이스를 유지하는 단계; 상기 데이터베이스로부터 소정 개수 이상의 검색 세션에 공통적으로 포함되는 검색 쿼리 또는 문서 정보로 구성된 하나 이상의 서브셋을 결정하는 단계; 및 상기 서브셋에 포함된 상기 쿼리 또는 문서 정보가 소정 개수 이상 동일한 서브셋들을 결합함으로써 연관 데이터 클래스를 생성하는 단계를 포함하는 것을 특징으로 한다.
검색 세션, 쿼리, 연관, 의도, 분석

Description

연관 데이터 클래스 생성 방법 및 시스템{System and Method for Generating Relating Data Class}
본 발명은 데이터 생성 방법에 관한 것으로서 보다 상세하게는 각 검색 세션 데이터에 포함된 쿼리 또는 쿼리에 상응하는 문서의 정보들 중 서로 공통되는 쿼리 또는 문서 정보를 그룹핑함으로써 연관 데이터 클래스를 생성하는 연관 데이터 클래스 생성 방법 및 그 시스템에 관한 것이다.
일반적으로 검색 서비스를 제공하는 검색 서비스 시스템은 사용자로부터 검색쿼리가 입력되면 상기 검색 쿼리에 대응하는 검색 결과 문서(예컨대, 사용자로부터 입력된 검색 쿼리를 포함하는 웹 사이트, 기사, 또는 해당 검색 쿼리를 포함하는 파일명을 갖는 이미지 등)를 사용자에게 제공한다. 그러나, 사용자가 검색 서비스를 이용함에 있어서, 검색하고자 하는 내용에 대한 검색 쿼리를 정확히 선택하여 입력하는 것은 쉽지 않다. 따라서, 검색 과정에서 사용자는 자신이 의도한 검색 결과를 얻을 때까지 검색 쿼리를 변경해 가면서 재검색을 수행하는 것이 일반적이다.
그러나 검색 서비스에 익숙지 않은 사용자의 경우 원하는 검색 결과를 얻는 데 상당한 시간이 소요된다는 문제점이 있었고, 최근 검색 서비스 제공 시스템은 사용자가 원하는 검색 결과를 보다 빠르고 정확하게 찾을 수 있도록 하기 위해 사용자로부터 입력받은 검색 쿼리와 연관되는 검색 쿼리를 사용자에게 제공하는 연관 검색 쿼리 제공 서비스를 제공하고 있다. 이때, 검색 서비스 시스템은 사용자가 입력한 검색 쿼리 및 통계 정보를 이용하여 사용자가 입력한 검색 쿼리와 관련성이 있는 검색 쿼리들을 사용자에게 제공함으로써 검색 서비스를 이용하도록 하거나 검색 쿼리 중 일부만 입력하더라도 나머지 검색 쿼리를 자동으로 완성하여 줌으로써 검색 서비스를 이용하도록 하고 있다.
그런데, 종래 기술에 따른 연관 검색 쿼리 제공 서비스는 서비스 운영자가 하나의 검색 쿼리와 연관성이 있는 다른 검색 쿼리를 일일이 분류하여 저장해야 했기 때문에 이를 위해 시간적, 경제적 손실을 감수해야만 하는 문제점이 있었다.
또한, 보다 적은 시간과 비용으로 연관 검색 쿼리를 추출하기 위해, 용어들 간의 관련성을 동시에 발생활 확률로 정의한 동시 발생 분류 방법, 문서들을 분류한 후에 각 그룹에서만 주로 나타나는 용어들을 관련어로 정의하는 문서 분류 방법, 어학적 지식과 문서에서의 동시 발생 특성을 이용하여 용어들 간의 관계를 파악하는 문법 분류 방법이 등장하였으나, 이러한 방법들은 해당 검색 쿼리를 입력한 사용자의 검색 의도를 전혀 고려하지 않고 통계적인 관계만 고려함으로 인해 사용자가 입력하고자 하는 검색 쿼리와 사용자에게 제공되는 연관 검색 쿼리간의 연관성이 떨어지는 경우가 많았다.
또한, 종래의 연관 검색 쿼리 제공 서비스는 검색 쿼리만을 그 서비스 대상 으로 하였으므로, 특정 검색 쿼리에 대해 제공되는 검색 결과 문서들의 연관관계를 알 수 있는 방법은 없었다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 검색 쿼리들간의 연관관계뿐만 아니라 검색 쿼리와 검색 결과 문서들의 연관관계 및 검색 결과 문서들간의 연관관계도 함께 판단할 수 있는 연관 데이터 클래스 생성 방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.
또한, 본 발명은 서로 연관된 검색 쿼리 또는 검색 결과 문서 정보를 포함하는 연관 데이터 클래스를 자동으로 생성할 수 있는 연관 데이터 클래스 생성 방법 및 시스템을 제공하는 것을 기술적 과제로 한다.
또한, 본 발명은 서로 연관된 검색 쿼리 또는 검색 결과 문서 정보를 포함하는 연관 데이터 클래스를 생성함에 있어서, 사용자의 검색 의도가 만족된 검색 세션의 데이터를 이용하여 연관 데이터 클래스를 생성할 수 있는 연관 데이터 클래스 생성 방법 및 시스템을 제공하는 것을 또 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 연관 데이터 클래스 생성 방법은 하나 이상의 검색 쿼리와 상기 하나 이상의 검색 쿼리에 상응하는 하나 이상의 문서 정보를 포함하는 검색 세션 데이터가 각 검색 세션 별로 저장된 데이터베이스를 유지하는 단계; 상기 데이터베이스로부터 소정 개수 이상의 검색 세션에 공통적으로 포함되는 검색 쿼리 또는 문서 정보로 구성된 하나 이상의 서브셋을 결정하는 단계; 및 상기 서브셋에 포함된 상기 쿼리 또는 문서 정보가 소정 개 수 이상 동일한 서브셋들을 결합함으로써 연관 데이터 클래스를 생성하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 서브셋 결정단계는, 상기 각 검색 세션 데이터로부터 소정 개수 이상의 검색 쿼리 또는 문서 정보를 포함하는 서브셋을 생성하는 단계; 및 상기 서브셋 중 소정 개수 이상의 검색 세션 데이터에 공통적으로 포함된 서브셋을 선택하는 단계를 포함한다.
일 실시예에 있어서, 상기 서브셋 생성단계에서, 상기 서브셋은 데이터 마이닝의 연관규칙(Association Rule)을 이용하여 결정될 수 있는데, 구체적으로 상기 연관규칙 중 아프리오리(Apriori) 알고리즘을 이용하여 결정될 수 있다.
또한, 상기 데이터베이스 유지 단계에서 상기 데이터베이스에 저장되는 상기 검색 세션 데이터는 사용자의 검색 의도가 만족된 검색 세션의 데이터인 것을 특징으로 한다. 이때, 상기 사용자의 검색 의도가 만족된 검색 세션인지 여부는 상기 사용자의 검색 행위에 대한 로그분석을 통해 판단될 수 있다.
한편, 상기 검색 세션은 사용자 단말기로부터 최초 쿼리가 수신되는 시점부터 시작되어 상기 사용자 단말기로부터 데이터의 송신이 없는 시점에 종료되는 것을 특징으로 한다.
상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 연관 데이터 클래스 생성 시스템은 하나 이상의 검색 쿼리와 상기 하나 이상의 검색 쿼리에 상응하는 하나 이상의 문서 정보를 포함하는 검색 세션 데이터가 각 검색 세션 별로 저장되는 데이터베이스; 상기 데이터베이스로부터 소정 개수 이상의 검색 세션에 공통 적으로 포함되는 검색 쿼리 또는 문서 정보로 구성된 하나 이상의 서브셋을 결정하는 서브셋 결정부; 및 상기 서브셋에 포함된 상기 검색 쿼리 또는 문서 정보가 소정 개수 이상 동일한 서브셋들을 결합함으로써 연관 데이터 클래스를 생성하는 연관 데이터 클래스 생성부를 포함하는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 따르면, 검색 쿼리들간의 연관관계뿐만 아니라 검색 쿼리와 검색 결과 문서의 연관관계도 함께 판단할 수 있으므로 사용자로부터 특정 검색 쿼리가 입력되는 경우 해당 검색 쿼리와 동일한 데이터 클래스 내에 포함된 검색 결과 문서를 제공함으로써 검색 서비스의 신뢰성을 향상시킬 수 있다는 효과가 있다.
또한, 본 발명에 따르면, 검색 쿼리들간의 연관관계뿐만 아니라 검색 결과 문서들간의 연관관계도 함께 판단할 수 있으므로, 특정 검색 쿼리에 대한 검색 결과로 제공되는 문서들 중 중복되는 문서를 제거함으로써 검색 결과를 효율적으로 제공할 수 있다는 효과가 있다.
또한, 본 발명에 따르면, 검색 결과 문서들간의 연관관계를 판단함으로써 특정 검색 쿼리에 대하 제공되는 검색 결과 문서들의 양상을 분석할 있다는 효과도 있다.
또한, 본 발명에 따르면, 서로 연관된 검색 쿼리 또는 검색 결과 문서 정보를 포함하는 연관 데이터 클래스를 자동으로 생성함으로써 서로 연관된 검색 쿼리 도는 검색 결과 문서를 수작업으로 분류하여 저장함으로 인해 서비스 운영자에게 발생되는 시간적 경제적 손실을 감소시킬 수 있다는 효과가 있다.
또한, 본 발명에 따르면 서로 연관된 검색 쿼리 또는 검색 결과 문서 정보를 포함하는 연관 데이터 클래스를 생성함에 있어서 사용자의 검색 의도가 만족된 검색 세션의 데이터를 이용함으로써 연관 관계에 대한 신뢰성을 높일 수 있다는 효과가 있다.
본 발명의 실시예에 대한 상세한 설명을 하기 이전에 본 발명에서 사용된 검색 세션이란 용어에 대해 간략히 설명한다.
검색 세션이란 하나의 검색 의도를 해결하기 위한 일련의 검색 행위가 수행되는 과정을 의미하는 것으로서, 일 실시예에 있어서 검색 세션은 소정 인터페이스를 통해 사용자 단말기로 제공된 검색 창을 통해 검색 쿼리가 최초로 입력되는 시점에서 시작하여 소정 시간 동안 사용자 단말기로부터 데이터 전송이 없는 시점에서 종료하게 된다.
예컨대, 소정 시간이 5분으로 설정되는 경우, 사용자가 사용자 단말기를 통하여 검색 창에 최초 검색 쿼리를 입력하는 시점에서 검색 세션이 시작되어 사용자가 검색 쿼리를 입력하거나 검색 쿼리에 대한 검색 결과를 선택하는 등의 검색 행위를 수행한 최종시각으로부터 5분 동안 검색 행위를 수행하지 않고 대기하는 경우 해당 검색 세션이 종료하게 되는 것이다. 따라서, 해당 검색 세션이 종료된 이후 사용자 단말기로부터 입력되는 검색 쿼리는 새로운 검색 세션에 포함되게 된다.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 연관 데이터 클래스 생성 시스템의 개략적인 블록도이다.
도시된 바와 같이, 연관 데이터 클래스 생성 시스템(10)은 데이터베이스(12), 서브셋 결정부(14), 및 연관 데이터 클래스 생성부(16)를 포함한다.
데이터베이스(12)는 각 검색 세션 별로 검색 세션 데이터가 저장되는 것으로서, 검색 세션 데이터는 검색 세션 동안 발생한 사용자의 검색 행위에 대한 데이터를 나타내며, 구체적으로 사용자가 검색 의도를 달성하기 위해 입력한 하나 이상의 검색 쿼리 또는 하나 이상의 검색 쿼리에 대한 검색 결과 문서의 문서 정보(이하 '문서 정보'라 함)를 포함한다. 여기서, 검색 결과 문서 정보는 각 검색 결과 문서의 유알엘(URL: Uniform Resource Location)일 수 있으며, 일 실시예에 있어서, 검색 세션 데이터에 포함되는 검색 결과 문서 정보는 검색 쿼리에 대한 문서 정보 중 사용자에 의해 선택된 문서 정보일 수 있다. 이러한 검색 세션 데이터는 외부 서버(미도시)로부터 획득할 수 있다.
데이터베이스(12)에 저장되는 검색 세션 데이터의 구조가 도 2에 도시되어 있다. 도 2에 도시된 바와 같이, 검색 세션 데이터는 각 검색 세션을 구분할 수 있게 해 주는 검색 세션 식별자 필드(17)와 해당 검색 세션 데이터에 포함되는 검색 쿼리 또는 문서 정보가 저장되는 복수개의 아이템 필드(18)로 구성된다. 여기서, 하나의 아이템 필드에는 하나의 검색 쿼리 또는 문서 정보가 저장된다.
일 실시예에 있어서, 데이터베이스(12)에 저장되는 검색 세션 데이터는 사용자의 검색 의도가 만족된 검색 세션의 데이터일 수 있다. 사용자의 검색 의도가 만족된 검색 세션이란 검색 세션 동안 사용자가 원하는 검색 결과 문서를 획득한 검색 세션을 의미한다.
사용자의 검색 의도가 만족된 검색 세션인지 여부는 검색 결과 문서에 대한 사용자의 명시적인 피드백이 있는 경우에는 해당 피드백 정보를 이용하여 판단할 수 있고, 사용자의 명시적인 피드백이 없는 경우에는 검색 세션 동안 사용자의 검색 행위에 대한 로그분석(예컨대, 검색 결과 문서에 대한 드웰타임(Dwell Time)등의 정보를 분석)을 통해 판단할 수 있다. 이를 위해 연관 데이터 클래스 생성 시스템(10)은 로그 분석부(19)를 더 포함할 수 있다. 즉, 로그 분석부(19)는 외부 서버로부터 전달되는 검색 세션 데이터로부터 검색 결과에 대한 사용자의 만족도 여부를 직접 판단하거나 예측하는 것이다.
상술한 실시예에 있어서는 연관 데이터 클래스 생성 시스템(10)이 로그 분석부(19)를 포함하는 것으로 기재하였지만, 변형된 실시예에 있어서는 이러한 로그 분석부(19)는 외부 서버에 포함되어 있고, 연관 데이터 클래스 생성부(10)는 외부 서버로부터 사용자의 검색 의도가 만족된 검색 세션의 데이터만을 전달받아 데이터베이스(12)에 저장할 수 있다.
서브셋 결정부(14)는 소정 개수 이상의 검색 세션 데이터에 공통적으로 포함되는 소정 개수 이상의 검색 쿼리 또는 문서 정보로 구성된 서브셋을 결정한다.
일 실시예에 있어서, 서브셋 결정부(14)는 데이터 마이닝(Data Mining)의 연관규칙(Association Rule) 마이닝을 사용하여 서브셋을 결정한다. 연관규칙 마이닝은 대규모 데이터 항목의 집합 사이에서 유용한 연관성과 상관관계를 찾는 방법 을 의미하는 것으로서, 본 발명에서는 이러한 연관 규칙 마이닝 중 아프리오리 알고리즘(Apriori Algorithm)을 이용하여 검색 세션 데이터로부터 하나 이상의 서브셋을 결정한다.
아프리오리 알고리즘은 소정 개수의 항목을 가지는 가능한 모든 서브셋을 구하고, 모든 서브셋의 출현빈도를 카운팅하여 모든 서브셋 중 사용자가 정의한 최소 지지도(Minimum Support) 보다 작은 빈도의 서브셋을 제거해 가면서 서브셋의 크기를 늘려가는 방법을 이용한다.
본 실시예에 있어서는 서브셋을 산출하기 위해 아프리오리 알고리즘을 이용하는 것으로 기재하였지만, 변형된 실시예에 있어서는, 이러한 아프리오리 알고리즘 이외에 데이터들의 연관 관계를 탐사할 수 있는 알고리즘이라면 어느 것이든 무방할 것이다. 예컨대, 서브셋 결정부는 서브셋을 결정하기 위해 AIS 알고리즘, SETM 알고리즘, DHP(Direct Hashing and Pruning)알고리즘, Partition 알고리즘, Sampling 알고리즘, FUP(Fast Up)알고리즘, 또는 DIC(Dynamic Itemset Counting)알고리즘 등 다양한 알고리즘을 사용할 수 있을 것이다.
이러한 서브셋 결정부(14)는 도 1에 도시된 바와 같이 서브셋 생성부(20), 카운터(22), 및 서브셋 선택부(24)를 포함한다.
서브셋 생성부(20)는 각 검색 세션 데이터로부터 소정 개수 이상의 검색 쿼리 또는 문서 정보를 포함하는 하나 이상의 서브셋을 생성하고, 카운터(22)는 각 서브셋이 포함된 검색 세션 데이터의 개수를 카운팅하며, 서브셋 선택부(24)는 카운터에 의한 카운팅 결과를 이용하여 서브셋 중에서 소정 개수 이상의 검색 세션 데이터에 공통적으로 포함되는 서브셋을 선택함으로써 연관 데이터 클래스 생성에 이용될 서브셋을 결정한다. 서브셋 선택부(24)에 의해 선택된 서브셋은 임시 저장 영역(미도시)에 저장된다.
일 실시예에 있어서, 서브셋 생성부(20)는 각 검색 세션 데이터로부터 3개 이상의 검색 쿼리 또는 문서 정보를 포함하는 서브셋을 생성하고, 서브셋 선택부(24)는 생성된 서브셋 중 30개 이상의 검색 세션 데이터에 공통적으로 포함되는 서브셋을 연관 데이터 클래스 생성에 이용할 서브셋으로 선택한다. 이때, 각 서브셋은 검색 쿼리 및 문서 정보로 구성될 있지만, 검색 쿼리 또는 문서 정보만으로도 구성될 수 있을 것이다.
서브셋 결정부(14)가 서브셋을 결정하는 과정의 일 예를 도 3을 참조하여 구체적으로 설명한다.
도 3에 도시된 바와 같이, 제1 검색 세션 데이터(26)는 검색 쿼리 또는 문서 정보로 A, B, C, E, G, X를 포함하고, 제2 검색 세션 데이터(28)는 검색 쿼리 또는 문서 정보로 B, C, D, F, G, X를 포함하며, 서브셋은 3개의 검색 쿼리 또는 문서 정보로 구성되고, 이러한 서브셋 중 30개 이상의 검색 세션 데이터에 공통으로 포함되는 서브셋을 연관 데이터 클래스 생성에 이용될 서브셋으로 선택하는 경우, 도 3a에 도시된 바와 같이 제1 검색 세션 데이터(26)에 포함된 B, C, G가 제2 검색 세션 데이터(28)를 비롯한 30개 이상의 검색 세션 데이터에 공통으로 포함되는 경우 B, C, G를 제1 서브셋(30)으로 결정하는 것이다.
또한, 도 3b에 도시된 바와 같이, 제1 검색 세션 데이터(26)에 포함된 B, C, X가 제2 검색 세션 데이터(28)를 비롯한 30개 이상의 검색 세션 데이터에 공통으로 포함되는 경우 B, C, X를 제2 서브셋(32)으로 결정하는 것이다.
한편, 검색 쿼리 또는 문서 정보는 복수개의 서브셋에 포함될 수 있는데, 예컨대 도 3에서 B와 C는 제1 및 제2 서브셋(30, 32)에 동시에 포함된다.
상술한 실시예에 있어서는 서브셋 결정부(14)가 데이터베이스(12)에 저장되어 있는 검색 세션 데이터를 바로 이용하여 서브셋을 결정하는 것으로 기재하였지만, 변형된 실시예에 있어서 서브셋 결정부(14)는 데이터베이스(12)에 저장된 검색 세션 데이터를 필터링한 검색 세션 데이터를 이용하여 서브셋을 결정할 수 있다.
여기서, 필터링이란 검색 세션 데이터에 포함되는 검색 쿼리 또는 문서 정보 중 중복되는 검색 쿼리 또는 문서 정보를 삭제하는 것을 의미한다. 이를 위해 연관 데이터 클래스 생성 시스템(10)은 필터링부(33)를 더 포함할 수 있다. 즉, 필터링부(33)는 검색 세션 데이터에 포함된 중복된 검색 쿼리 또는 문서 정보를 제거함으로써 검색 세션 데이터를 필터링하고 필터링된 검색 세션 데이터를 데이터베이스(12)에 검색 세션 별로 저장하는 것이다.
다시 도 1을 참조하면, 연관 데이터 클래스 생성부(16)는 임시 저장 영역에 저장된 서브셋들 중 공통된 검색 쿼리 또는 문서 정보를 가지는 서브셋들을 결합하되, 더 이상 결합할 서브셋이 존재하지 않을 때까지 반복적으로 결합함으로써 연관 데이터 클래스를 생성한다. 일 실시예에 있어서 연관 데이터 클래스 생성부(16)는 서브셋들 중 2개 이상의 검색 쿼리 또는 문서 정보가 공통적으로 포함된 서브셋들을 반복적으로 결합함으로써 연관 데이터 클래스를 생성할 수 있다. 연관 데이터 클래스 생성부(16)는 연관 데이터 클래스를 데이터베이스(12)에 저장하거나 외부 서버로 전송할 수 있다.
연관 데이터 클래스 생성부(16)가 연관 데이터 클래스를 생성하는 과정의 일 예를 도 4를 참조하여 구체적으로 설명한다.
도 4a에 도시된 바와 같이, 제1 서브셋(30)은 그 구성요소로 B, C, G를 포함하고 제2 서브셋(32)은 그 구성요소로 B, C, X를 포함하는 경우 두 서브셋은 B 및 C가 공통되므로 이 두 서브셋을 결합하여 제1 연관 데이터 클래스(34)를 생성한다. 이로 인해 제1 연관 데이터 클래스(34)는 그 구성요소로 B, C, G, X를 포함하게 된다. 한편, 도 4b에 도시된 바와 같이 제3 서브셋(36)이 그 구성요소로 D, G, X를 포함하는 경우 제1 연관 데이터 클래스(34)와 제 3 서브셋(36)은 G, X가 공통되므로 이 둘을 다시 결합하여 제2 연관 데이터 클래스(38)을 생성하는 것이다. 이러한 결합 과정을 더 이상 결합할 서브셋이 존재하지 않을 때까지 반복적으로 수행함으로써 최종적인 연관 데이터 클래스를 생성하게 되는 것이다.
연관 데이터 클래스 생성부(16)에 의해 동일한 클래스로 묶인 검색 쿼리들은 동일한 의도를 가지고 입력된 검색 쿼리인 것으로 판단될 수 있고, 동일한 클래스로 묶인 문서 정보는 서로 유사한 내용을 포함하고 있는 문서로 판단될 수 있으며, 동일한 클래스로 묶인 검색 쿼리 및 문서정보의 경우 해당 문서 정보가 해당 검색 쿼리에 대해 정확한 검색 결과인 것으로 판단될 수 있다.
상술한 연관 데이터 클래스 생성 시스템을 이용하여 연관 데이터 클래스를 생성하는 방법을 도 5를 참조하여 구체적으로 설명한다.
먼저, 하나 이상의 검색 쿼리와 검색 쿼리에 상응하는 하나 이상의 문서 정보를 포함하는 검색 세션 데이터가 각 검색 세션 별로 저장된 데이터베이스를 유지한다(제100단계). 여기서 문서 정보란 검색 쿼리에 대한 검색 결과로서의 문서 정보를 의미하는 것으로서, 각 검색 결과 문서의 유알엘(URL: Uniform Resource Location)일 수 있다. 일 실시예에 있어서, 검색 세션 데이터에 포함되는 문서 정보는 사용자에 의해 입력된 검색 쿼리에 대한 문서 정보 중 사용자에 의해 선택된 문서 정보일 수 있다.
이때 검색 세션 데이터는 검색 세션 데이터 중 사용자의 검색 의도가 만족된 검색 세션의 데이터일 수 있으며, 사용자가 만족한 검색 세션인지의 여부는 상술한 바와 같이 검색 세션 동안 사용자의 검색 행위를 통해 예측하거나, 검색 결과에 대한 사용자의 명시적인 피드백을 통해 판단할 수 있다.
다음으로, 데이터베이스(12)에 저장된 각 검색 세션 데이터의 서브셋을 생성한다(제110단계). 이때, 서브셋은 3개 이상의 검색 쿼리 또는 문서 정보를 포함하도록 생성할 수 있다. 이후, 생성된 서브셋 중에서 소정 개수 이상의 검색 세션 데이터에 공통적으로 포함되는 서브셋을 선택한다(제120단계). 일 실시예에 있어서, 30개 이상의 검색 세션 데이터에 공통적으로 포함되어 있는 서브셋을 선택할 수 있다.
이때, 서브셋의 생성 및 선택 과정은 데이터 마이닝 중 연관 규칙 마이닝을 이용해서 수행될 수 있는데, 일 실시예에 있어서, 본 발명은 연관 규칙 마이닝 중 아프리오리 알고리즘을 이용하여 서브셋을 생성하고 선택할 수 있다. 본 실시예에 서는 서브셋의 생성 및 선택이 아프리오리 알고리즘을 이용하여 수행되는 것으로 기재하였지만, 상술한 바와 같이 이는 일 예일 뿐 다른 알고리즘을 이용하여 서브셋을 생성 및 선택할 수 있을 것이다.
마지막으로, 선택된 서브셋 중 소정 개수 이상의 쿼리 또는 문서 정보가 공통되는 서브셋들을 더 이상 결합할 서브셋이 존재하지 않을 때까지 반복적으로 결합함으로써 연관 데이터 클래스를 생성한다(제130단계). 예컨대 선택된 서브셋들 중 2개 이상의 검색 쿼리 또는 문서 정보가 공통으로 포함된 서브셋들을 반복적으로 결합함으로써 연관 데이터 클래스를 생성하는 것이다.
상술한 실시예에 있어서는 서브셋을 생성함에 있어서 데이터베이스(12)에 저장되어 있는 검색 세션 데이터를 바로 이용하는 것으로 기재하였지만, 변형된 실시예에 있어서 서브셋은 데이터베이스(12)에 저장된 검색 세션 데이터를 필터링한 검색 세션 데이터를 이용하여 생성할 수 있다. 이를 위해 본 발명의 연관 데이터 클래스 생성 방법은 데이터베이스(12)에 저장된 검색 세션 데이터에 대해 필터링을 수행하는 단계를 더 포함할 수 있을 것이다.
상술한 연관 데이터 클래스 생성 방법에 따라 생성된 연관 데이터 클래스는 다양한 분야에서 이용될 수 있다. 예컨대, 본 발명은 새롭게 생성되는 성인 키워드를 색출해 내는데 이용될 수 있다. 즉, 본 발명에 의하는 경우 기존의 성인 키워드와 동일한 데이터 클래스에 포함되어 있는 새로운 검색 쿼리들은 성인 키워드일 확률이 높으므로 이러한 검색 쿼리들을 성인 키워드로 설정함으로써 새로운 성인 키워드가 검색 쿼리로 입력되는 경우 검색 서비스가 제공되지 않도록 하는 것이 다.
또한, 본 발명은 확장 검색 쿼리를 제공하는데 이용될 수 있다. 기존의 확장 검색 쿼리 제공 서비스의 경우 사용자의 검색 의도와는 무관하게 단지 검색 쿼리에 포함된 단어들이 동시에 출현하는 빈도를 기준으로 하여 확장 검색 쿼리가 제공되었으므로 연관도가 떨어지는 확장 키워드가 제공되는 경우가 있었지만, 본 발명에 의하는 경우 동일한 검색 의도로 입력된 검색 쿼리들의 집단인 연관 데이터 클래스 내에 포함된 검색 쿼리들을 이용하여 확장 검색 쿼리를 제공하게 되므로 확장 키워드의 신뢰성을 높일 수 있게 된다.
이외에도, 본 발명은 사용자가 특정 검색 쿼리 또는 특정 검색 결과 문서의 랭킹을 높이기 위해 특정 검색 쿼리를 반복적으로 입력하거나 특정 검색 결과 문서를 반복적으로 선택하는 어뷰즈(Abuse)를 탐지하는데 이용될 수도 있다.
상술한 연관 데이터 클래스 생성 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 연관 데이터 클래스 생성 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명의 일 실시예에 따른 연관 데이터 클래스 생성 시스템의 개략적인 블록도.
도 2는 검색 세션 데이터의 구조를 보여주는 도면.
도 3a 내지 도 3b는 서브셋 결정부가 서브셋을 결정하는 과정의 일 예를 보여주는 도면.
도 4a 도 4b는 연관 데이터 클래스 생성부가 연관 데이터 클래스를 생성하는 과정의 일 예를 보여주는 도면.
도 5는 본 발명의 일 실시예에 따른 연관 데이터 클래스 생성 방법을 보여주는 플로우차트.
<도면의 주요부분에 대한 부호의 설명>
10: 연관 데이터 클래스 생성 시스템 12: 데이터베이스
14: 서브셋 결정부 16: 연관 데이터 클래스 생성부
19: 로그분석부 20: 서브셋 생성부
22: 카운터 24: 서브셋 선택부
33: 필터링부

Claims (18)

  1. 하나 이상의 검색 쿼리와 상기 검색 쿼리에 상응하는 하나 이상의 문서 정보를 포함하는 검색 세션 데이터가 각 검색 세션 별로 저장된 데이터베이스를 유지하는 단계;
    상기 데이터베이스로부터 소정 개수 이상의 검색 세션에 공통적으로 포함되는 검색 쿼리 또는 문서 정보로 구성된 하나 이상의 서브셋을 결정하는 단계; 및
    상기 서브셋에 포함된 상기 쿼리 또는 문서 정보가 소정 개수 이상 동일한 서브셋들을 결합함으로써 연관 데이터 클래스를 생성하는 단계;
    를 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  2. 제1항에 있어서, 상기 서브셋 결정단계는,
    상기 각 검색 세션 데이터로부터 소정 개수 이상의 검색 쿼리 또는 문서 정보를 포함하는 서브셋을 생성하는 단계; 및
    상기 서브셋 중 소정 개수 이상의 검색 세션 데이터에 공통적으로 포함된 서브셋을 선택하는 단계;
    를 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  3. 제2항에 있어서, 상기 서브셋 생성단계에서, 상기 서브셋은 적어도 3개의 쿼리 또는 문서 정보를 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  4. 제1항에 있어서, 상기 서브셋 결정단계에서, 상기 서브셋은 데이터 마이닝의 연관규칙(Association Rule)을 이용하여 결정되는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  5. 제1항에 있어서, 상기 서브셋 결정단계에서, 상기 서브셋은 데이터 마이닝의 연관규칙 중 아프리오리(Apriori) 알고리즘을 이용하여 결정되는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  6. 제1항에 있어서, 상기 연관 데이터 클래스 생성단계에서, 상기 서브셋들 중 적어도 2개의 검색 쿼리 또는 문서 정보가 공통되는 서브셋들을 결합함으로써 상기 연관 데이터 클래스를 생성하는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  7. 제1항에 있어서, 상기 데이터베이스 유지 단계는 상기 검색 세션 데이터에 포함된 검색 쿼리 및 문서 정보 중 중복되는 검색 쿼리 및 문서 정보를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  8. 제1항에 있어서, 상기 데이터베이스 유지 단계에서 상기 데이터베이스에 저장되는 상기 검색 세션 데이터는 사용자의 검색 의도가 만족된 검색 세션의 데이터인 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  9. 제8항에 있어서, 상기 사용자의 검색 의도가 만족된 검색 세션인지 여부는 상기 사용자의 검색 행위에 대한 로그분석을 통해 판단되는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  10. 제1항에 있어서, 상기 검색 세션은 사용자 단말기로부터 최초 쿼리가 수신되는 시점부터 시작되어 상기 사용자 단말기로부터 데이터의 송신이 없는 시점에 종료되는 것을 특징으로 하는 연관 데이터 클래스 생성 방법.
  11. 제1항 내지 제10항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
  12. 하나 이상의 검색 쿼리와 상기 검색 쿼리에 상응하는 하나 이상의 문서 정보를 포함하는 검색 세션 데이터가 각 검색 세션 별로 저장되는 데이터베이스;
    상기 데이터베이스로부터 소정 개수 이상의 검색 세션에 공통적으로 포함되는 검색 쿼리 또는 문서 정보로 구성된 하나 이상의 서브셋을 결정하는 서브셋 결정부; 및
    상기 서브셋에 포함된 상기 검색 쿼리 또는 문서 정보가 소정 개수 이상 동일한 서브셋들을 결합함으로써 연관 데이터 클래스를 생성하는 연관 데이터 클래스 생성부;
    를 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 시스템.
  13. 제12항에 있어서, 상기 서브셋 결정부는
    상기 데이터베이스에 저장된 각 검색 세션 데이터 중 소정 개수 이상의 검색 쿼리 또는 문서 정보를 포함하는 서브셋을 생성하는 서브셋 생성부;
    상기 서브셋 생성부에 의해 생성된 서브셋이 포함된 상기 검색 세션 데이터의 개수를 카운팅 하는 카운터; 및
    상기 카운터에 의한 카운팅 결과로부터 소정 개수 이상의 검색 세션 데이터에 공통적으로 포함된 서브셋을 선택하는 서브셋 선택부;
    를 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 시스템.
  14. 제12항에 있어서, 상기 서브셋 결정부는 데이터 마이닝의 연관규칙(Association Rule)을 이용하여 상기 서브셋을 결정하는 것을 특징으로 하는 연관 데이터 클래스 생성 시스템.
  15. 제12항에 있어서, 상기 서브셋 결정부는 데이터 마이닝의 연관규칙 중 아프리오리(Apriori) 알고리즘을 이용하여 상기 서브셋을 결정하는 것을 특징으로 하는 연관 데이터 클래스 생성 시스템.
  16. 제12항에 있어서, 상기 연관 데이터 클래스 생성 시스템은 상기 검색 세션 데이터에 포함된 검색 쿼리 및 문서 정보 중 중복되는 검색 쿼리 및 문서 정보를 삭제하는 필터링부를 더 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 시스템.
  17. 제12항에 있어서, 상기 데이터베이스에 저장되는 상기 검색 세션 데이터는 사용자의 검색 의도가 만족된 검색 세션의 데이터인 것을 특징으로 하는 연관 데이터 클래스 생성 시스템.
  18. 제17항에 있어서, 상기 연관 데이터 클래스 생성 시스템은 상기 사용자의 검색 의도가 만족된 검색 세션인지 여부를 판단하기 위해 상기 검색 세션 동안 상기 사용자의 검색 행위에 대한 로그분석을 수행하는 로그 분석부를 더 포함하는 것을 특징으로 하는 연관 데이터 클래스 생성 시스템.
KR1020070074112A 2007-07-24 2007-07-24 연관 데이터 클래스 생성 방법 및 시스템 KR100899930B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070074112A KR100899930B1 (ko) 2007-07-24 2007-07-24 연관 데이터 클래스 생성 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070074112A KR100899930B1 (ko) 2007-07-24 2007-07-24 연관 데이터 클래스 생성 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20090010752A KR20090010752A (ko) 2009-01-30
KR100899930B1 true KR100899930B1 (ko) 2009-05-28

Family

ID=40489881

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070074112A KR100899930B1 (ko) 2007-07-24 2007-07-24 연관 데이터 클래스 생성 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100899930B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101078864B1 (ko) 2009-03-26 2011-11-02 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
KR101068839B1 (ko) * 2009-04-09 2011-09-29 티에스온넷(주) 사용자 세션 로그와 데이터베이스 쿼리 로그를 추적 연결하는 로그 통합 시스템 및 그 로그 통합 방법
KR101444832B1 (ko) * 2010-08-09 2014-09-30 충북대학교 산학협력단 연관 규칙 마이닝을 이용한 주제어 기반 인터넷 정보 검색 방법
KR101039414B1 (ko) * 2011-01-18 2011-06-08 최낙언 객체 간의 관계를 설정하고 이에 대한 정보를 제공하기 위한 방법, 서버 및 컴퓨터 판독 가능한 기록 매체
KR102345142B1 (ko) * 2019-10-25 2021-12-30 중앙대학교 산학협력단 개인정보 보호를 위한 비식별화 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040029895A (ko) * 2002-10-02 2004-04-08 씨씨알 주식회사 검색 시스템
KR20060006945A (ko) * 2003-04-25 2006-01-20 오버츄어 서비시즈, 인크. 문서 연관 함수를 기계 습득하는 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040029895A (ko) * 2002-10-02 2004-04-08 씨씨알 주식회사 검색 시스템
KR20060006945A (ko) * 2003-04-25 2006-01-20 오버츄어 서비시즈, 인크. 문서 연관 함수를 기계 습득하는 방법 및 장치

Also Published As

Publication number Publication date
KR20090010752A (ko) 2009-01-30

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
KR101557294B1 (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
KR101311022B1 (ko) 클릭 간격 결정
US7657515B1 (en) High efficiency document search
CN104794242B (zh) 一种搜索方法
US20100293179A1 (en) Identifying synonyms of entities using web search
EP1600861A2 (en) Query to task mapping
US8527487B2 (en) Method and system for automatic construction of information organization structure for related information browsing
US10643031B2 (en) System and method of content based recommendation using hypernym expansion
JP4371382B2 (ja) アクセス対象情報検索装置
US20110208715A1 (en) Automatically mining intents of a group of queries
US20200380046A1 (en) String matching method, string matching apparatus, storage medium, and electronic device
US9721000B2 (en) Generating and using a customized index
KR100899930B1 (ko) 연관 데이터 클래스 생성 방법 및 시스템
JP6219967B2 (ja) ラベル付非テキスト系アイテムを検索するためのシステム及び方法
US8972363B2 (en) Rule discovery system, method, apparatus and program
US20090006354A1 (en) System and method for knowledge based search system
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
KR100869545B1 (ko) 검색 히스토리를 생성하는 되풀이 검색시스템
Malhotra et al. An ingenious pattern matching approach to ameliorate web page rank
US9886497B2 (en) Indexing presentation slides
US9996621B2 (en) System and method for retrieving internet pages using page partitions
Sheokand et al. Best effort query answering in dataspaces on unstructured data
Kantorski et al. Choosing values for text fields in web forms
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120329

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 11