KR101072691B1

KR101072691B1 - 연관성 피드백을 이용한 데이터베이스 검색 방법 및 이를 수행하는 프로그램을 기록한 기록매체

Info

Publication number: KR101072691B1
Application number: KR1020090067086A
Authority: KR
Inventors: 유환조
Original assignee: 포항공과대학교 산학협력단
Priority date: 2009-07-23
Filing date: 2009-07-23
Publication date: 2011-10-11
Also published as: EP2282274A1; KR20110009744A; US20110022590A1; CN101963971A

Abstract

랭킹 방법을 데이터베이스 시스템에 적용하여 효율적인 데이터베이스 검색을 가능하게 하는 연관성 피드백을 이용한 데이터베이스 검색 방법 및 이를 수행하는 프로그램을 기록한 기록매체가 개시된다. 데이터베이스 검색 방법은, (a) 제1 검색 결과에 대한 연관성 피드백을 제공받는 단계와, (b) 제공된 연관성 피드백에 기초하여 연관성 함수를 도출하는 단계 및 (c) 제1 검색 결과를 연관성 함수에 적용하여 연관성 정도에 따라 정렬된 제2 검색 결과를 제공하는 단계를 포함한다. 따라서 연관성 피드백과 랭킹 방법을 이용하여 적은 양의 피드백으로부터 정확한 연관성 함수를 도출할 수 있어서 사용자가 원하는 결과를 얻기 위하여 모든 검색 결과를 검토할 필요가 없이 효율적인 데이터베이스 검색이 가능하다.

연관성, 피드백, 데이터베이스, 검색, 학습

Description

연관성 피드백을 이용한 데이터베이스 검색 방법 및 이를 수행하는 프로그램을 기록한 기록매체{METHOD FOR SEARCHING DATABASE USING RELEVANCE FEEDBACK AND STORAGE MEDIUM OF STORING PROGRAM FOR EXECUTING THE SAME}

본 발명은 데이터베이스에 관한 것으로서, 더욱 상세하게는 데이터베이스 검색 방법 및 이를 수행하는 프로그램을 기록한 기록매체에 관한 것이다.

일반적인 데이터베이스 검색에 있어서 목적하는 데이터나 문서를 정확하게 찾기는 쉬운 일이 아닌데, 그 이유는 질의 인터페이스 및 키워드를 이용하여 사용자의 특정한 검색을 표현하는 것이 어렵고, 또한 너무 많은 검색 결과를 내어놓기 때문이다. 예를 들어, 생물 의학 분야 연구에 있어서 중요한 정보원(情報源) 중의 하나인 PubMed 데이터베이스의 경우에도, "breast cancer"를 키워드로 입력하였을 때 20만개 이상의 문서를 검색 결과로 리턴한다. 이 경우 사용자는 검색 결과를 게재일, 저자, 논문지 이름 등을 기준으로 정렬하는 정도의 전처리를 거친 후 자신이 목적하는 논문을 일일이 찾는 과정을 거쳐야 한다.

한편, 사용자가 원하는 결과를 얻어내기 쉽도록 검색 결과를 재구성하는 방법이 연구되어 왔는데, 구글(Google) 검색 사이트에서 볼 수 있듯이 문서에 대한 인용 정보를 이용하여 그 문서의 전체적인 중요도를 계산하고, 계산된 결과를 검색 결과에 순위를 매기는데 사용하는 방법 등이 그것이다. 이러한 문제를 해결하는 방안으로서 기계 학습 기법을 활용하는 방안도 고려되어 왔으나, 학습 과정과 순위화(랭킹, Ranking) 과정이 오프라인에서 실행되고, 일정 수준 이상의 검색 정확도를 얻기 위하여 많은 양의 학습 데이터가 필요하다는 점에서 한계가 있다.

또 다른 문제는 동일한 키워드 질의에 대하여 사용자마다 목적하는 결과가 다를 수 있다는 점이다. 예를 들어, 동일한 "breast cancer" 키워드에 대하여, 어떤 사용자는 유전학 관련 논문에 흥미가 있지만, 다른 사용자는 최신의 암 수술에 대한 논문을 원할 수도 있다. 따라서 전체적인 중요도에 따라 순위를 매기는 방법은 특정 사용자에 대한, 즉 개인화된 정보 요구에 대하여는 대응하지 못하는 경우가 자주 발생하게 된다.

따라서 본 발명의 제1 목적은 피드백을 이용하여 사용자가 목적하는 보다 정확한 검색 결과를 얻을 수 있도록 연관성 피드백을 이용한 데이터베이스 검색 방법을 제공하는 것이다.

그리고 본 발명의 제2 목적은 상기와 같은 연관성 피드백을 이용한 데이터베이스 검색 방법을 수행하는 디지털 처리 장치에 의해 실행될 수 있는 명령어의 프로그램이 유형적으로 구현되어 있으며, 상기 디지털 처리 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체를 제공하는 것이다.

상술한 본 발명의 제1 목적을 달성하기 위한 본 발명의 일 실시예에 따른 데이터베이스 검색 방법은, (a) 제1 검색 결과에 대한 연관성 피드백을 제공받는 단계와, (b) 제공된 상기 연관성 피드백에 기초하여 연관성 함수를 도출하는 단계 및 (c) 상기 제1 검색 결과를 상기 연관성 함수에 적용하여 연관성 정도에 따라 정렬된 제2 검색 결과를 제공하는 단계를 포함한다.

상기 (a) 단계는, (a1) 검색 조건을 포함하는 질의를 제공받는 단계와, (a2) 상기 질의에 대응되는 상기 제1 검색 결과를 제공하는 단계 및 (a3) 제공한 상기 제1 검색 결과에 대한 상기 연관성 피드백을 제공받는 단계를 포함할 수 있다.

상기 (b) 단계는, 제공된 상기 연관성 피드백에 기초한 랭킹 방법을 이용하여 상기 제1 검색 결과에 포함된 각 데이터의 연관성 정도에 따라 랭킹 점수를 반 환하는 연관성 함수를 도출할 수 있다.

상기 랭킹 방법은 RankSVM(Ranking Support Vector Machine), RankNet 및 RankBoost 중 어느 하나일 수 있다.

상기 (b) 단계는, 학습 데이터를 포함하는 학습 테이블을 입력 인자로 하고, 학습된 결과 데이터를 포함하는 모델 테이블을 출력 인자로 하는 SQL 구문의 형태로 실행될 수 있다.

상기 학습 테이블은 인스턴스 식별자 속성, 인스턴스를 기술하는 특징 벡터 속성 및 인스턴스의 랭킹 라벨 속성을 포함할 수 있다.

상기 (b) 단계 및 상기 (c) 단계 중 적어도 하나의 단계는, 데이터베이스 시스템 상에서 별개의 독립적인 질의 언어 명령의 형태 또는 기존 질의 언어에 통합된 명령의 형태로 수행될 수 있다.

상기 (c) 단계는, 학습된 결과 데이터를 포함하는 모델 테이블 및 예측 대상 데이터를 포함하는 테스트 테이블을 입력 인자로 하고, 상기 예측 대상 데이터에 대하여 랭킹 점수를 부여한 결과 데이터를 포함하는 결과 테이블을 출력 인자로 하는 SQL 구문의 형태로 실행될 수 있다.

상기 테스트 테이블은 인스턴스 식별자 속성 및 인스턴스를 기술하는 특징 벡터 속성을 포함하고, 상기 결과 테이블은 인스턴스 식별자 속성 및 인스턴스의 랭킹 점수 속성을 포함할 수 있다.

상기 연관성 피드백은 상기 제1 검색 결과에 대한 다단계 연관성 피드백 또는 상기 제1 검색 결과에 대한 상대적 연관성 정렬 피드백 중 어느 하나일 수 있 다.

상기 연관성 함수는 데이터베이스 시스템 상의 테이블의 형태로 저장될 수 있다.

상술한 본 발명의 제2 목적을 달성하기 위한 본 발명의 일 실시예에 따른 데이터베이스 검색 방법을 수행하는 디지털 처리 장치에 의해 실행될 수 있는 명령어의 프로그램이 유형적으로 구현되어 있으며, 상기 디지털 처리 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체는, (a) 제1 검색 결과에 대한 연관성 피드백을 제공받는 단계와, (b) 제공된 상기 연관성 피드백에 기초하여 연관성 함수를 도출하는 단계 및 (c) 상기 제1 검색 결과를 상기 연관성 함수에 적용하여 연관성 정도에 따라 정렬된 제2 검색 결과를 제공하는 단계를 수행하는 프로그램을 기록한다.

상기와 같은 연관성 피드백을 이용한 데이터베이스 검색 방법 및 이를 수행하는 프로그램을 기록한 기록매체에 따르면, 다단계(Multi-Level) 피드백이나 상대적인 연관성 정렬(Relative Relevance Ordering) 등의 연관성 피드백과 랭킹 방법을 이용하여 적은 양의 피드백으로부터 정확한 연관성 함수를 도출할 수 있어서 사용자가 원하는 결과를 얻기 위하여 모든 검색 결과를 검토할 필요가 없이 효율적인 데이터베이스 검색이 가능하다.

그리고 각 사용자의 피드백으로부터 사용자별로 각각 다른 연관성 함수를 학습하고, 랭킹 학습과 질의 처리가 데이터베이스 시스템에 통합되므로 실시간으로 개인화된 데이터베이스 검색을 지원할 수 있다.

또한 랭킹 학습 방법이 DBMS(Database Management System)에, 구체적으로 SQL(Structured Query Language) 등과 같은 질의 언어에 통합되므로 추가적인 디스크 접근이 없어 질의 처리 속도가 향상되고, 데이터를 관리하고 접근하기 위해 인덱스(Indexes) 및 최적화기(Optimizers)와 같은 데이터베이스 기능을 사용할 수 있으며, 기존의 질의 언어를 그대로 이용하여 관련 애플리케이션을 개발, 유지, 보수하는 것이 용이하다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

데이터 마이닝(Data Mining) 기술은 연관 규칙 마이닝(Association Rule Mining), 분류 및 예측(Classification and Prediction), 군집화(Clustering), 그리고 텍스트 및 웹 마이닝 등을 이용하여 데이터를 분석하고 데이터로부터 유용한 정보들을 추출하는 방법에 관한 것이다. 이러한 데이터 마이닝 기술 중 주어진 데이터들에 대하여 정하여진 기준에 따라 순위를 부여하는 방법이 랭킹(Ranking) 기법이다.

하지만 데이터 마이닝 기술은 기존의 데이터베이스 관리 시스템, 예를 들어 관계형 데이터베이스 관리 시스템(Relational Database Management System; RDBMS) 등과 연동하여 수행되기 어렵다. 그 이유는 그 동안의 연구가 기계 학습(Machine Learning)이나 정보 검색(Information Retrieval) 등의 분야에서 사용되는 알고리즘을 기반으로 하여 진행되었기 때문이다. 이로 인해 랭킹 알고리즘은 기존에 존재하는 RDBMS 등과는 전혀 별개로 개발되어 왔으며, 그 결과 기존의 MySQL, Oracle, MS-SQL 등과 같은 RDBMS와 전혀 연동이 되지 않고 있다.

본 발명은 이와 같은 한계를 극복하기 위하여 랭킹 알고리즘을 데이터베이스 시스템에 통합하여 실행함으로써 사용자에게 개인화되고 보다 정확한 검색 결과를 제공한다. 랭킹 알고리즘은 단독적으로 실행되는 질의 언어(Query Language)의 형 태 또는 기존 질의 언어 구문에 통합된 형태로 실행될 수 있다.

랭킹 방법에는 RankSVM(Ranking Support Vector Machine), RankNet, RankBoost 등이 있다. 본 발명에 사용되는 랭킹 방법 내지 랭킹 알고리즘은 특정한 알고리즘에 제한되지 아니하고, 주어진 데이터들에 대하여 정하여진 기준에 따라 일정한 순위를 부여하는 모든 종류의 알고리즘이 사용될 수 있다. 이하에서는 RankSVM을 예로 들어 설명한다.

SVM(Support Vector Machine)은 학습 데이터(Training Data)를 비선형 매핑을 통해 고차원 벡터로 변환하고, 고차원 상에서 미리 정하여진 기준에 따라 학습 데이터를 최적으로 분리하는 선형 분리 초평면(Hyperplane)을 구하는 방법이다. SVM은 학습 시간은 길지만 복잡한 비선형 의사 결정 영역을 정확하게 모델링(모형화)할 수 있어서 분류 문제에서 널리 사용되고 있다.

RankSVM은 분류 목적의 SVM을 랭킹 문제에 적합하도록 수정한 것으로서, 데이터 쌍 사이의 거리에 기초하여 정의되는 목적 함수(Objective Function)를 최적화 내지 최소화하는 방향으로 학습이 이루어진다. RankSVM은 모델 학습 과정과 예측 과정으로 이루어지는데, 모델 학습 과정에서는 목적 함수에 대하여 데이터 쌍 간의 거리를 최적화 내지 최소화하도록 가중치 벡터(Weight Vector)를 결정하고, 예측 과정에서는 학습된 모델을 이용하여 각 데이터의 점수를 구하여 순위화(랭킹)를 수행한다. 구체적으로, 학습 데이터로부터 전체 데이터에 점수를 부여할 수 있는 선호도 함수 또는 연관성 함수를 도출하고, 도출된 함수를 기반으로 각 데이터의 점수를 계산하여 랭킹 작업을 진행한다.

"A가 B보다 선호된다(Preferred)."는 것을 "A ?? B"로 표기하기로 한다. RankSVM의 학습 데이터 R은 아래의 수학식 1과 같이 나타낼 수 있다.

주어진 학습 데이터 집합 R에 대하여, RankSVM은 학습 데이터 벡터에 있어서 x_i ?? x_j 인 경우 F(x_i) > F(x_j)를 만족하는 랭킹 점수 함수(Rank Scoring Function) F를 계산한다. 예를 들어, F는 아래의 수학식 2와 같이 정의되는 선형 랭킹 함수일 수 있다.

다음으로 학습 데이터 집합인 R에 부합하는 F를 학습하여, 학습 데이터 집합 R 이외의 데이터에 대하여도 일반화하여 예측할 수 있도록 한다. 이러한 과정은 수학식 2을 만족하는 가중치 벡터(Weight Vector) w를 찾는 과정에 해당한다. 구체적으로, RankSVM은 아래의 수학식 3과 같이 정의되는 L₁을 최소화하는 가중치 벡터를 찾는다.

여기서 w는 가중치 벡터, ξ_ij는 오분류(Misclassification)의 정도를 측정하는 슬랙 변수(Slack Variables), C는 한계 범위(Soft Margin) 크기와 학습 시 오류 크기 간의 타협점(Trade-Off)을 결정하는 사용자 파라미터, x_i, x_j는 학습 데이터 벡터(Training Data Vector)이다. RankSVM에 대한 추가적인 상세한 사항은 관련 공지기술 및 기술문헌으로부터 용이하게 파악될 수 있으므로 이하 설명은 생략한다(Burges, C.J.C.: A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery 2, 121.167 (1998), Hastie, T., Tibshirani, R.: Classification by pairwise coupling. In: Advances in Neural Information Processing Systems (1998), J.H.Friedman: Another approach to polychotomous classification. Tech. rep., Standford University, Department of Statistics, 10:1895-1924 (1998)).

도 1 및 도 2는 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터 베이스 검색 방법을 설명하기 위한 개념도이다.

도 1을 참조하면, 본 발명을 PubMed 데이터베이스에 대하여 구현한 검색 시스템 RefMed의 프로토타입이 나타나 있다(). PubMed는 연관성 검색이 어려운 데이터베이스의 전형적인 예에 해당하는데, PubMed는 주어진 질의에 대해 정확히 매칭되는 것만을 찾아주고 연관성 랭킹을 지원하지 않기 때문에 PubMed 데이터베이스로부터 관련 논문을 찾는 것은 쉽지 않다.

도 1에서 보는 바와 같이, 사용자가 "breast cancer"라는 키워드를 포함하는 질의를 입력하면, RefMed가 초기 검색 결과를 리턴하고, 사용자는 초기 검색 결과에 대해 연관성 피드백을 줄 수 있다. 도 1의 우측 부분에서 보는 바와 같이, 사용자는 검색 결과의 맨 처음 다섯 개의 문서에 대하여 차례대로 "관련되지 않음", "다소 관련됨", "많이 관련됨", "많이 관련됨", "다소 관련됨"과 같은 식으로 사용자가 원하는 검색 결과와의 합치 여부 내지 연관 여부에 대한 피드백을 줄 수 있다.

도 2를 참조하면, 사용자가 연관성 피드백을 입력한 후의 정렬된 검색 결과가 나타나 있다. 사용자의 연관성 피드백으로부터 연관성 함수 내지 랭킹 점수 함수(Rank Scoring Function)를 도출하고, 도출된 함수를 이용하여 초기 검색 결과에 포함된 문서들에 대해 점수를 부여하여 그 점수에 따라 초기 검색 결과를 재정렬한다. 도 2의 우측 부분에서 보는 바와 같이, 사용자가 "많이 관련됨"으로 연관성 피드백을 부여했던 문서가 검색 결과의 상위에 위치해 있는 것을 볼 수 있다.

RefMed 검색 시스템은 사용자가 복잡한 검색 질의를 입력하지 않고도 연관성 을 쉽게 표현할 수 있도록 하고, 표현된 연관성에 따라 신속하게 연관된 결과를 찾아준다.

도 3 및 도 4는 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 먼저 제1 검색 결과에 대한 연관성 피드백을 제공받는다(S110). 구체적으로, 도 4에 나타난 바와 같이, 사용자로부터 검색 조건을 포함하는 질의를 제공받고(S111), 질의에 대응되는 제1 검색 결과를 제공하며(S113), 제공한 제1 검색 결과에 대한 연관성 피드백을 제공받을 수 있다.

연관성 피드백은 제1 검색 결과에 대한 다단계 연관성 피드백일 수 있다. 예를 들어, "연관됨(Relevant)", "연관되지 않음(Not Relevant)"과 같은 이진 피드백에 제한되지 아니하고, "관련되지 않음(Not Relevant)", "다소 관련됨(Partially Relevant)", "많이 관련됨(Highly Relevant)" 등과 같은 형태를 취할 수 있다.

연관성 피드백은 제1 검색 결과에 대한 상대적 연관성 정렬(Relative Relevance Ordering) 피드백일 수 있다. 즉, 제1 검색 결과의 일부 또는 전체에 대하여 사용자가 연관성 정도에 따라 재배열하는 형태를 취할 수 있다.

다시 도 3을 참조하면, 다음으로 제공된 연관성 피드백에 기초하여 연관성 함수를 도출한다(S120). 이 경우, 제공된 연관성 피드백에 기초한 랭킹 방법을 이용하여 제1 검색 결과에 포함된 각 데이터의 연관성 정도에 따라 랭킹 점수를 반환하는연관성 함수를 도출할 수 있다. 즉, 사용자로부터 받은 연관성 피드백과 연관 성 피드백의 대상이 된 검색 결과를 학습 데이터로서 랭킹 방법에 적용하여 학습하고, 랭킹 방법에 의한 학습 결과인 연관성 함수를 도출할 수 있다.

랭킹 방법은 데이터 간의 연관성 정도에 따라 랭킹 점수를 반환하도록 학습하는 기계 학습 방법으로서, 상술한 바와 같이 RankSVM(Rank Support Vector Machine), RankNet, RankBoost 등이 있다.

데이터베이스 시스템의 관점에서, 연관성 함수 도출 단계(S120)는 학습 데이터를 포함하는 학습 테이블을 입력으로 받아, 학습된 결과 데이터를 포함하는 모델 테이블을 출력하는 SQL 구문으로 구현될 수 있다. 여기서 연관성 함수는 모델 테이블의 형태로 데이터베이스 상에서 저장되거나 구현될 수 있다.

도 5는 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법에서 이용되는 테이블의 예시도이다.

도 5를 참조하면, 각각의 데이터를 인스턴스(Instance)라고 하면, 학습 테이블(train_table)은 인스턴스 식별자(Instance Identifier) 속성(Attribute)을 갖는 ID, 인스턴스를 기술하는 특징 벡터(Feature Vector) 속성을 갖는 FVector 및 인스턴스의 랭킹 라벨(Ranking Label) 속성을 갖는 RankGroup 및 Rank를 포함할 수 있다. RankGroup 및 Rank 는 상대적인 연관성 정렬 집합에서 특정 인스턴스의 랭킹 라벨을 지정하기 위해 필요하다.

모델 테이블(model_table)은 한계 범위(Soft Margin) 속성을 갖는 CVal, 커널 타입 속성을 갖는 KType, 커널 속성을 갖는 KVal을 포함할 수 있다. 예를 들어, 선형 커널 또는 RBF 커널을 지원하는 경우, KType = {linear, RBF}와 같은 값을 가 질 수 있다. 또한 모델 테이블(model_table)은 계수(Coefficient) 속성을 갖는 Alpha, 서포트 벡터(Support Vectors) 속성을 갖는 SVector를 포함할 수 있는데, 이는 수학식 3을 참조하여 설명한 RankSVM의 최적화 과정에서 계산되는 값들이다. 상기 계수 및 서포트 벡터에 대한 상세한 사항은 관련 공지기술 및 기술문헌으로부터 용이하게 파악될 수 있으므로 이하 설명은 생략한다.

다시 도 3을 참조하면, 상술한 연관성 함수 도출 단계(S120) 및 후술할 제2 검색 결과 제공 단계(S130) 중 적어도 하나의 단계는, 데이터베이스 시스템 상에서 별개의 독립적인 질의 언어 명령의 형태 또는 기존 질의 언어에 통합된 명령의 형태로 수행될 수 있다.

연관성 함수 도출 단계(S120) 및 제2 검색 결과 제공 단계(S130) 중 적어도 하나의 단계가 기존의 질의 언어에 통합된 명령의 형태로 수행된다는 것은 RankSVM 등의 랭킹 방법이 DBMS(Database Management System)에, 구체적으로 SQL(Structured Query Language) 등과 같은 질의 언어에 통합된다는 것을 의미한다. 이 경우 중간 파일(Intermediate Files)을 생성하기 위한 추가적인 디스크 접근이 없이 SQL 데이터 테이블 등의 데이터 테이블 상에서 학습 및 랭킹을 수행할 수 있으므로 질의 처리 속도가 향상되고 효율적인 실행이 가능하다. 그리고 데이터를 관리하고 접근하기 위해 인덱스(Indexes) 및 최적화기(Optimizers)와 같은 데이터베이스 기능을 사용할 수 있다. 또한 랭킹 방법이 기존의 질의 언어에 통합됨으로 인하여 기존의 질의 언어를 그대로 이용하여 관련 애플리케이션을 개발, 유지, 보수하는 것이 용이하다.

다음으로 제1 검색 결과를 도출된 연관성 함수에 적용하여 연관성 정도에 따라 정렬된 제2 검색 결과를 제공한다(S130). 구체적으로, 제1 검색 결과를 랭킹 방법에 의한 학습(S120)의 결과인 연관성 함수 내지 랭킹 점수 함수에 대입하고, 각 문서 별 연관성 정도 또는 연관성 점수에 따라 제1 검색 결과를 정렬한 결과를 제2 검색 결과로서 제공할 수 있다.

데이터베이스 시스템의 관점에서, 제2 검색 결과 제공 단계(S130)는 학습된 결과 데이터를 포함하는 모델 테이블 및 연관성 정도를 예측할 대상 데이터를 포함하는 테스트 테이블을 입력으로 받아, 테스트 테이블에 대응되는 결과 테이블을 출력하는 SQL 구문으로 구현될 수 있다.

도 5를 참조하면, 테스트 테이블은 인스턴스 식별자 속성 및 인스턴스를 기술하는 특징 벡터 속성을 포함할 수 있다. 그리고 결과 테이블은 인스턴스 식별자 속성 및 인스턴스의 랭킹 점수(Ranking Score) 속성을 포함할 수 있다.

다시 도 3을 참조하면, 사용자가 제2 검색 결과에 만족하는지를 사용자의 검색 종료 입력 등에 의하여 판단하여(S140), 연관성 피드백을 추가로 제공받는 경우에는 제2 검색 결과를 제1 검색 결과로 지정하여(S150) 상술한 과정을 반복하게 된다.

랭킹 방법이 기존 질의 언어에 통합된 명령의 형태로 수행되는 예로서, RankSVM 관련 실행 구문이 SQL에 삽입되는(Embedded) 경우를 예로 들어 이하에서 설명한다.

RankSVM은 아래와 같은 학습 과정(RANKSVM_LEARN)과 예측(랭킹, RANKSVM_PREDICT) 과정을 수행한다. 아래에서 보는 바와 같이 RANKSVM_LEARN을 실행하여 모델 테이블을 생성하는데, 학습된 모델 정보를 포함하는 상기 모델 테이블은 RANKSVM_PREDICT 의 입력으로 사용된다.

model_table = RANKSVM_LEARN train_table parameters

output_table = RANKSVM_PREDICT model_table test_table

RANKSVM_LEARN 은 train_table 및 parameters 를 입력으로 받고, model_table을 출력으로 한다. RANKSVM_PREDICT 는 model_table 및 test_table 을 입력으로 받고, output_table 을 출력으로 한다. train_table, model_table 및 test_table 에 포함되는 속성에 대하여는 학습 테이블, 모델 테이블 및 테스트 테이블에 관하여 상술한 바와 동일하게 이해될 수 있으므로 이하 설명을 생략한다. parameters 는 사용자가 지정할 수 있는 파라미터로서, 한계 범위(Soft Margin) 속성을 갖는 CVal, 커널 타입 속성을 갖는 KType, 커널 속성을 갖는 KVal을 포함한다.

RANKSVM_LEARN 및 RANKSVM_PREDICT 에 대응되는 SQL BNF(Backus-Naur Form)은 아래와 같다. 여기서 커널은 선형(Linear) 커널 또는 RBF 커널이 될 수 있다.

<query expression> ::= <non-join query expression> | <joined table> |

<ranksvm learn> ::= "RANKSVM_LEARN" <train table> <parameters>

<ranksvm predict> ::= "RANKSVM_PREDICT" <model table> <test table>

<parameters> ::= "(" <cval> "," "LINEAR" ")" | "(" <cval> "," "RBF" "," <kval> ")"

<cval> ::= NUM

<kval> ::= NUM

학습 및 예측 명령이 SQL의 <query expression> 의 일부로서 정의되었기 때문에 다른 SQL 구문의 서브 질의로서 사용될 수 있다. 학습 테이블, 모델 테이블 및 테스트 테이블은 SQL의 <table reference> 로서 정의되기 때문에 명령문 내에 서브 질의가 위치할 수 있다. 학습 테이블로부터 학습된 함수에 따라 테스트 테이블의 데이터에 대해 랭킹(순위화)을 수행하는 SQL 질의의 예는 아래와 같다.

SELECT test_table.ID, output_table.RScore

FROM test_table, (

RANKSVM_PREDICT (

RANKSVM_LEARN train_table (LINEAR, 1)

) test_table

) AS output_table

WHERE test_table.ID = output_table.ID

ORDER BY output_table.RScore DESC;

도 6은 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법의 학습 단계에서의 효율성 실험 결과를 나타내는 그래프이다. 그리고 도 7은 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법의 예측 단계에서의 효율성 실험 결과를 나타내는 그래프이다.

본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법에서 랭킹 방법이 데이터베이스 시스템 상에 통합된 경우(이하에서 '밀결합'이라 한다.)의 성능을 평가하기 위해, 데이터베이스 테이블로부터 추출된 학습 데이터를 오프라인 상에서 랭킹 학습한 후 다시 그 결과를 데이터베이스 테이블에 저장하는 경우(이하에서 '소결합'이라 한다.)와 비교한 결과가 나타나 있다.

실험에서는 합성(Synthetic) 데이터 셋을 사용하였다. 합성 데이터 셋은 정상 분포를 따르는 랜덤 함수를 이용하여 100개의 특성(Feature)을 만들어 내고, 임의의 랜덤 스코어 함수를 만들어내 이 스코어 함수에 각 데이터들을 적용한 결과값을 바탕으로 전체 데이터 셋을 0 ~ 4의 5개의 부분(Partial) 랭킹으로 나누었다. 그리고 여러 개의 데이터 개수를 가지는 합성 데이터 셋을 생성하여 실험에 사용하였다. 실험은 Intel QuadCore 2개와 RAM 40G, HDD 4.5TB 사양을 갖춘 DELL 서버의 Linux Kernel 2.6.18, MySQL 5.0.51a 상에서 수행하였다.

도 6을 참조하면, 학습 단계의 정규화된 질의 처리 시간에 있어서, 밀결합 방식이 소결합 방식에 비하여 데이터 셋의 개수가 20일 경우 40%가 넘는 질의처리 시간이 단축되었고, 나머지 경우에도 10% ~ 20%의 질의 처리 시간이 단축되었음을 알 수 있다.

도 7을 참조하면, 예측(랭킹) 단계의 정규화된 질의 처리 시간에 있어서, 밀결합 방식이 소결합 방식에 비하여 거의 60% 정도의 질의 처리 시간을 단축시키고 있음을 알 수 있다. 특히 예측 단계에서 밀결합 방식이 소결합 방식에 비해서 월등한 성능 향상이 있음을 확인할 수 있다.

도 8은 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법의 정확도 실험 결과를 나타내는 그래프이다.

이진 판단(Binary Judgments)에 대비하여 다단계 연관성 판단(Multi-level Relevance Judgments)의 정확도를 실험하였는데, 그 정확도 계산의 기준으로는 랭킹 평가를 위해 많이 사용되는 NDCG(Normalized Discount Cumulative Gain)와 Kendall's τ가 사용되었다.

실험 데이터로는 합성(synthetic) 데이터 집합과 OHSUMED 데이터 집합을 이용하였다. 합성 데이터 집합은 150개 데이터를 포함하느데, 각 데이터는 50개의 피쳐(Feature)를 가지고 각 피쳐는 0과 1 사이의 난수값을 가진다. 정확도는 학습 전후의 랭킹 함수를 비교하여 측정되었다.

OHSUMED 데이터 집합은 PubMed 문서의 부분집합으로서 348,566개의 문서와 106개의 질의로 구성된다. 연관성 판단(피드백)이 내려진 총 16,140개의 질의-문의 조합이 존재한다. 연관성 판단은 '확실한 연관(definitely relevant)', '부분적인 연관(partially relevant)', 또는 '연관 없음(not relevant)'으로 이루어졌다.

도 8을 참조하면, X축(수평축)은 학습 데이터의 수를 나타내고, Y축(수직축)은 NDCG 및 Kendall's τ 기준으로 측정된 정확도를 나타낸다. 정확도는 30회 실행 결과의 평균으로 산출되었다. 학습 데이터의 수가 증가함에 따라 정확도가 증가하고, 또한 이진 판단(이진 피드백)에 비하여 3단계 판단(3단계 피드백)이 더 개선된 정확도를 보임을 알 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

도 1 및 도 2는 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법을 설명하기 위한 개념도이다.

도 6은 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법의 학습 단계에서의 효율성 실험 결과를 나타내는 그래프이다.

도 7은 본 발명의 일 실시예에 따른 연관성 피드백을 이용한 데이터베이스 검색 방법의 예측 단계에서의 효율성 실험 결과를 나타내는 그래프이다.

Claims

사용자로부터 제 1 검색 결과에 대한 연관성 피드백을 제공받는 단계;

상기 연관성 피드백 및 상기 제 1 검색 결과를 학습 데이터로서 포함하는 학습 테이블을 수신하여 학습된 결과 데이터를 포함하는 모델 테이블을 출력하는 학습 단계; 및

상기 모델 테이블 및 예측 대상 데이터를 포함하는 테스트 테이블을 수신하고, 상기 모델 테이블을 기초로 하여 상기 예측 대상 데이터에 대하여 랭킹 점수를 부여한 결과 데이터를 포함하는 결과 테이블을 제 2 검색 결과로서 출력하는 예측 단계를 포함하는 것을 특징으로 하는 데이터베이스 검색 방법.
제1항에 있어서, 상기 학습 테이블은,

인스턴스 식별자 속성, 인스턴스를 기술하는 특징 벡터 속성 및 인스턴스의 랭킹 라벨 속성을 포함하는 것을 특징으로 하는 데이터베이스 검색 방법.
제1항에 있어서, 상기 학습 단계는,

상기 연관성 피드백에 기초한 랭킹 방법을 이용하여 상기 제1 검색 결과에 포함된 각 데이터의 연관성 정도에 따라 랭킹 점수를 반환하는 연관성 함수를 도출하는 것을 특징으로 하는 데이터베이스 검색 방법.
제1항에 있어서, 상기 학습 단계 및 상기 예측 단계 중 적어도 하나의 단계는,

데이터베이스 시스템상에서 별개의 독립적인 질의 언어 명령의 형태 또는 기존 질의 언어에 통합된 명령의 형태로 수행되는 것을 특징으로 하는 데이터베이스 검색 방법.
제1항에 있어서,

상기 테스트 테이블은 인스턴스 식별자 속성 및 인스턴스를 기술하는 특징 벡터 속성을 포함하고,

상기 결과 테이블은 인스턴스 식별자 속성 및 인스턴스의 랭킹 점수 속성을 포함하는 것을 특징으로 하는 데이터베이스 검색 방법.
제1항에 있어서, 상기 연관성 피드백은,

상기 제1 검색 결과에 대한 다단계 연관성 피드백 또는 상기 제1 검색 결과에 대한 상대적 연관성 정렬 피드백 중 어느 하나인 것을 특징으로 하는 데이터베이스 검색 방법.
데이터베이스 검색 방법을 수행하는 디지털 처리 장치에 의해 실행될 수 있는 명령어의 프로그램이 유형적으로 구현되어 있으며, 상기 디지털 처리 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체는,

사용자로부터 제 1 검색 결과에 대한 연관성 피드백을 제공받는 단계;

상기 연관성 피드백과 상기 제 1 검색 결과를 학습 데이터로서 포함하는 학습 테이블을 수신하여 학습된 결과 데이터를 포함하는 모델 테이블을 출력하는 학습 단계; 및

상기 모델 테이블 및 예측 대상 데이터를 포함하는 테스트 테이블을 수신하고, 상기 모델 테이블을 기초로 하여 상기 예측 대상 데이터에 대하여 랭킹 점수를 부여한 결과 데이터를 포함하는 결과 테이블을 제 2 검색 결과로서 출력하는 예측 단계를 수행하는 프로그램을 기록하는 기록매체.
제7항에 있어서, 상기 학습 테이블은,

인스턴스 식별자 속성, 인스턴스를 기술하는 특징 벡터 속성 및 인스턴스의 랭킹 라벨 속성을 포함하는 것을 특징으로 하는 기록매체.
제7항에 있어서, 상기 학습 단계는,

상기 연관성 피드백에 기초한 랭킹 방법을 이용하여 상기 제1 검색 결과에 포함된 각 데이터의 연관성 정도에 따라 랭킹 점수를 반환하는 연관성 함수를 도출하는 것을 특징으로 하는 기록매체.
제7항에 있어서, 상기 학습 단계 및 상기 예측 단계 중 적어도 하나의 단계는,

데이터베이스 시스템 상에서 별개의 독립적인 질의 언어 명령의 형태 또는 기존 질의 언어에 통합된 명령의 형태로 수행되는 것을 특징으로 하는 기록매체.
제7항에 있어서,

상기 테스트 테이블은 인스턴스 식별자 속성 및 인스턴스를 기술하는 특징 벡터 속성을 포함하고,

상기 결과 테이블은 인스턴스 식별자 속성 및 인스턴스의 랭킹 점수 속성을 포함하는 것을 특징으로 하는 기록매체.
제7항에 있어서, 상기 연관성 피드백은,

상기 제1 검색 결과에 대한 다단계 연관성 피드백 또는 상기 제1 검색 결과에 대한 상대적 연관성 정렬 피드백 중 어느 하나인 것을 특징으로 하는 기록매체.