KR20070035786A

KR20070035786A - 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법

Info

Publication number: KR20070035786A
Application number: KR1020050090581A
Authority: KR
Inventors: 강기만
Original assignee: 강기만
Priority date: 2005-09-28
Filing date: 2005-09-28
Publication date: 2007-04-02

Abstract

본 발명은 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치 및 방법에 있어서, 본 발명의 장치 및 방법은 문서 검색 대상이 되는 온라인 및 오프라인 문서들을 수집하는 단계; 상기 수집된 문서들을 파싱하여 인덱싱하는 단계; 상기 인덱싱 결과를 저장하는 단계; 질의어의 입력에 응답하여 상기 질의어에 대한 형태소를 분석하는 단계; 상기 형태소 분석된 질의어를 단어 교차 관계 기반의 방법으로 질의어 확장하고 그에 의거하여 검색을 수행하는 단계; 및 상기 검색 결과를 출력하는 단계를 포함하고, 소정의 질의어에 대해 검색 결과에 따른 문서 내에 빈도수가 높은 단어를 추출하고 해당 단어에 대한 검색을 수행하여 상기 소정의 질의어에 대한 연관도를 파악하여 가중치를 부여함으로써 소정의 질의어에 대한 효율적인 검색이 가능하도록 한다.

질의어, 검색, 연관도, 가중치

Description

단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치 및 그 방법{APPARATUS AND METHOD FOR DOCUMENT SEARCHING USING TERM CROSSING RELATION BASED QUERY EXPANSION}

도 1은 본 발명의 일 실시 예에 따른 문서 검색 장치에 대한 개략적인 블럭도,

도 2 및 도 3은 본 발명의 일 실시 예에 따른 문서 검색 방법에 대한 처리 흐름도들,

도 4a 및 도 4b는 본 발명의 일 실시 예에 따른 질의어 확장 방법을 기존의 질의어 확장 방법과 비교하기 위한 제 1 예시도들,

도 5a 및 도 5b는 본 발명의 일 실시 예에 따른 질의어 확장 방법을 기존의 질의어 확장 방법과 비교하는 제 2 예시도들.

본 발명은 온-오프라인에서의 문서 검색 장치 및 그 방법에 관한 것으로서, 특히, 문서 검색에 있어서의 질의어에 관한 정보를 제공함으로써 효율적인 검색이 이루어질 수 있도록 하는 온-오프라인에서의 문서 검색 장치 및 그 방법에 관한 것 이다.

최근 인터넷 및 인트라넷을 이용한 정보가 방대해 짐으로써 인터넷에 익숙한 최종 이용자에 의한 정보검색 작업이 보편화되고 있는 실정이다. 따라서 정보 검색에 있어서 비전문가인 일반 이용자를 지원할 수 있는 지능적이고 효과적인 정보검색 기법에 대한 필요성이 더욱 커지고 있다.

전문가가 길고 상세한 탐색문을 작성하는 데 반해서 일반 이용자들은 온-라인 데이터베이스를 탐색할 때에도 10개 이내의 질의어를 사용하는 경향이 있으며, 심지어 웹 검색 엔진에서는 대부분의 이용자가 2개 이하의 질의어를 사용하고 있는 것으로 분석되어 있다(Jansen, Spink, & Saracevic 2000). 또한 일반 이용자들은 이와 같이 적은 수의 질의어를 사용하면서도 검색 결과를 보고 질의 수정을 거의 하지 않는 것으로 나타났다(Fenichel 1981).

정보 요구가 구체적으로 표현되지 않은 짧은 탐색문을 사용하는 검색 결과는 상대적으로 나쁠 수밖에 없다.

이런 문제를 해결하기 위해서, 1970년대에 이용자의 초기 질의와 관련된 용어를 새로운 질의에 추가하는 자동 질의 확장(automatic query expansion)에 대한 연구가 시작되었으며, 최근 들어서는 앞에서 언급한 바와 같은 필요성으로 인해 상기 자동 질의 확장에 대한 연구가 더욱 활발하게 진행되고 있다.

그러나 종래에 제안된 자동 질의 확장 방법은 일반적으로 유사 단어에 관한 정보를 제공하는 정도에 불과하여 효율적인 질의어 확장이 이루어지지 않는 문제점이 있다. 이로 인해 종래의 자동 질의 확장 방법을 이용한 문서 검색은 문서 검색 결과에 대한 신뢰성을 효율적으로 향상시키지 못하는 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 문서 검색 결과에 대한 신뢰성을 효율적으로 향상시키기 위한 문서 검색 방법 및 장치를 제공하는 데에 있다.

또한 본 발명의 목적은 소정 질의어에 대하여 문서 검색을 효율적으로 수행할 수 있도록 하기 위해 단어 교차 관계 기반의 질의어 확장 방법을 이용한 문서 검색 방법 및 장치를 제공하는 데에 있다.

상기 목적을 달성하기 위한 본 발명의 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치는 검색 대상이 되는 문서들을 수집하는 로봇 에이전트; 상기 로봇 에이전트로부터 수집된 문서들을 파싱하여 인덱싱하는 인덱싱 모듈; 상기 인덱싱 모듈로부터 인덱싱된 문서들을 전달받아 저장하고 요청에 따라 저장된 문서들을 제공하는 데이터 베이스; 질의어를 입력받는 질의어 입력부; 상기 질의어 입력부로 부터 입력된 상기 소정의 질의어에 대한 형태소를 분석하는 한글 형태소 분석부; 및 상기 한글 형태소 분석부에서 형태소 분석이 된 상기 질의어에 대하여 단어 교차 관계에 따른 가중치를 부여한 후 그 결과에 의거하여 상기 질의어와 관련된 확장된 질의어를 제공하고 상기 확장된 질의어를 이용하여 문서 검색을 수행하는 질의어 확장 문서 검색부를 포함하여 구성된다.

이 때, 상기 로봇 에이전트는 웹-페이지를 포함한 온라인 문서를 수집하는 웹-로봇; 및 기업 내 망 및 개인의 피.씨에 저장된 문서를 포함하는 오프라인 문서를 수집하는 인트라넷-로봇을 포함함이 바람직하다.

또한 상기 인덱싱 모듈은 상기 로봇 에이전트로부터 입력된 문서들을 자동으로 인덱싱이 바람직하다.

또한 상기 데이터 베이스는 상기 인덱싱 모듈에서 인덱싱된 문서들을 인덱싱한 상태로 저장하고, B+ 트리 구조로 구성함이 바람직하다.

또한 상기 질의어 확장 문서 검색부는 상기 한글 형태소 분석부를 통해 상기 소정의 질의어를 입력받아, 상기 데이터베이스를 통해 상기 소정의 질의어에 대한 제1 검색을 수행하여 그 결과 중 상위의 n개의 문서로부터 빈도수가 상위인 단어들(A)을 추출하고 상기 각각의 단어들에 대한 가중치를 부여하는 과정과, 상기 추출된 단어들(A) 각각에 대해 제2 검색을 수행하여 각각의 검색 결과 중 상위의 m개의 문서 내에서 빈도수가 상위인 단어들(B)을 추출하여 추출된 단어들(B) 중에 상기 소정의 질의어가 있는지 여부에 따라, 제2 검색의 질의어로 사용된 단어에 대해 단어 교차 관계에 따른 가중치를 부여하는 과정; 및 부여된 가중치의 크기에 따라 상기 소정의 질의어에 연관된 단어들을 순차적으로 출력하는 과정을 수행함이 바람직하다.

한편 상기 목적을 달성하기 위한 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법은 문서 검색 대상이 되는 온라인 및 오프라인 문서들을 수집하는 단계; 상기 수집된 문서들을 파싱하여 인덱싱하는 단계; 상기 인덱싱 결과를 저장 하는 단계; 질의어의 입력에 응답하여 상기 질의어에 대한 형태소를 분석하는 단계; 상기 형태소 분석된 질의어를 단어 교차 관계 기반의 방법으로 질의어 확장하고 그에 의거하여 검색을 수행하는 단계; 및 상기 검색 결과를 출력하는 단계를 포함하여 구성된다.

이 때, 상기 수집 단계는 웹-페이지를 포함하는 온라인 문서 수집 단계; 및

기업 내 망 및 개인의 피.씨에 저장된 문서를 포함하는 오프라인 문서 수집 단계를 포함함이 바람직하다.

또한 상기 인덱싱 단계는 상기 수집 단계에서 수집된 문서들을 자동으로 인덱싱함이 바람직하다.

또한 상기 저장 단계는 상기 인덱싱 단계에서 인덱싱된 문서들을 인덱싱한 상태로 저장함이 바람직하다.

또한 상기 검색 수행 단계는 질의어가 입력되면 상기 데이터베이스를 통해 상기 질의어에 대한 제1 검색을 수행하는 단계; 상기 제1 검색 결과 중 상위 n개의 문서 내에서 빈도수가 상위인 단어들(A)을 추출하는 제1 추출 단계; 상기 각각의 단어들에 대한 가중치를 부여하는 제1 가중치 부여 단계; 상기 추출된 단어들(A) 각각에 대해 제2 검색을 수행하는 단계; 상기 제2 검색 결과 중 상위 m개의 문서 내에서 빈도수가 상위인 단어들(B)을 추출하는 제2 추출 단계; 상기 추출된 단어들(B) 중에 상기 소정의 질의어가 있는지 여부에 따라 제2 검색의 질의어로 사용된 단어에 대해 단어 교차 관계에 따른 가중치를 부여하는 제2 가중치 부여 단계; 및 상기 부여된 가중치의 크기에 따라 상기 소정의 질의어에 연관된 단어들을 순차적 으로 출력하는 단계를 포함하는 것이 바람직하다.

이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다. 또한 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.

도 1은 본 발명의 일 실시 예에 따른 문서 검색 장치에 대한 개략적인 블럭도이다. 도 1을 참조하면 본 발명의 일 실시 예에 따라 단어 교차 관계 기반 질의어 확장 방법이 적용된 문서 검색 장치(100)는 로봇 에이전트(110), 자동 인덱싱 모듈(120), 인덱싱 문서 데이터베이스(DB: DataBase)(130), 질의어 입력부(140), 한글 형태소 분석부(150), 질의어 확장 문서 검색부(160) 및 검색 결과 출력부(170)를 포함한다.

로봇 에이전트(110)는 검색 대상이 되는 문서들을 수집한다. 이 때 로봇 에이전트(110)는 온라인 및 오프라인 문서 검색을 지원하기 위해 온라인 문서 및 오오프라인 문서를 모두 수집함이 바람직하다. 이를 위해 로봇 에이전트(110)는 온라인 문서(예컨대, 웹 페이지 등)를 수집하는 웹-로봇(111)과, 오프라인 문서(예컨대, 기업 내 망이나 개인의 PC에 저장된 문서 등)통해 문서들을 수집하는 인트라넷 로봇(113)을 포함함이 바람직하다. 웹-로봇(111)과 인트라넷-로봇(113)의 동작은 사용자의 용도에 따라 구분되는 것으로 그 동작 및 기능은 유사하다.

자동 인덱싱 모듈(120)은 로봇 에이전트(110)로부터 입력된 문서들을 파싱하여 인덱싱하고 이를 인덱싱 문서 DB(130)에 저장한다. 또한 자동 인덱싱 모듈(120) 은 로봇 에이전트(110) 및 인덱싱 문서 DB(130)와 연동하여 로봇 에이전트(110)로부터 입력된 문서들을 자동으로 인덱싱하며 상기 문서들을 인덱싱한 상태로 인덱싱 문서 DB(130)에 저장한다. 이는 사용자가 키워드를 입력함과 동시에 결과를 출력할 수 있도록함으로써 검색의 효율성과 속도를 높이기 위함이다.

이 때 자동 인덱싱 모듈(120)이 로봇 에이전트(110)로부터 입력된 문서들을 자동 인덱싱하는 이유는 검색 시스템의 동작 효율을 높이기 위해서이다. 즉, 몇 메가에서 수백 기가 까지 다양하게 분포된 문서의 양에 제한을 받지 않고 문서의 검색이나 저장의 효율을 높이도록 하기 위함이다. 다시 말해 문서의 양이 늘어날 수록 검색의 속도와 저장 효율이 떨어지는 문제점을 해결하기 위함이다.

인덱싱 문서 DB(130)는 자동 인덱싱 모듈(120)로부터 인덱싱된 문서들을 전달받아 저장한다. 특히 인덱싱 문서 DB(130)는 상기 문서들을 인덱싱한 상태로 저장한다. 또한 질의어 확장 문서 검색부(160)의 검색 요청에 따라 대응된 문서들을 질의어 확장 문서 검색부(160)에게 제공한다.

한편 인덱싱 문서 DB(130)는 일반 DBMS(Data Base Management System)을 사용하지 않고 자체 구축된 데이터베이스를 사용하는 것이 바람직하다. 이 때 자체 구축된 데이터베이스는 로봇 에이전트(110)로 부터 전달된 모든 문서들을 인덱싱된 상태로 저장하고 있으며, 자료의 삽입, 삭제, 검색 등의 기능을 효율적으로 하기 위한 자료 구조로 되어있다. 이를 위해 인덱싱 문서 DB(130)는 B+ 트리 구조를 가지는 것이 바람직하다.

질의어 입력부(140)는 소정의 질의어를 입력받는다. 예를 들어 문서 검색을 희망하는 사용자가 문서 검색을 위해 입력한 질의어를 내부로 읽어들인다. 그리고 그 질의어를 한글 형태소 분석부(150)로 전달한다.

한글 형태소 분석부(150)는 질의어 입력부(140)를 통해 입력되는 질의어에 대한 형태소를 분석하여 이를 단어 교차 관계 기반 질의어 확장 문서 검색부(160)로 전달한다. 이는 검색의 효율성과 정확성을 향상시키기 위함이다.

예를 들어 사용자가 "핑클"이라는 키워드를 입력하면, 즉, 질의어 입력부(140)로 부터 "핑클"이라는 질의어가 전달되면, 한글 형태소 분석부(150)는 "핑클"과 "써핑클럽"을 구분하여 "핑클"에 관한 결과를 낸다. 하지만 만약 한글 형태소 분석부(150)가 사용되지 않는 경우 해당 검색 장치는 이러한 단어를 구분하지 못한다. 따라서 한글 형태소 분석부(150)를 적용하지 않은 검색 장치의 경우 검색의 효율성과 정확성이 상당히 떨어지는 문제가 있는 것이다.

질의어 확장 문서 검색부(160)는 한글 형태소 분석부(150)에서 형태소 분석된 질의어에 대하여 질의어 확장에 의한 문서 검색을 수행한다. 특히 질의어 확장 문서 검색부(160)는 단어 교차 관계에 기반한 질의어 확장 방법을 수행한다. 단어 교차 관계에 기반한 질의어 확장이란 입력된 질의어와 상호 밀접한 관계에 있는 단어들에 대한 가중치를 부여하고 그 가중치의 크기에 따라 질의어를 확장하는 것을 말하는 것으로서, 상호 밀접한 관계에 있는 단어를 찾는 방법은 다음과 같다. 질의어 확장 문서 검색부(160)는 상기 확장된 질의어를 이용하여 인덱싱 문서 DB(130)를 검색한다.

질의어 확장 문서 검색부(160)에서 질의어 확장에 의해 문서를 검색하는 방 법은 다음과 같다.

즉, 한글 형태소 분석부(150)를 통해 소정의 질의어가 입력되면 질의어 확장 문서 검색부(160)는 인덱싱 문서 DB(130)로부터 상기 입력된 질의어에 대한 문서 검색(이하, '제1 검색'이라 칭함)을 수행한다. 그리고 상기 제1 검색 결과들 중 상위 n개의 문서들로부터 빈도수가 상위인 단어들(A)을 추출하여 각각의 추출된 단어들에 대한 가중치를 부여한다. 상기와 같이 제1 검색에 의해 추출된 단어들에 대하여 가중치를 부여하는 과정을 수행하였으면, 질의어 확장 문서 검색부(160)는 상기 추출된 단어들(A) 각각에 대한 문서 검색(이하, '제2 검색'이라 칭함)을 수행한다. 즉, 인덱싱 문서 DB(130)로부터 상기 단어들(A) 각각을 포함하는 문서들을 검색한다. 그리고 상기 각각의 검색 결과 중 상위 m개의 문서 내에서 빈도수가 상위인 단어들(B)을 추출하여 추출된 단어들(B) 중에 소정의 질의어가 있는지 여부를 확인하고 그 여부에 따라 가중치를 부여한다. 즉, 제2 검색의 질의어로 사용된 단어에 대해 단어 교차 관계에 따른 가중치를 부여한다.

또한 과정에 의해 부여된 가중치의 크기에 따라 단어들을 순차적으로 출력한다. 이 때 가중치의 크기가 상기 입력된 소정의 질의에 연관된 정도를 나타내는 값이 된다. 이와 같이 가중치의 크기에 따라 출력된 단어들이 상기 입력된 질의어에 대하여 확장된 질의어가 되는 것이다.

검색 결과 출력부(170)는 질의어 확장 문서 검색부(160)에서 검색된 검색 결과를 출력한다. 예를 들어 검색 결과 출력부(170)는 확장된 질의어에 의해 검색된 문서 검색 결과를 출력한다.

도 2 및 도 3은 본 발명의 일 실시 예에 따른 문서 검색 방법에 대한 처리 흐름도들이다. 도 2는 본 발명의 일 실시 예에 따른 문서 검색 방법에 대한 처리 흐름도이고, 도 3은 본 발명의 일 실시 예에 따른 질의어 확장 방법을 이용한 문서 검색 과정에 대한 처리 흐름도이다.

도 2를 참조하면 본 발명의 일 실시 예에 따른 문서 검색 방법은 다음과 같다. 먼저 문서 검색을 수행하기 위해 문서 검색 대상이 되는 온라인 및/또는 오프라인 문서들을 수집한다(S110). 이를 위해 온라인 및/또는 오프라인 문서 검색을 위한 로봇(예컨대, 웹-로봇 및/또는 인트라넷-로봇 등)을 이용함이 바람직하다. 이 때 '웹-로봇'은 웹 페이지 등의 온라인 문서를 수집하고, '인트라넷-로봇'은 기업내 망이나 개인의 PC에 저장된 문서 등을 수집하는 문서 수집용 로봇을 말한다.

상기 과정(S110)에서 온라인 및/또는 오프라인 문서들을 수집하였으면 본 발명의 문서 검색 방법은 상기 수집된 문서들을 파싱하여 자동 인덱싱한다(S120). 이 때 상기 과정(S120)에서 문서들을 자동 인덱싱하는 이유는 검색 시스템의 동작 효율을 높이기 위해서이다. 즉, 몇 메가에서 수백 기가 까지 다양하게 분포된 문서의 양에 제한을 받지 않고 문서의 검색이나 저장의 효율을 높이도록 하기 위함이다. 다시 말해 문서의 양이 늘어날 수록 검색의 속도와 저장 효율이 떨어지는 문제점을 해결하기 위함이다.

그리고 상기 인덱싱 결과를 저장한다(S130). 이 때 본 발명의 검색 방법에서는 상기 인덱싱 결과를 자체 구축된 데이터 베이스에 저장함이 바람직하다. 상기 자체 구축된 데이터베이스는 로봇 에이전트(110)로 부터 전달된 모든 문서들을 인 덱싱된 상태로 저장하고 있으며, 자료의 삽입, 삭제, 검색 등의 기능을 효율적으로 하기 위한 자료 구조로 되어있다. 이를 위해 인덱싱 문서 DB(130)는 B+ 트리 구조를 가지는 것이 바람직하다.

또한 상기 과정(S130)에서 본 발명의 문서 검색 방법은 상기 문서들을 인덱싱한 상태로 인덱싱 문서 DB(130)에 저장한다. 이는 사용자가 키워드를 입력함과 동시에 결과를 출력할 수 있도록함으로써 검색의 효율성과 속도를 높이기 위함이다.

그리고 문서 검색을 위한 소정의 질의어가 입력되면(S140) 상기 입력된 질의어에 대한 형태소를 분석한다(S150). 이는 검색의 효율성과 정확성을 향상시키기 위함이다. 한글 형태소 분석에 대한 구체적인 설명은 도 1의 한글 형태소 분석부(150)에 대한 설명시 언급한 바와 유사하다. 따라서 상기 과정(S150)에 대한 보다 구체적인 설명은 생략할 것이다.

상기 과정(S150)에서 질의어에 대한 한글 형태소 분석을 수행하였으면 그 결과를 가지고 문서 검색을 수행한다(S160). 특히 상기 과정(S160)에서는 단어 교차 관계 기반의 질의어 확장에 따른 문서 검색을 수행한다. 이 때 단어 교차 관계에 기반한 질의어 확장이란 입력된 질의어와 상호 밀접한 관계에 있는 단어들에 대항 가중치를 부여하고 그 가중치의 크기에 따라 질의어를 확장하는 것을 말한다. 단어 교차 관계 기반의 질의어 확장에 따른 문서 검색 과정(S160)에 대한 구체적인 설명은 도 3을 참조하여 설명할 것이다.

상기 과정(S160)을 통해 단어 교차 관계 기반의 질의어 확장에 따른 문서 검 색을 완료하였으면 마지막으로 그 검색 결과를 출력한다(S170). 즉 질의어 확장에 의한 문서 검색 결과를 출력한다.

도 3을 참조하면 본 발명의 일 실시 예에 따른 질의어 확장 방법을 이용한 문서 검색 과정(즉, 단어 교차 관계 기반의 질의어 확장에 따른 문서 검색 과정)(S160)에 대한 보다 상세한 처리 과정은 다음과 같다.

먼저 상기 과정(S160)에서는 입력된 질의어에 대한 문서 검색을 수행한다(S161). 즉, 상기 과정(S130)에서 저장된 문서들 중 상기 질의어를 포함하는 문서를 검색한다. 그리고 그 결과 중 상위 n개의 문서를 파싱한다(S162). 또한 상기 파싱된 n개의 문서 내에서 사용된 빈도수가 상위인 단어들(A)을 추출하고(S163) 그 추출된 단어들에 대한 가중치를 계산한다.

한편 상기 추출된 단어들(A) 각각에 대해 다시 검색을 수행한다(S164). 즉, 상기 과정(S130)에서 저장된 문서들 중 상기 단어들(A) 각각을 포함하는 문서를 거색한다. 그리고 그 결과 중 상위 m개의 문서를 파싱한다(S165). 또한 상기 파싱된 m개의 문서 내에서 사용된 빈도수가 상위인 단어들(B)을 다시 추출하여(S166) 추출된 단어들(B) 중에 상기 입력된 질의어가 있는지 여부에 따라 해당 단어에 단어 교차 관계에 따른 가중치를 부여한다(S167). 그리고 상기 가중치 부여된 결과에 따른 문서 검색을 수행한다(S168).

상기 과정들(S164 내지 S167)을 좀 더 상세히 살펴보면, 본 발명의 방법은 상기 과정(S163)에서 추출된 단어들(A) 중의 하나의 단어(a1)에 대해 검색을 수행한다. 그리고 그 결과에 따라 상위의 m개의 문서를 파싱한다. 그리고 파싱된 m개의 문서 내에서 빈도수가 상위인 단어들(B)을 다시 추출하여 추출된 단어들(B) 중에 소정의 질의어가 있는지 여부에 따라 해당 단어(a1)에 단어 교차 관계에 따른 가중치를 부여한다. 이 과정을 추출된 단어들(A)에 대해 반복적으로 실시한다.

이하, 특정 단어(예컨대, "sorting")에 대한 문서 검색이 요청된 경우 본 발명의 방법을 이용하여 상기 질의어를 확장하고 대응된 문서를 검색하는 과정을 도 1 및 도 3을 참조하여 설명하면 다음과 같다.

먼저 상기 단어("sorting")가 문서 검색을 위한 질의어로 입력되면 질의어 확장 문서 검색부(160)는 인덱싱 문서 DB(130)로부터 "sorting"를 포함하는 문서를 검색하고(S161), 그 문서들 중 상위 n개의 페이지를 파싱하여(S162) 상기 문서 내에 "sorting"이라는 단어 외의 다른 단어들은 어떤 것이 몇 개가 있는지 계산한다. 그리고 그 계산 후에 상기 다른 단어들을 빈도수가 높은 순으로 정렬한 후 상기 빈도수가 상위인 소정개의 단어를 추출한다(S163).

예를 들어 "sorting"이라는 단어를 포함하는 문서에 함께 포함된 단어들 중 그 빈도수가 높은 단어들을 빈도수 순으로 정렬한 결과가 "algorithm, harrison, quick, Jason, bubble, fast, gosling, run, place, source, complexity…"라고 하면 상기 단어들이 "sorting"과 관련 있는 단어들이라고 가정한다. 이 때, "sorting"은 소정의 질의어에 해당 되어 메인 단어라고 정의하고, "algorithm, harrison, quick, Jason, bubble, fast, gosling, run, place, source, complexity…"와 같은 빈도수가 높은 단어들은 후보 단어라고 정의한다.

그리고 각각의 후보단어에 대해서 다시 검색 엔진을 이용해서 검색 결과를 얻고(S164) 해당 검색 결과의 문서들 중의 상위 m개의 문서를 파싱하여(S165) 빈도수가 높은 단어들을 추출한다(S166). 그리고 이러한 빈도수가 높은 단어들 중에 질의어인 "sorting"이 있는지 여부에 따라 가중치를 부여한다(S107).

예를 들어서, "sorting"의 후보 단어 중 "algorithm"이란 단어로 검색 엔진을 통해 검색하고 그 검색 결과에 따른 상위 m개의 문서들을 파싱하여(S165) 빈도수가 높은 단어들을 추출한 결과(S166), 후보 단어 중에서 "sorting"이란 단어가 있을 시에 이를 단어 교차 관계(Term Crossing Relation)의 성립으로 보아 이에 대해 가중치를 부여한다(S167).

그리고 가중치가 부여된 결과에 따른 문서 검색을 수행한다(S168). 즉, 확장된 질의어를 이용한 문서 검색을 수행한다(S168).

여기서 본 발명에 따른 단어교차관계 기반 질의어 확장 방법에 사용되는 가중치에 관하여 상세히 살펴보면 다음과 같다.

우선 메인 단어(예컨대, "sorting")과 후보 단어들(예컨대, "algorithm, harrison, quick, Jason, bubble, fast, gosling, run, place, source, complexity…") 간의 가중치 값은 다음 (수학식 1)과 같다.

여기서, q는 소정의 질의어, S는 상위 순위의 문서들의 집합, d는 q에 의해 검색된 문서 중의 S에 포함된 문서, w는 d에 포함된 단어들, N_d는 S에 포함된 문서들의 수이다.

(수학식 1)의 de(q,w_i)는 메인 단어인 q와 후보 단어인 w_i 간의 가중치 계산 함수로, q를 통해 얻은 문서 집합인 S의 각각의 문서들로부터 w_i의 가중치를 계산하는 것이다.

(수학식 1)에서 "tf(w_i, d)"는 d라는 문서 내에서의 w_i의 빈도수를 의미한다. 즉, de(q,w_i)는 각각의 문서 내에서 후보 단어들의 빈도수의 합을 전체 문서의 수로 나눈 값이 된다.

그리고 단어교차관계가 성립되는 경우의 가중치는 다음 (수학식 2)와 같다.

(수학식 2)에 표현된 바를 살펴보면, 단어교차관계가 성립되는 경우는 해당 가중치는 메인 단어에 의한 후보 단어의 가중치와 후보 단어에 의한 메인 단어의 가중치의 곱으로 이루어진다.

예컨데, q ="sorting", w_i="algorithm"으로 가정하면, "sorting"이 "algorithm"에 대한 가중치와 "algorithm"이 "sorting"에 대해 가지는 가중치를 곱한 값이 그 단어교차관계에 따른 가중치가 된다.

그리고 단어교차관계가 성립하지 않는 경우에는, 위의 (수학식 2)는 그 값이 "0"이 되어 버린다.

따라서, 본 발명에 따른 질의어 확장을 위한 수학식은 다음의 (수학식 3)과 같다.

즉, 단어 교차 관계가 성립되지 않는 경우(즉, de(w_i,q)=0인 경우)에는 (수학식 1)에 따른 가중치를 가지고, 단어 교차 관계가 성립하는 경우에는 (수학식 2)에 따른 가중치를 가지게 된다.

도 4a 및 도 4b는 본 발명의 일 실시 예에 따른 질의어 확장 방법을 기존의 질의어 확장 방법과 비교하기 위한 제 1 예시도들이다. 도 4a는 종래의 제1 실시 예에 따른 질의어 확장 방법을 설명하기 위한 도면이고, 도 4b는 본 발명의 실시 예에 따른 질의어 확장 방법을 설명하기 위한 도면이다.

도 4a를 참조하면 종래의 제1 실시 예에 따른 질의어 확장 방법은 질의어로 입력되었던 경험이 있는 단어들을 제공하는 방법이다. 예를 들어 도 4a에 예시된 바와 같이 질의어로서 "so"가 입력된 경우 종래에는 이에 대해 "sotheo", "soup", "sony" 및 "something the lord made" 등 기존에 검색을 위해 입력된 질의어 중 해당 "so"가 포함되는 단어들을 자동 완성 형식으로 제공한다.

한편 도 4b를 참조하면 본 발명의 실시 예에 따른 질의어 확장 방법은 입력된 질의어 "so"에 관하여 사전식의 관련 단어를 제공하는 제1 검색 결과(좌측 리스트)와 그 연관된 정보를 제공하는 제2 검색 결과(우측 리스트)를 보여준다. 이 때, 본 발명에 따른 질의어 확장에 의한 검색 결과는 제2 검색 결과(우측 리스트)이다. 즉, "so"에 대해 해당 "so"가 사용된 문서들을 검색하고 그 검색 결과 중의 빈도수에 따른 가중치와 단어 교차 관계에 따른 가중치에 따라 "example", "rooms" 등의 결과를 제공한다. 이와 같은 본 발명의 질의어 확장 방법은 제공된 결과를 통해 질의어에 대한 확장을 할 수 있고 이에 따라 보다 효율적인 검색 결과를 얻을 수 있는 효과가 있다.

도 5a 및 도 5b는 본 발명의 일 실시 예에 따른 질의어 확장 방법을 기존의 질의어 확장 방법과 비교하는 제 2 예시도들이다. 도 5a는 종래의 제2 실시 예에 따른 질의어 확장 방법을 설명하기 위한 도면이고, 도 5b는 본 발명의 실시 예에 따른 질의어 확장 방법을 설명하기 위한 도면이다.

도 5a를 참조하면 종래의 제2 실시 예에 따른 질의어 확장 방법은 질의어로 입력된 단어를 포함하는 단어들 중 이전에 입력된 이력이 있는 단어를 이용하는 방 법을 예시하고 있다. 이 때, 상기 입력된 단어("sorting")에 대해서는 기존에 검색을 위해 입력된 질의어가 없으므로 도 5a의 예에서 어떤 확장을 위한 결과도 제공하지 못한다.

한편 도 5b를 참조하면 본 발명은 "sorting"에 관하여 사전식의 관련 단어를 제공하는 제1 검색결과(좌측 리스트)와 그 연관된 정보를 제공하는 제2 검색 결과(우측 리스트)를 보여준다. 본 발명에 따른 질의어 확장에 의한 검색 결과는 제2 검색 결과(우측 리스트)이다. 즉, "sorting"에 대해 해당 "sorting"이 사용된 문서들을 검색하고 그 검색 결과 중의 빈도수에 따른 가중치와 단어 교차 관계에 따른 가중치에 따라 "sort", "harrison", "algorithm", "quick", "jason", "bubble", "fast", "gosling" 등의 결과를 제공한다.

그 결과의 내용을 살펴보면, "harrison"과 "jason"은 "swap sorting"을 제시한 사람(jason harrison)이고, "algorithm"은 "sorting algorithm"에서 추출된 단어가 되며, "quick", "bubble", "fast" 등의 단어는 소팅(sorting) 알고리즘의 종류를 나타내는 단어가 된다. 따라서 본 발명에 따른 질의어 확장 방법을 사용하는 경우 소정의 질의어(sorting)에 대해 그와 관련된 좀 더 세부적인 질의어들을 더 제공할 수 있게 된다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은 소정 질의어에 대하여 단어 교차 관계 기반의 질의어 확장 방법을 이용한 문서 검색을 수행함으로써 문서 검색 결과에 대한 신뢰성을 효율적으로 향상시키는 효과가 있다.

Claims

단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치에 있어서,

검색 대상이 되는 문서들을 수집하는 로봇 에이전트;

상기 로봇 에이전트로부터 수집된 문서들을 파싱하여 인덱싱하는 인덱싱 모듈;

상기 인덱싱 모듈로부터 인덱싱된 문서들을 전달받아 저장하고 요청에 따라 저장된 문서들을 제공하는 데이터 베이스;

질의어를 입력받는 질의어 입력부;

상기 질의어 입력부로 부터 입력된 상기 소정의 질의어에 대한 형태소를 분석하는 한글 형태소 분석부; 및

상기 한글 형태소 분석부에서 형태소 분석이 된 상기 질의어에 대하여 단어 교차 관계에 따른 가중치를 부여한 후 그 결과에 의거하여 상기 질의어와 관련된 확장된 질의어를 제공하고 상기 확장된 질의어를 이용하여 문서 검색을 수행하는 질의어 확장 문서 검색부를 포함함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치.
제1항에 있어서, 로봇 에이전트는

웹-페이지를 포함한 온라인 문서를 수집하는 웹-로봇; 및

기업 내 망 및 개인의 피.씨에 저장된 문서를 포함하는 오프라인 문서를 수 집하는 인트라넷-로봇을 포함함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치.
제1항에 있어서, 상기 인덱싱 모듈은

상기 로봇 에이전트로부터 입력된 문서들을 자동으로 인덱싱함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치.
제1항에 있어서, 상기 데이터 베이스는

상기 인덱싱 모듈에서 인덱싱된 문서들을 인덱싱한 상태로 저장함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치.
제1항에 있어서, 상기 데이터 베이스는

B+ 트리 구조로 구성함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치.
제1항에 있어서, 상기 질의어 확장 문서 검색부는

상기 한글 형태소 분석부를 통해 상기 소정의 질의어를 입력받아, 상기 데이터베이스를 통해 상기 소정의 질의어에 대한 제1 검색을 수행하여 그 결과 중 상위의 n개의 문서로부터 빈도수가 상위인 단어들(A)을 추출하고 상기 각각의 단어들에 대한 가중치를 부여하는 과정과,

상기 추출된 단어들(A) 각각에 대해 제2 검색을 수행하여 각각의 검색 결과 중 상위의 m개의 문서 내에서 빈도수가 상위인 단어들(B)을 추출하여 추출된 단어들(B) 중에 상기 소정의 질의어가 있는지 여부에 따라, 제2 검색의 질의어로 사용된 단어에 대해 단어 교차 관계에 따른 가중치를 부여하는 과정; 및

부여된 가중치의 크기에 따라 상기 소정의 질의어에 연관된 단어들을 순차적으로 출력하는 과정을 수행함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치.
단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법에 있어서,

문서 검색 대상이 되는 온라인 및 오프라인 문서들을 수집하는 단계;

상기 수집된 문서들을 파싱하여 인덱싱하는 단계;

상기 인덱싱 결과를 저장하는 단계;

질의어의 입력에 응답하여 상기 질의어에 대한 형태소를 분석하는 단계;

상기 형태소 분석된 질의어를 단어 교차 관계 기반의 방법으로 질의어 확장하고 그에 의거하여 검색을 수행하는 단계; 및

상기 검색 결과를 출력하는 단계를 포함함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.
제7항에 있어서, 상기 수집 단계는

웹-페이지를 포함하는 온라인 문서 수집 단계; 및

기업 내 망 및 개인의 피.씨에 저장된 문서를 포함하는 오프라인 문서 수집 단계를 포함함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.
제7항에 있어서, 상기 인덱싱 단계는

상기 수집 단계에서 수집된 문서들을 자동으로 인덱싱함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.
제7항에 있어서, 상기 저장 단계는

상기 인덱싱 단계에서 인덱싱된 문서들을 인덱싱한 상태로 저장함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.
제7항에 있어서, 상기 검색 수행 단계는

질의어가 입력되면 상기 데이터베이스를 통해 상기 질의어에 대한 제1 검색을 수행하는 단계;

상기 제1 검색 결과 중 상위 n개의 문서 내에서 빈도수가 상위인 단어들(A)을 추출하는 제1 추출 단계;

상기 각각의 단어들에 대한 가중치를 부여하는 제1 가중치 부여 단계;

상기 추출된 단어들(A) 각각에 대해 제2 검색을 수행하는 단계;

상기 제2 검색 결과 중 상위 m개의 문서 내에서 빈도수가 상위인 단어들(B) 을 추출하는 제2 추출 단계;

상기 추출된 단어들(B) 중에 상기 소정의 질의어가 있는지 여부에 따라 제2 검색의 질의어로 사용된 단어에 대해 단어 교차 관계에 따른 가중치를 부여하는 제2 가중치 부여 단계; 및

부여된 가중치의 크기에 따라 상기 소정의 질의어에 연관된 단어들을 순차적으로 출력하는 단계를 포함함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.
제11항에 있어서, 상기 제1 가중치 부여 단계는

하기의 수학식 1을 이용함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.

(수학식 1)

여기서, q는 소정의 질의어, S는 상위 순위의 문서들의 집합, d는 q에 의해 검색된 문서 중의 S에 포함된 문서, w는 d에 포함된 단어들, N_d는 S에 포함된 문서들의 수, tf(w_i, d)는 d라는 문서 내에서의 w_i의 빈도수.
제11항에 있어서, 상기 제2 가중치 부여 단계는

하기의 수학식 2를 이용함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.

(수학식 2)

여기서, q는 소정의 질의어, S는 상위 순위의 문서들의 집합, d는 q에 의해 검색된 문서 중의 S에 포함된 문서, w는 d에 포함된 단어들, N_d는 S에 포함된 문서들의 수, tf(w_i, d)는 d라는 문서 내에서의 w_i의 빈도수.
제11항에 있어서, 상기 출력 단계는

하기의 수학식 3을 이용하여 질의어에 연관된 단어들을 순차적으로 출력기 위한 가중치를 결정함을 특징으로 하는 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 방법.

(수학식 3)