KR20010004404A

KR20010004404A - 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법

Info

Publication number: KR20010004404A
Application number: KR1019990025035A
Authority: KR
Inventors: 정경택; 장명길; 전미선; 박세영
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1999-06-28
Filing date: 1999-06-28
Publication date: 2001-01-15
Also published as: US6366908B1

Abstract

본 발명은 문서가 갖고 있는 정형화된 개념소를 주제어인 객체와 부속어인 속성의 쌍으로 표현하고, 이들 쌍으로 표현된 정보를 색인정보로 사용하여 문서를 색인 및 검색하는 키팩트기반 텍스트 검색에 관한 것이다.

이러한 키팩트기반 텍스트 검색시스템은, 검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출장치와; 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인장치; 및 상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색장치를 포함한다.

Description

키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 { Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method using this system }

본 발명은 키팩트기반 텍스트 색인/검색방법에 관한 것이며, 특히, 문서가 갖고 있는 정형화된 개념소를 주제어인 객체와 부속어인 속성의 쌍으로 표현하고, 이들 쌍으로 표현된 정보를 색인정보로 사용하여 문서검색을 수행하는 키팩트기반 텍스트 검색시스템 및 방법에 관한 것이다.

본 발명에서 키팩트(keyfact)라 함은, 사용자가 문서에서 찾기를 원하는 사실을 말한다.

종래의 텍스트 검색방법으로는 키워드기반 텍스트 검색이 주로 사용되어 왔다. 그러나, 키워드기반 텍스트 검색방법은 다음과 같은 문제점이 있기 때문에 검색의 정확도가 낮다. 이 키워드기반 텍스트 검색의 문제점은 첫째, 문서를 키워드라는 명사 어휘의 단어로 표현하기 때문에, 문서의 의미를 정확히 표현하지 못하고 문서 표현의 대표성이 떨어진다. 이것은 검색 정확성의 하락의 근본적인 요인으로 작용한다. 둘째, 자연어구나 문장 혹은 키워드단어들로 질의를 하는 경우에 있어서 키워드기반 검색에서는 질의를 키워드로 표현하기 때문에 사용자가 검색하고자 하는 내용을 정확히 표현하지 못한다. 따라서, 키워드기반 검색은 키워드라는 단어 중심으로 문서검색을 수행하는 점에서 검색정확성에 근본적으로 한계가 있다. 따라서, 이러한 키워드기반 검색방법은 검색 정확도가 낮기 때문에 다수의 불필요한 검색을 수행하게 되어, 불필요한 시간과 노력이 소요되는 문제점이 있었다.

이러한 키워드기반 텍스트 검색방법의 단점을 보완하기 위하여, 최근에는 복합단어나 명사구와 같은 구절기반(phrase-based) 텍스트 검색방법에 관한 연구가 활발히 진행되고 있다. 구절기반 텍스트 검색방법은, 형태적-구문적 정규화과정을 통해 정확한 구절패턴을 추출하고, 추출된 구절 단위로 색인과 검색을 수행한다. 따라서, 키워드기반 텍스트 검색방법보다는 정확한 검색이 가능하지만, 텍스트를 개념 단위로 표현하여 검색하는 개념기반(concept-based) 텍스트 검색방법보다는 검색의 정확도가 낮다.

따라서, 키워드기반 텍스트 검색방법의 단점을 극복하고 구절기반 텍스트 검색방법을 일반화한 키팩트기반 텍스트 검색방법이 제안되고 있다. 키팩트기반 텍스트 검색에서는 같은 의미를 나타내는 텍스트의 일부분을 하나의 키팩트(keyfact)로 표현하여, 이를 단위로 색인과 검색을 수행하는 일종의 개념기반(concept-based) 텍스트 검색방법이기 때문에 검색의 정확도를 보다 향상시킬 수 있다.

이러한 키팩트기반 텍스트 검색은, 같은 의미를 가지는 구들이 서로 같은 색인어로 색인되는 것이 바람직하다. 예를 들어, '정보의 효과적인 검색', '분산된 정보의 검색', '분산된 정보의 빠른 검색'과 같이 '정보의 검색'을 부분집합으로 포함하는 명사구들은 '정보의 검색'으로부터 생성 가능한 공통의 색인어들을 부분집합으로 가져야 하는 동시에 서로 다른 색인어로써 미묘한 의미적 차이를 인식하여야 한다.

즉, 의미가 무시된 키워드기반 텍스트 검색에서는 '정보의 검색'과 '정보의 효과적인 검색'에 대한 의미 차이를 인식하지 못하기 때문에 사용자가 원하는 정확한 문서를 찾아주지 못하였으나, 본 발명에서는 이러한 미세한 의미적 차이를 고려한 키팩트기반 텍스트 검색기술을 통하여 사용자가 원하는 정확한 정보를 검색하는 기술을 구현한다.

따라서, 본 발명의 목적은, 검색대상 문서에 대하여 자연어처리기술을 이용하여 정확한 키팩트 패턴을 추출하고, 이 키팩트 단위로 문서를 색인하는 방법을 제공하는 데 있다.

또한 본 발명의 다른 목적은, 사용자로부터 제공되는 자연어 질의어에 대하여 자연어처리기술을 이용하여 정확한 키팩트 패턴을 추출하고, 이 질의어의 키팩트를 이용하여 키팩트기반 색인파일로부터 질의어와 유사한 문서를 검색하는 방법을 제공하는 데 있다.

또한 본 발명의 다른 목적은, 키팩트 단위로 문서를 색인하고 검색하는 키팩트기반 텍스트 검색시스템을 제공하는 데 있다.

도 1은 본 발명의 키팩트기반 텍스트 검색시스템의 전체 구성도를 개략적으로 나타낸 도면,

도 2는 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템이 적용된 하드웨어 구성을 도시한 블록도,

도 3은 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템의 키팩트 추출장치를 나타낸 도면,

도 4는 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템의 키팩트 색인장치를 나타낸 도면,

도 5는 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템의 키팩트 검색장치를 나타낸 도면,

도 6은 사용자 질의와 그에 따른 문서검색결과를 디스플레이하는 화면을 나타낸 도면이다.

※ 도면의 주요부분에 대한 부호의 설명 ※

11 : 키팩트 추출장치 12 : 키팩트 색인장치

13 : 키팩트 검색장치 14 : 문서집합

15 : 질의 16 : 색인구조

상기한 목적을 달성하기 위한 본 발명에 따르면, 키팩트기반 텍스트 검색시스템이 제공된다. 이러한 키팩트기반 텍스트 검색시스템은, 검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출장치와; 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인장치; 및 상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색장치를 포함한다.

양호하게는, 상기 키팩트 추출장치는, 검색대상 문서집합 또는 사용자 질의가 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석수단과; 상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅수단; 상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출수단; 및 상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성수단을 포함한다.

보다 양호하게는, 상기 키팩트 색인장치는, 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산수단과; 상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성수단; 및 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인수단을 포함한다.

보다 양호하게는, 상기 키팩트 검색장치는, 상기 키팩트 색인장치에 의해 생성된 색인파일과 상기 키팩트 추출장치에 의해 생성된 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 수단과; 문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 가중치상수 결정수단; 상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 키팩트가중치 계산수단; 및 상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 검색결과 출력수단을 포함한다.

또한, 본 발명에 따르면 위에서 언급하였던 키팩트기반 텍스트 검색시스템을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.

또한, 본 발명에 따르면 검색대상 문서집합을 키팩트 단위로 색인하는 키팩트기반 텍스트 색인방법이 제공된다. 이러한 키팩트기반 텍스트 색인방법은, 검색대상 문서집합을 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와; 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인단계를 포함한다.

양호하게는, 상기 키팩트 추출단계는, 검색대상 문서집합이 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석단계와; 상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅단계; 상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출단계; 및 상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성단계를 포함한다.

여기서, 상기 형태소해석단계는, 입력되는 검색대상 문서를 어절단위로 분리하는 제1단계와; 품사사전을 이용하여 상기 분리된 각 어절별로 형태소를 분석하는 제2단계; 형태론적 변형형상을 처리하여 각 형태소의 원형을 복원하는 제3단계; 및 형태소 분석결과에 대하여 품사태그를 태깅하여 품사태그열을 구하는 제4단계를 포함하는 것이 양호하다. 상기 품사사전은 복합어미사전, 어간사전, 결합조건사전, 명사서전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 접속사사전등을 포함하는 것이 보다 양호하다.

보다 양호하게는, 상기 키팩트 색인방법은, 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산단계와; 상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성단계; 및 상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인단계를 포함한다.

또한, 본 발명에 따르면 위에서 언급하였던 키팩트기반 텍스트 색인방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.

또한, 본 발명에 따르면 사용자 질의와 키팩트기반 색인파일이 입력되면, 사용자 질의를 키팩트 단위로 분석하여 검색하는 키팩트기반 텍스트 검색방법이 제공된다. 이러한 키팩트기반 텍스트 검색방법은, 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와; 상기 사용자 질의의 키팩트와 검색대상 문서집합들의 색인파일을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색단계를 포함한다.

보다 양호하게는, 상기 키팩트 검색방법은, 상기 색인파일과 상기 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 제1단계와; 문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 제2단계; 상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 제3단계; 및 상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 제4단계를 포함한다.

또한, 본 발명에 따르면 위에서 언급하였던 키팩트기반 텍스트 검색방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.

이 발명의 상기 및 기타의 특성과 장점은 아래의 양호한 실시예에 대한 설명에 의해 좀더 명료해질 것이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법의 한 실시예를 설명하면 다음과 같다.

도 1은 본 발명의 한 실시예에 따른 키팩트기반 텍스트 검색시스템을 도시한 도면이다. 이러한 키팩트기반 텍스트 검색시스템은 크게 키팩트 추출장치(11)와, 키팩트 색인장치(12), 및 키팩트 검색장치(13)로 이루어진다. 도 2는 본 발명의 키팩트기반 텍스트 검색시스템이 적용된 하드웨어 구성도이다.

도 2를 참조하면, 주기억장치(21)에는 본 발명의 키팩트기반 텍스트 검색시스템인 키팩트 추출장치(11)와, 키팩트 색인장치(12), 키팩트 검색장치(13), 및 색인구조(16)가 저장된다. 중앙처리장치(23)는 키팩트기반 텍스트 검색을 주관한다. 하드디스크(24)는 검색대상의 문서집합(25)과 키팩트 추출을 위한 사전들(26), 그리고 키팩트 색인 결과파일인 색인파일(27)을 저장한다. 색인파일(27)은 주기억장치(21)에 색인구조(16)로 로딩되어 키팩트 검색장치(13)에서 사용한다. 입출력장치(22)는 사용자의 질의를 입력받고 검색결과를 사용자에게 출력한다.

아래에서는 도 1을 참조하면서, 본 발명에 따른 키팩트기반 텍스트 검색시스템을 설명한다. 키팩트 추출장치(11)는 문서집합(14)과 질의(15)가 주어지면 형태소 분석과 태깅을 수행하여 품사 모호성이 해소된 키워드들을 추출하고, 이들 키워드들을 키팩트 생성규칙에 적용하여 키팩트들을 추출한다. 키팩트 색인장치(12)는 키팩트 단위로 문서집합(14)과 질의(15)를 색인하고, 키팩트 단위의 빈도를 계산하여 키팩트 색인구조(16)에 저장한다. 키팩트 검색장치(13)는 키팩트기반의 텍스트 검색모델을 이용하여 문서집합과 질의의 키팩트 가중치를 고려한 유사도 계산방법에 의하여 문서를 순위화하여 검색결과를 나타낸다.

키팩트기반 텍스트 검색은, 문서집합(14)과 질의(15)가 주어지면 키팩트 추출장치(11)가 이를 키팩트 단위로 표현한다. 이때 모든 키팩트는 문장 내에서의 키워드들간의 의미적 관계(semantic relation)를 [객체(object), 속성(property)]의 표현 형식으로 나타낸다. 이러한 객체와 속성을 구성하는 키워드들의 구성 형태에 따라 다양한 유형의 키팩트들로 분류할 수 있다. 문서집합과 질의의 텍스트들의 내용이 의미적으로 같은 내용을 나타내는 텍스트의 일부는 같은 키팩트유형으로 분류된다. 이러한 키팩트 추출장치에 대한 자세한 설명은 도 3을 참조하면서 후술하기로 한다.

추출된 키팩트는 키팩트 색인장치(12)에 의하여 그 빈도에 따라 색인된다. 즉, 각 문서에 포함된 다양한 유형의 키팩트들의 빈도를 계산하고 전체 문서집합에 대한 키팩트 리스트를 생성하여 키팩트를 고려한 키팩트 색인구조(16)를 만들고 색인파일을 저장한다. 이러한 키팩트 색인장치에 대한 자세한 설명은 도 4를 참조하면서 후술하기로 한다.

마지막으로 키팩트 검색장치(13)는 사용자 질의가 입력되면 키팩트기반 검색방법에 의해 적합한 문서들을 검색한다. 즉, 키팩트 유형에 따른 가중치 상수를 고려하여 키팩트 검색모델을 정의하고, 질의와 문서 사이의 유사도를 계산하여 질의에 적합한 문서들을 순위화하여 검색결과로 제시된다. 이러한 키팩트 검색장치에 대한 자세한 설명은 도 5를 참조하면서 후술하기로 한다.

도 3을 참조하면, 키팩트 추출장치는 검색대상 문서를 분석하여 키팩트를 생성하는데, 이는 형태소해석, 품사태깅, 키팩트패턴추출, 및 키팩트생성을 통해 이루어진다.

도면에서 31은 검색대상 문서가 입력되는 단계이고, 32는 형태소 해석단계이다.

형태소 해석단계(32)에서는 입력문서의 문장을 어절로 분리하고, 각종 사전(36)을 이용하여 가능한 모든 형태소를 분석한다. 또한, 분석한 모든 형태소들은 형태론적 변형현상을 처리하여 원형을 복원한다. 사전(36)은 복합어미사전과, 어간사전, 결합조건사전, 명사사전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 및 접속사사전 등을 포함한다.

사전(36)에 수록된 품사 태그는 크게 명사, 조사, 관형사, 용언으로 구분되며, 명사는 다시 고유명사(NQ), 인명명사(NN), 호칭명사(NT), 단위명사(NU), 서술격명사(NH), 비서술격명사(NB) 등으로 세분화된다. 이와 같이 명사를 세분하는 이유는, 명사의 종류에 따라 키팩트의 객체(object) 혹은 속성(property)이 결정되기 때문이다.

예를 들어, 두 개 또는 세 개의 명사가 단순히 나열된 형태의 구문에서 인명명사, 고유명사, 비서술격명사는 객체(object)가 될 확률이 높으며 호칭명사, 단위명사, 서술격명사는 속성(property)이 될 확률이 높다. 또한, 인명명사, 고유명사, 비서술격명사끼리 서로 결합한 형태의 구문일 경우, 그 명사가 객체에 위치하게 되는 우선순위는 인명명사 〉 고유명사 〉 비서술격명사의 순으로 된다.

또한, 조사는 체언과 체언의 관계규명에 필요한 속격조사(JY)와, 접속조사(JC), 그리고 체언과 용언의 관계규명에 필요한 격조사(J)로 분류된다. 용언의 어간 밑에 붙는 어미의 기능에 따른 관형형어미를 포함하는 용언 형태소는 관형사(MP)로 태깅된다. 예를 들어, "분산된 정보의 빠른 검색"에 대한 형태소 해석결과로 문장 단위의 태그열 "MP(관형사) NB(비서술격명사) JY(속격조사) MP(관형사) NH(서술격명사)"가 얻어진다.

상기와 같이 형태소 해석단계(32)가 수행되면, 다양한 형태소 분석결과가 얻어진다.

품사태깅단계(33)에서는 한 문장에 대한 다양한 형태소 분석결과들 중에서 정확한 하나의 형태소 태그열을 구한다. 즉, 품사태깅단계에서는 형태소 분석결과에서 얻어진 태그열의 품사태그들을 이용하여 태깅하되, 명사 혹은 조사없이 연이어 연결된 형태의 복합명사는 키워드(key) 태그로 변환한다. 앞에서 예로 들었던 "분산된 정보의 빠른 검색"의 문자열로부터 "MP KEY JY MP KEY"의 최종 태그열이 얻어진다.

이와 같이 입력되는 문자열에 대한 최종 태그열이 얻어지면, 키팩트패턴추출단계(34)는 캐팩트패턴규칙(37)을 탐색하여 키팩트생성에 필요한 의미있는 키팩트패턴을 추출한다. 키팩트패턴추출에 사용하는 키팩트패턴규칙(37)은 입력 태그열에 대한 키팩트패턴을 기술하고 있다. 아래의 표 1은 키팩트패턴규칙의 일부를 예시한 것이다.

키팩트패턴	키팩트 용어 리스트
KEY1 JY KEY2	[KEY1,KEY2], [KEY1,NIL], [KEY2,NIL]
KEY1 JY MP KEY2	[KEY1,KEY2], [KEY2,MP], [KEY1,NIL], [KEY2,NIL]
MP KEY1 JY KEY2	[KEY1,KEY2], [KEY1,MP], [KEY1,NIL], [KEY2,NIL]
MP1 KEY1 JY MP2 KEY2	[KEY1,KEY2], [KEY1,MP1], [KEY2,MP2], [KEY1,NIL], [KEY2,NIL]

앞에서 예로 들었던 "분산된 정보의 빠른 검색"의 문자열로부터 얻어진 최종 태그열 "MP KEY JY MP KEY"은, 키팩트패턴규칙에 적용되어 "MP1 KEY1 JY MP2 KEY2"의 키팩트패턴이 추출된다.

키팩트 생성단계(35)에서는 입력되는 키팩트패턴에 대하여 키팩트생성규칙(38)을 탐색하여 [객체,속성] 형태의 키팩트 용어(term)을 생성한다. 여기서, 객체는 키워드로 대표되는 명사 또는 복합명사이고, 속성은 명사 앞에서 그 명사를 꾸며주는 역할을 하는 명사, 수식 용언 또는 서술 기능을 하는 용언의 원형이 된다.

키팩트생성규칙은 각각의 키팩트패턴별로 생성가능한 키팩트리스트를 포함한다. 앞에서의 예에서, 키팩트패턴 "MP1 KEY1 JY MP2 KEY2"를 키팩트생성단계에 적용하면, 그 수행결과는 '[KEY1,KEY2], [KEY1,MP1], [KEY2,MP2], [KEY1,NIL], [KEY2,NIL]'가 된다. 즉, 키팩트패턴 "분산 정보 의 빠르다 검색"으로부터 '[정보,검색], [정보,분산], [검색,빠르다], [정보,NIL], [검색,NIL], [분산,NIL]'과 같은 키팩트 리스트(39)를 얻을 수 있다.

다음, 도 4를 참조하면서 키팩트 색인장치를 상세하게 설명한다.

키팩트 색인장치는 키팩트 추출장치로부터 얻은 키팩트들을 문서집합상의 통계적 빈도로 계산한 후, 색인구조로 구성하여 색인 정보화함으로써, 이를 효과적으로 관리, 저장하는 단계이다. 키팩트 색인장치의 색인어는 각 문서를 대표하는 추출된 키팩트 용어(term)이다.

입력되는 문서집합에 대해 키팩트 추출장치(41)로부터 얻어진 키팩트(42)들의 빈도정보를 계산하는데(43), 전체 문서에서의 키팩트 빈도(tf)와 키팩트의 문서빈도(df)등을 계산한다.

다음, 효율적인 키팩트단위의 색인구조를 구성하기 위하여 문서색인테이블, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 부속 테이블을 생성한다(44). 여기서, 문서색인테이블은 문서내의 키팩트들과 그들의 빈도정보, 그리고 실제 문서에 대한 정보를 가진다. 문서테이블은 실제 문서 텍스트를 포함한다. 키팩트리스트테이블은 키팩트들의 리스트를 모아놓은 테이블이다. 키팩트색인테이블은 키팩트단위의 색인구조 형성에 가장 테이블로서, 각 키팩트들의 전체문서에서의 빈도(tf), 각 키팩트의 문서빈도(df), 각 키팩트의 문서(doc), 및 문서내 빈도(tfi) 정보를 포함한다.

다음, 키팩트단위의 색인구조를 구성하고, 색인파일을 저장한다. 색인구조는 키팩트단위의 색인어로 구성된 B+ 트리와 같은 효율적인 저장구조를 사용할 수 있는데, 포스팅 정보파일구조로 키팩트색인테이블을 역화일구조로 사용한다.

다음 표 2는 키팩트 색인결과의 일부 내용을 예시한 것이다.

키팩트색인어	tf	df	(문서ID:빈도수)
[가시,날카롭다]	1	1	(162:1)
[가시,무디다]	1	1	(102:1)
(중 략)
[갈대,NIL]	1	1	(6:1)
[갈대밭,NIL]	1	1	(6:1)
[갈래,NIL]	4	4	(21:1)(33:1)(88:1)(90:1)
[갈매나무과,NIL]	1	1	(102:1)

표 2에서, 키팩트색인어 [갈래,NIL]의 경우, 전체문서 내에서 4번 나타났기 때문에 전체문서에서의 빈도(tf)는 4이고, 4개의 문서에서 나타났기 때문에 문서빈도(df)는 4이다. 또한, 문서 21, 문서 33, 문서 88, 문서 90에서 각각 1번씩의 빈도로 나타났다.

마지막으로, 도 5를 참조하면서 키팩트 검색장치의 세부 구성을 설명한다. 키팩트 검색장치는 키팩트 색인장치(51)에 의하여 생성된 색인파일(52)과, 키팩트 추출장치(53)로부터 제공되는 질의의 키팩트를 가지고, 문서와 질의벡터를 구성한다(54).

문서와 질의벡터로부터 키팩트가중치를 계산하기에 앞서, 임의의 문서집합 특성에 맞는 키팩트가중치상수(C_KfType#)를 설정한다(55). 키팩트가중치상수는 아래의 표 3과 같이 다양한 형태의 키팩트 유형에 따라 각각 부여된다.

분류	키팩트 유형	가중치상수
Type Ⅰ	[KEY,NIL]	C_KfTypeⅠ
Type Ⅱ	[KEY,MP] or [KEY,VH/VB]	C_KfTypeⅡ
Type Ⅲ	[KEY1,KEY2]	C_KfTypeⅢ
Type Ⅳ	[KEY1 KEY2,NIL] or [KEY2 KEY1, NIL]	C_KfTypeⅣ
Type Ⅴ	[KEY1 KEY2 KEY3]	C_KfTypeⅤ
...	...	...

이러한 키팩트가중치상수는 C_KfTypeⅠ〈 C_KfTypeⅡ〈 C_KfTypeⅢ〈 C_KfTypeⅣ〈 C_KfTypeV〈‥‥의 순으로 차등적으로 부여된다. 키팩트가중치상수는 키팩트기반 텍스트 검색의 정확도에 중요한 변수로 작용하기 때문에, 검색대상 문서집합의 키팩트유형의 분포 특성에 따라 실험적으로 결정한다.

이러한 키팩트 가중치상수는 아래의 수학식 1로 나타낸 키팩트가중치 계산식에 적용되며, 수학식 1로부터 계산된 키팩트가중치(w_xk)는 키팩트를 단위로 하는 키팩트기반 텍스트 검색모델에서 사용된다.

여기에서, w_xk는 키팩트가중치, tf_xk는 키팩트의 빈도, N은 문서의 크기, df_k는 키팩트의 문서빈도, C_kfType#는 키팩트 가중치 상수를 나타낸다.

일반적으로 키워드기반 텍스트 검색에서는 키워드의 빈도(tf_keyword)와, 키워드의 문서빈도(df_keyword), 및 문서의 크기(N)만을 고려하여 키워드 가중치를 계산하였다. 그러나, 키팩트기반 텍스트 검색에서는 키팩트 단위로 색인 및 검색하기 위하여 키팩트 유형에 따른 검색 효과의 중요도를 고려하여, 키팩트 유형에 따라 가중치상수(C_kfType#)를 키팩트가중치 계산식에 반영한다(56).

다음, 벡터공간모델에 의한 키팩트검색모델(58)을 적용하여 질의에 적합한 문서의 유사도를 계산한다. 유사도 계산 결과는 질의에 적합한 문서를 순위화하여 검색 결과로 제시한다(57).

도 6은 사용자 질의와 그에 따른 문서검색결과를 디스플레이하는 화면을 나타낸 도면이다. 사용자는 질의란(61)에 자연어로 질의하고, 자연어질의는 키팩트기반 텍스트 검색시스템에 의하여 키팩트가 추출되어 질의어와 유사한 문서를 찾는다. 이 질의어에 대한 검색 결과는 가장 유사한 순서대로 순위화하여 문서검색결과화면(62)에 표시되는데, 순위와 함께 문서제목과 순위점수(weight)가 함께 표시된다. 또한, 문서검색결과화면에 표시된 문서를 선택하면, 문서텍스트화면(63)은 실제 문서 텍스트 내용을 디스플레이한다.

위에서 양호한 실시예에 근거하여 이 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.

이상과 같이 본 발명에 의하면, 검색대상 문서집합의 텍스트와 사용자 질의가 개념기반(concept-based)의 키팩트 단위로 표현되어 색인 및 검색이 이루어지기 때문에 보다 정확한 검색결과를 얻을 수 있다. 또한, 높은 검색 정확도로 색인 및 검색이 가능하기 때문에 소요되는 시간과 노력을 절약할 수 있어서, 향후 다양한 응용분야에서 개선된 검색방법으로 유용하게 활용할 수 있다. 특히, 디지털 라이브러리, 방송국 등의 텍스트와, 주석기반 멀티미디어(이미지 및 동영상) 검색분야, 인터넷, 및 전자상거래에서의 정보검색, 교육/의료/군사 분야에서의 문서 및 자료 검색 등에 활용될 수 있는 잇점이 있다.

Claims

검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출장치와;

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인장치; 및

상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색장치를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
제1항에 있어서, 상기 키팩트 추출장치는,

검색대상 문서집합 또는 사용자 질의가 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석수단과;

상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅수단;

상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출수단; 및

상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성수단을 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
제1항에 있어서, 상기 키팩트 색인장치는,

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산수단과;

상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성수단; 및

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인수단을 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
제1항에 있어서, 상기 키팩트 검색장치는,

상기 키팩트 색인장치에 의해 생성된 색인파일과 상기 키팩트 추출장치에 의해 생성된 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 수단과;

문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 가중치상수 결정수단;

상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 키팩트가중치 계산수단; 및

상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 검색결과 출력수단을 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색시스템.
컴퓨터에,

검색대상 문서집합과 사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출수단과;

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인수단; 및

상기 사용자 질의의 키팩트와 상기 문서집합의 키팩트들을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색수단을 포함하여, 키팩트를 단위로 문서를 색인하고 검색하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
검색대상 문서집합을 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
제6항에 있어서, 상기 키팩트 추출단계는,

검색대상 문서집합이 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석단계와;

상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅단계;

상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출단계; 및

상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
제7항에 있어서, 상기 형태소해석단계는,

입력되는 검색대상 문서를 어절단위로 분리하는 제1단계와;

품사사전을 이용하여 상기 분리된 각 어절별로 형태소를 분석하는 제2단계;

형태론적 변형형상을 처리하여 각 형태소의 원형을 복원하는 제3단계; 및

형태소 분석결과에 대하여 품사태그를 태깅하여 품사태그열을 구하는 제4단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
제8항에 있어서, 상기 품사사전은 복합어미사전, 어간사전, 결합조건사전, 명사서전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 접속사사전등을 포함하는 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
제6항에 있어서, 상기 키팩트 색인방법은,

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여 전체문서에서의 발생빈도(tf)와 키팩트가 출연하는 문서빈도(df)를 계산하는 발생빈도계산단계와;

상기 검색대상 문서집합에 대하여 문서색인테이블과, 문서테이블, 키팩트리스트테이블, 그리고 키팩트색인테이블 등의 테이블을 생성하는 테이블 생성단계; 및

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트들에 대하여, 전체문서에서의 발생빈도(tf)와, 키팩트가 출연하는 문서빈도(df), 키팩트가 출연한 문서번호(문서ID), 및 해당 문서에서의 키팩트 발생빈도수 등의 정보를 포함하는 키팩트 색인구조를 구성하는 키팩트 색인단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 색인방법.
컴퓨터에,

검색대상 문서집합을 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;

상기 검색대상 문서집합에 포함된 다양한 유형의 키팩트의 빈도를 계산하고, 전체 문서집합에 대한 키팩트리스트를 생성하여 키팩트 색인구조로 저장하는 키팩트 색인단계를 포함하여, 키팩트 단위로 문서를 색인하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;

상기 사용자 질의의 키팩트와 검색대상 문서집합들의 색인파일을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색단계를 포함하는 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
제12항에 있어서, 상기 키팩트 추출단계는,

검색대상 문서집합이 입력되면, 입력되는 문장의 형태소를 분석하고 품사태그를 붙여서 품사태그열을 구하는 형태소해석단계와;

상기 다양한 품사태그열 중 정확한 하나의 형태소 태그열을 구하고, 명사 혹은 복합명사를 키워드(KEY) 태그로 변환하여 최종 형태소태그열을 구하는 품사태깅단계;

상기 최종 형태소태그열을 키팩트패턴규칙에 적용하여 키팩트패턴을 추출하는 키팩트패턴 추출단계; 및

상기 키팩트패턴을 키팩트 생성규칙에 적용하여 키팩트 리스트를 생성하는 키팩트생성단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
제13항에 있어서, 상기 형태소해석단계는,

입력되는 검색대상 문서를 어절단위로 분리하는 제1단계와;

품사사전을 이용하여 상기 분리된 각 어절별로 형태소를 분석하는 제2단계;

형태론적 변형형상을 처리하여 각 형태소의 원형을 복원하는 제3단계; 및

형태소 분석결과에 대하여 품사태그를 태깅하여 품사태그열을 구하는 제4단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
제14항에 있어서, 상기 품사사전은 복합어미사전, 어간사전, 결합조건사전, 명사서전, 복합조사사전, 부사사전, 불용어구사전, 단위명사사전, 접속사사전등을 포함하는 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
제12항에 있어서, 상기 키팩트 검색방법은,

상기 색인파일과 상기 질의의 키팩트를 가지고 문서와 질의벡터를 구성하는 제1단계와;

문서집합 특성에 맞게 각각의 키팩트유형에 따른 가중치상수를 결정하는 제2단계;

상기 문서와 질의벡터에 상기 키팩트유형에 따른 가중치상수를 적용하여 문서와 질의의 키팩트가중치를 계산하는 제3단계; 및

상기 문서와 질의의 키팩트가중치를 키팩트 검색모델에 적용하여 질의와 유사한 문서를 검색결과로 출력하는 제4단계를 포함한 것을 특징으로 하는 키팩트기반 텍스트 검색방법.
컴퓨터에,

사용자 질의를 분석하여 품사모호성이 해소된 키워드들을 추출하고 이 키워드들로부터 키팩트들을 추출하는 키팩트 추출단계와;

상기 사용자 질의의 키팩트와 검색대상 문서집합들의 색인파일을 입력받아 키팩트유형에 따른 가중치상수를 고려하여 키팩트기반 검색모델을 정의하고 질의와 유사한 문서를 검색결과로 출력하는 키팩트 검색단계를 포함하여, 키팩트 단위로 문서를 검색하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.