KR100847376B1

KR100847376B1 - 질의어 자동 추출을 이용한 검색 방법 및 장치

Info

Publication number: KR100847376B1
Application number: KR1020060119048A
Authority: KR
Inventors: 김준홍; 엄용국; 이원식; 박범수
Original assignee: 김준홍; 엄용국; 이원식; 박범수
Priority date: 2006-11-29
Filing date: 2006-11-29
Publication date: 2008-07-21
Also published as: KR20070007001A

Abstract

본 발명은 인터넷에서 사용자가 질의어를 사용하여 정보를 검색하는 방법 및 장치에 관한 것으로서, 종래의 검색 기법의 한계를 극복하기 위하여 사용자가 특정 질의어를 사용하여 검색을 시행한 후 얻어진 검색 결과물을 이용하여 해당 검색 결과물들에 대한 '자동 문서요약'과 '키워드 추출' 등의 단계를 거쳐 사용자가 미리 인식하지 못했던 주제와 관련된 주제어를 자동 추출하는 것을 요지로 하는 검색 방법 및 장치에 관한 것이다. 이렇게 자동 추출된 주제어는 사용자가 해당 분야에 대해 미리 인지하지 못하고 있던 주제를 나타내게 되므로 사용자에게 새로운 정보를 제공할 수 있다. 동시에, 자동 추출된 주제어를 바탕으로 한 새로운 검색 결과들을 같이 돌려줌으로써 사용자의 시행착오와 반복 작업을 감소시켜 준다.

검색, 인터넷, 자동요약, 질의어, 클러스터, 유사도, 도합유사도

Description

질의어 자동 추출을 이용한 검색 방법 및 장치{Method and apparatus for searching information using automatic query creation}

도 1은 본 발명에 따른 검색 방법의 순서도.

도 2는 도 1의 결과문서 자동요약 단계의 세부 순서도.

도 3은 문장간의 유사도를 구하는 개념을 설명하는 그림.

도 4는 클러스터링 개념을 설명하는 그림.

도 5는 본 발명에 사용될 수 있는 클러스터링 처리 알고리즘의 일례를 설명하는 그림.

도 6은 새로운 질의어를 추출하는 개념을 나타내는 그림.

도 7은 특정 클러스터에서 주제어를 추출하는 개념을 설명하기 그림.

도 8은 본 발명에 따른 검색 장치의 블록 구성도.

본 발명은 인터넷에서 사용자가 질의어를 사용하여 정보를 검색하는 방법 및 장치에 관한 것이다.

종래의 인터넷 검색에 관련된 기술을 소개하면 다음과 같다.

- 질의어 확장(query extension)

검색시 사용자가 입력한 질의어와 관련된 다른 질의어들을 생성 혹은 관련 DB에서 추출하고 이 중 사용자가 원하는 질의어들을 선택해 사용한다. 이는 사용자가 입력한 질의어의 수와 조합을 증가시켜 검색의 정확도와 재현율 등을 높이려는 목적을 갖고 있다. 그러나 이는 목적 자체가 검색의 정확도/재현율을 높이려는 것으로 본 발명의 목적인 사용자가 미리 인지하지 못하는 정보 등에 대한 검색의 자동 확장과는 다르다. 또한 검색의 목적이 되는 분야마다 상이한 언어정보 DB를 구축해야 하는 어려움이 있다.

- 언어분석 기반의 자동질의 응답 시스템

문서들에 대한 언어분석을 통해 정답후보 어휘나 구들을 선별하고 이와 관련된 자연어 질문을 자동 생성하여 그 질문/정답 쌍들을 미리 색인하여 저장함으로써 사용자 질의시 질문의 유사도 비교를 통해 질의에 대한 양질의 정답 후보들을 순위적으로 빠르게 제시하는 언어분석 기반의 질의 응답 시스템에 대한 기술이다. 그러나 이는 분야 자체가 자연어 질의검색에 한정되어 있으며 미리 질문/응답쌍에 대한 색인DB를 갖고 있어야 하므로 자주 사용되는 질문들에 관한 한정된 분야 이외에는 쓰일 수 없는 단점이 있다.

이상에서와 같이, 종래의 인터넷 검색엔진은 사용자가 질의한 단어를 포함한 문서를 찾아 줄 뿐, 일반적으로 사용자는 한 번의 검색으로 원하는 사항을 찾지 못하게 되는 경우가 빈번하며 이러할 경우 여러가지로 질의어를 바꾸어서 검색을 시 도한다. 그러나 이는 사용자가 해당 분야의 지식 또는 사건에 대해 잘 알고 있어야 한다. 즉, 충분한 정도의 선지식을 갖고 있어야 한다. 만일 사용자가 정통하지 못한 분야에 대한 내용을 검색하고자 한다면 수많은 시행착오와 반복적인 검색작업을 필요로 한다.

이에 본 발명자는, 상기 종래의 검색 기법의 한계를 극복하기 위하여 사용자가 특정 질의어를 사용하여 검색을 시행한 후 얻어진 검색 결과물을 이용하여 해당 검색 결과물들에 대한 '자동 문서요약'과 '키워드 추출' 등의 단계를 거쳐 사용자가 미리 인식하지 못했던 주제와 관련된 주제어를 자동 추출하는 것을 요지로 하는 검색 방법 및 장치를 개발하였다.

이렇게 자동 추출된 주제어는 사용자가 해당 분야에 대해 미리 인지하지 못하고 있던 주제를 나타내게 되므로 사용자에게 새로운 정보를 제공할 수 있다. 동시에, 자동 추출된 주제어를 바탕으로 한 새로운 검색 결과들을 같이 돌려줌으로써 사용자의 시행착오와 반복 작업을 감소시켜 준다.

구현 측면에서는, 사용자의 1차 질의어에 대하여 나온 문서들만을 이용하여 통계적 방법을 위주로 하여 주제어를 자동 추출함으로써 언어학적 DB 구축을 최소화하면서도 다양한 분야에서의 일반적 검색에 사용할 수 있는 특징이 있다.

예를 들어, 사용자가 '세종대왕'을 검색어로 입력하면 그 결과물 중에서 '훈민정음', '한글창제', '조선왕조', '한글날' 등의 새로운 주제어를 추출하고 이 주제어에 따른 새로운 검색 결과들을 보여준다. 다른 예로서, 사용자가 '미국의 역 사'를 입력하면 그 결과물을 이용하여 '미국독립', '미국의 원주민', '인디언', '미국의 전쟁', '세계대전' 등의 새로운 주제어를 추출하고 이 주제어에 따른 새로운 검색 결과들을 보여준다.

도 1은 본 발명에 따른 검색 방법의 프로세스 흐름도를 나타내고, 도 8은 본 발명의 기술적 사상을 구현하기 위한 장치의 구성도를 나타낸다. 도 1의 프로세스를 설명하면서 도 8의 구성요소에 대해서 함께 설명하기로 한다.

사용자가 검색엔진을 통해 원하는 질의어(원질의어)를 입력하면(100), 입력한 원질의어에 대하여 질의어 검색 모듈(82)에서는 검색을 수행하고 검색결과를 출력한다(즉, 1차 검색)(200). 결과 자동요약 모듈(84)에서는 검색된 문서로부터 핵심적 의미를 지닌 문장을 추출함으로써 결과문서들을 자동으로 요약한다(300). 그리고 자동 요약된 문서로부터 핵심 문장들을 추출하고 각 핵심 문장에 대한 문서로 만든다(400). 클러스터링 모듈(86)에서는 핵심 문장을 문서화한 것에 대해서 유사한 내용을 갖는 문서들을 클러스터링(그루핑)하여 중복문을 제거한다(500). 그리고 각 클러스터별로 주제어(새로운 질의어)를 추출하기 위하여 단어별로 가중치 계산을 시행한다(600). 새로운 질의어 추출 모듈(88)에서는 소정의 정보 추출기법을 이용하여 주제어(또는 주제 문장), 즉, 새로운 질의어를 한 개 이상 추출하고, 질의어 검색 모듈(82)로 하여금 이를 이용해 2차 검색을 하도록 한다(700). 2차 검색은 질의어 검색 모듈(82)에 의해 새로운 질의어별로 수행되며, 각 질의어별로 검색된 결과를 출력한다(800).

이하에서는 보다 구체적으로 상기 방법의 구성에 대해서 설명한다.

우선, 결과문서 자동요약 및 핵심 문장 추출 단계(300, 400)에 대하여 설명한다. 문장 추출을 이용한 자동 문서 요약기법에 대해서는 다양한 공지기술이 발표되어 있으며, 본 출원인도 이에 대해서 2000년도에 논문으로 발표한 바 있다[참조: "Korean Text Summarization Using an Aggregative Similarity"(IRAL 2000), Hong Kong, China, pp.111-118, 2000]. 이에 대해서 개괄적으로 내용을 소개하면 다음과 같다(도 2 참조).

전처리단계(320) - 원본 문서로부터 문서의 오류나 불필요한 태그 등을 제거하고 문서를 문장별로 정렬한다.

명사 추출 및 복합명사 분해(330) - 각 문장에서 명사들만을 추출하고, 추출된 명사가 복합명사인 경우에는 이를 분해한다. 예를 들어, '미국전쟁'이 추출되었으면 이를 '미국'과 '전쟁'으로 분해한다. 그리고 각 문장을 명사들의 목록(리스트)으로 변환한다.

명사 목록간의 도합유사도 계산(340) - 다음, 상기 생성한 명사 목록간의 도합유사도(aggregative similarity)를 계산한다. 우선, 두 개의 문장 S_i와 S_j에 동일 단어가 있을 경우 이를 카운트하는데, 해당 카운트값이 유사도를 의미한다. 이는 선형대수학(linear algebra)의 'Inner Vector Similarity'를 응용한 것이다. 임의의 두 문장(명사 목록) S_i와 S_j 간의 유사도(similarity) sim(i,j)를 구하는 공식은 다음과 같다.

다음, 도합유사도(약칭: asim)는 문서 내의 임의의 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합한 것이다. 그 개념을 도 3에 나타낸다. 전체 n개의 문장으로 이루어진 문서에서 S_i의 도합유사도는 i번 자신의 문장을 제외한 전체 문장들간의 유사도를 구해 통합한 것이다. 이를 공식으로 나타내면 다음과 같다.

다시 도 2로 돌아가서, 문서 자동 요약 단계에 대해서 나머지 설명을 한다.

중요문장 추출단계(350) - 위에서 구한 도합유사도를 이용하여 값이 가장 높은 문장들만을 추출한다. 이 때의 문장추출 비율은 전체문서 대비 10%, 20% 등으로 조절가능하다. 이렇게 하여 자동 요약문서가 생성된다(360).

한편, 도 1에서 문서 클러스터링 및 단어별 가중치계산 단계(500, 600)에 대해서 구체적으로 설명한다. 본 발명의 방법은 사용자가 원질의어를 선택하여 검색된 1차 검색결과 문서들에 대해 자동 요약을 실시하는 것을 목적으로 함은 앞에서 설명한 바 있다. 단일 문서에 대한 요약을 시행할 경우에는 중복된(즉, 동일한 내용의) 문장이 출력될 확률이 없으나, 수십, 수백 건의 문서에 대해 자동요약을 시 행할 경우에는 동일 의미의 문장이 다수 출력될 수 있다. 이러한 문장들은 문서 전체에 흩어져서 존재하게 된다. 이 경우 동일 내용을 담고 있는 문장들을 그루핑(grouping)하는 것이 클러스터링(clustering)이다(도 4 참조). 도 4에서 보는 바와 같이 좌측의 문서들 중에서 유사한 내용을 담고 있는 문서들을 클러스터링할 수 있다. 이렇게 그룹으로 묶인 문장들(도 4의 우측) 내에 다수 출현하는 단어에는 가중치를 부여한다.

클러스터링 처리 알고리즘에는 기본적으로 유사도(similarity) 기법을 이용한다. 즉, 요약 문서에 대해 각 문장 간의 유사도를 구해 각 유사도가 일정값(시험상수 C) 이상인 문장들만을 추출하여 그룹화한다. 도 5는 n개의 문장으로 이루어진 문서 내에서 임의의 i번째 문장과 클러스터를 이룰 문장들을 구하는 것으로 문서 내 각 문장간의 유사도를 구한 뒤 유사도값이 상수 C(여기서는 40)보다 큰 문장들만을 선출해 자동으로 클러스터링하는 개념을 나타낸다. 이 때 상수 C는 클러스터링 단계에서 자동으로 구해질 수 있다. 이렇게 i번째 문장과 그룹을 이룰 문장들을 구한 이후에는 다시 나머지 문장들 중에서 임의의 문장을 한 개 선택하여 위의 과정을 반복한다. 반복은 나머지 문장이 없거나 무시해도 좋을 만큼 적어질 때까지(가령, 1, 2개) 한다. 그 밖에 고려할 사항으로는, 1) 사용되는 유사도는 상술한 요약기법에서 사용한 'Inner Vector' 방식이 아닌 코사인 유사도 기법을 이용해야 성능이 좋다. 2) 이렇게 클러스터링된 그룹들에 대해서는 서픽스트리(suffix tree)나 파티션기법(partitional algorithm) 등의 방식으로 보정을 해 준다.

다시 도 1로 돌아가서, 새로운 질의어 추출 단계(700)에 대해 설명한다. 이 단계의 개념은 도 6에 나타낸다. 즉, 앞의 단계에서 얻은 클러스터별로 주제어를 추출하고 이들 주제어로서 새로운 질의어 목록을 만든다. 주제어 추출기는 자신에게 넘겨진 목록들 내에서 출현 빈도가 높은 단어(명사)들을 추출하여 단일명사 혹은 명사구로 만들어준다. 이는 여러 개의 문장에서 동시에 출현한 명사(또는 명사구)들은 여러 문장에서 중첩된 것으로서 복수개의 문장을 대표하는 키워드로 판단되는 것이며, 동시에 해당 명사(또는 명사구)를 이용해 검색을 시행하여도 동일한 문장(혹은 문서)들을 결과로 얻을 수 있기 때문이다.

이때의 단계에서는 앞의 "클러스터링" 단계에서 얻은 단어별 가중치를 고려한다. 도 7은 특정 클러스터에서 주제어를 추출하는 개념을 설명하기 위한 것이다.

한편, 지금까지 설명한 본 발명의 검색 방법 및 장치는 실제로 컴퓨터 프로그램에 의해 구현될 수 있고, 이 프로그램은 컴퓨터 기록 매체에 저장될 수 있다. 컴퓨터 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함한다. 그 예로는, ROM, RAM, CD, DVD-ROM, 자기테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송의 형태로 구현되는 것도 여기에 포함된다. 즉, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

본 발명에 따르면, 사용자가 특정 질의어를 사용하여 검색을 시행한 후 얻어진 검색 결과물을 이용하여 해당 검색 결과물들에 대한 '자동 문서요약'과 '키워드 추출' 등의 단계를 거쳐 사용자가 미리 인식하지 못했던 주제와 관련된 주제어를 자동 추출하므로써, 사용자가 선택한 질의어 이외에 해당 분야에 대해 미리 인지하지 못하고 있던 주제로써 사용자에게 새로운 정보를 제공할 수 있으며, 자동 추출된 주제어를 바탕으로 한 새로운 검색 결과들을 같이 돌려줌으로써 사용자의 시행착오와 반복 작업을 감소시켜 준다.

Claims

a) 사용자가 검색엔진을 통해 원하는 질의어(원질의어)를 입력하면, 입력한 원질의어에 대하여 검색을 수행하고 검색결과를 출력하는 단계,

b) 검색된 문서로부터 핵심적 의미를 지닌 문장을 추출함으로써 결과문서들을 자동으로 요약하고, 자동 요약된 문서로부터 핵심 문장들을 추출하여 각 핵심 문장에 대한 문서를 만드는 단계,

c) 핵심 문장을 문서화한 것에 대해서 유사한 내용을 갖는 문서들을 클러스터링(그루핑)하여 중복문을 제거하고, 각 클러스터별로 주제어(새로운 질의어)를 추출하기 위하여 단어별로 가중치 계산을 시행하는 단계,

d) 상기 가중치를 근거로 새로운 질의어를 한 개 이상 추출하고, 이를 이용해 2차 검색을 하여 각 질의어별로 검색된 결과를 출력하는, 새로운 질의어 추출 단계를 포함하되,

상기 b) 결과문서 자동요약 및 핵심 문장 추출 단계는

원본 문서로부터 문서의 오류와 불필요한 태그를 제거하고 문서를 문장별로 정렬하는 전처리단계,

각 문장에서 명사들만을 추출하고, 추출된 명사가 복합명사인 경우에는 이를 분해하는 명사 추출 및 복합명사 분해 단계,

생성한 명사 목록간의 도합유사도(aggregative similarity)를 계산하는 명사 목록간의 도합유사도 계산 단계,

위에서 구한 도합유사도값이 소정 기준보다 높은 문장들만을 추출하여 자동 요약문서를 생성하는 중요문장 추출단계를 포함하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.
삭제
제1항에 있어서, 상기 b) 단계의 도합유사도 계산 단계에서

도합유사도는 문서 내의 임의의 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.
제3항에 있어서, 전체 n개의 문장으로 이루어진 문서에서 S_i의 도합유사도는 i번 자신의 문장을 제외한 전체 문장들간의 유사도를 구해 아래와 같은 공식으로 계산되는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.

(단, sim(i,j)는 임의의 두 문장(명사 목록) S_i와 S_j 간의 유사도(similarity)를 의미하며, asim(i)는 전체 n개의 문장으로 이루어진 문서 내의 i번 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합한 도합유사도를 의미함)
제1항에 있어서, 상기 c) 문서 클러스터링 및 단어별 가중치계산 단계에서

클러스터링 처리는, 요약 문서에 대해 각 문장 간의 유사도를 구해 각 유사도가 일정값(시험상수 C) 이상인 문장들만을 추출하여 그룹화하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 방법.
제1항에 있어서, 상기 d) 새로운 질의어 추출 단계는

상기 c) 단계에서 얻은 클러스터별로 주제어를 추출하고 이들 주제어로서 새로운 질의어 목록을 만들되,

목록들 내에서 출현 빈도가 높은 단어(명사)들을 추출하여 단일명사 혹은 명사구로 만드는 단계를 포함하는, 질의어 자동 추출을 이용한 검색 방법.
제1, 3, 4, 5, 6항 중 어느 한 항의 방법을 구현하는 컴퓨터 프로그램을 기록한 컴퓨터 기록매체.
사용자가 검색엔진을 통해 원하는 질의어(원질의어)를 입력하면, 입력한 원질의어에 대하여 검색을 수행하고 검색결과를 출력하는 질의어 검색 모듈,

검색된 문서로부터 핵심적 의미를 지닌 문장을 추출함으로써 결과문서들을 자동으로 요약하고, 자동 요약된 문서로부터 핵심 문장들을 추출하여 각 핵심 문장에 대한 문서를 만드는 결과문서 자동요약 모듈,

핵심 문장을 문서화한 것에 대해서 유사한 내용을 갖는 문서들을 클러스터링(그루핑)하여 중복문을 제거하고, 각 클러스터별로 주제어(새로운 질의어)를 추출하기 위하여 단어별로 가중치 계산을 시행하는 클러스터링 모듈,

상기 가중치를 근거로 새로운 질의어를 한 개 이상 추출하고, 상기 질의어 검색 모듈로 하여금 이를 이용해 2차 검색을 하여 각 질의어별로 검색된 결과를 출력하도록 하는 새로운 질의어 추출 모듈을 포함하되,

상기 결과문서 자동요약 모듈은

원본 문서로부터 문서의 오류와 불필요한 태그를 제거하고 문서를 문장별로 정렬하는 전처리수단,

각 문장에서 명사들만을 추출하고, 추출된 명사가 복합명사인 경우에는 이를 분해하는 명사 추출 및 복합명사 분해 수단,

생성한 명사 목록간의 도합유사도(aggregative similarity)를 계산하는 명사 목록간의 도합유사도 계산 수단,

위에서 구한 도합유사도값이 소정 기준보다 높은 문장들만을 추출하여 자동 요약문서를 생성하는 수단을 포함하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.
삭제
제8항에 있어서, 상기 결과문서 자동요약 모듈의 도합유사도 계산 수단에서

도합유사도는 문서 내의 임의의 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 이들을 합하여 계산되는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.
제10항에 있어서, 전체 n개의 문장으로 이루어진 문서에서 S_i의 도합유사도는 i번 자신의 문장을 제외한 전체 문장들간의 유사도를 구해 아래와 같은 공식으로 계산되는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.

(단, sim(i,j)는 임의의 두 문장(명사 목록) S_i와 S_j 간의 유사도(similarity)를 의미하며, asim(i)는 전체 n개의 문장으로 이루어진 문서 내의 i번 문장에 대해서 문서 전체의 각 문장들과의 유사도를 구해 합한 도합유사도를 의미함)
제8항에 있어서, 상기 클러스터링 모듈에 의한 클러스터링 처리는, 요약 문서에 대해 각 문장 간의 유사도를 구해 각 유사도가 일정값(시험상수 C) 이상인 문장들만을 추출하여 그룹화하는 것을 특징으로 하는, 질의어 자동 추출을 이용한 검색 장치.
제8항에 있어서, 상기 새로운 질의어 추출 모듈은

상기 클러스터링 모듈에서 얻은 클러스터별로 주제어를 추출하고 이들 주제어로서 새로운 질의어 목록을 만드는 수단과,

목록들 내에서 출현 빈도가 높은 단어(명사)들을 추출하여 단일명사 혹은 명사구로 만드는 수단을 포함하는, 질의어 자동 추출을 이용한 검색 장치.