KR100452024B1

KR100452024B1 - 자연어 질의 응답 검색 엔진 및 검색 방법

Info

Publication number: KR100452024B1
Application number: KR10-2001-0001011A
Authority: KR
Inventors: 한용운
Original assignee: 한용운
Priority date: 2001-01-08
Filing date: 2001-01-08
Publication date: 2004-10-08
Also published as: KR20020059555A

Abstract

본 발명은 자연어 검색 엔진에 관한 것으로서, 본 발명의 자연어 질의 응답 검색 엔진은 사용자의 질의어를 분석하여 데이터베이스화한 핵심어와 비교한 뒤, 핵심어에 대응하는 답변을 제공한다. 검색 엔진 내의 프로세서는 사용자의 질의문에 대응하는 어휘를 갖는 핵심어를 데이터베이스로부터 검출하고, 검출된 핵심어에 대응하는 답변을 검출하여 사용자에게 제공한다.

따라서, 본 발명은 사용자가 입력한 질의에 답변을 제공할 수 있다는 특징이 있다.

Description

자연어 질의 응답 검색 엔진 및 검색 방법{SEARCHING ENGINE AND SEARCHING METHOD}

본 발명은 인터넷 검색 엔진에 관한 것으로, 더욱 상세하게는 자연어 검색이가능한 자연어 질의 응답 검색 엔진 및 검색 방법에 관한 것이다.

인터넷 기술이 발달함에 따라 각 분야의 정보화가 급속도로 이루어지고 있다. 최근 정부에서도 정보화 촉진 정책을 실시함으로서 인터넷은 점차 대중화, 일반화되고 있는 추세이다. 각각의 정보화된 자료는 인터넷의 웹 사이트나 웹 페이지를 통해 사용자에게 전달되며, 사용자가 필요로 하는 웹 사이트 또는 웹 페이지를 용이하게 검색할 수 있도록 도와주는 검색 엔진이 인터넷 상에 제공되고 있다. 종래의 검색 엔진은 사용자가 입력한 검색어에 대응하는 어휘를 갖는 웹 사이트 또는 웹 페이지를 검색하고, 검색된 웹 사이트 또는 웹 페이지의 일부 내용(검색어를 갖는)과 그 주소를 제공하는 방식을 채용하고 있다. 따라서 검색 엔진을 이용함으로써 검색어를 갖는 웹 사이트 또는 웹 페이지를 쉽게 찾을 수 있다는 효과는 있으나, 필요로 하는 정보의 명칭(용어)을 알지 못하는 경우에는 정보를 검색하는 데 상당한 시간이 소요된다는 문제가 있다. 예컨데, 사용자가 대한민국의 수도에 관한 정보(크기, 인구, 도로 상황 등)를 알고자 한다고 가정하자. 대한민국의 수도가 '서울'이라는 것을 알고 있는 경우에는 검색어를 '서울'로 설정하고, 검색 엔진을 이용함으로써 '서울'에 관한 정보를 쉽게 찾을 수 있다. 그러나 대한민국의 수도가 '서울'이라는 것을 알지 못한다면, 사용자는 먼저 대한민국의 수도가 어디인지를인터넷 상에서 검색하여야 한다. 이를 위해 사용자는 검색어로 '대한민국'을 설정할 것이며, 검색어(대한민국)만을 입력했을 경우, 현행 검색 엔진은 웹 페이지를 기준으로 2000년 12월 26일 현재 한국통신의 한미르(HanMir)에서는 35,349개, 라이코스(Lycos)에서는 3113개, 야후(Yahoo)에서는 141개의 결과(웹 페이지)를 보여준다. 따라서 대한민국의 수도가 '서울'이라는 정보를 얻기 위해서는 위의 사이트를 일일이 찾아보아야 하며, 위의 사이트에 대한민국의 수도가 '서울'이라는 정보가 없을 수도 있다.

이와 같이 종래의 검색 엔진을 이용하는 방법은 사용자가 필요로 하는 정보의 명칭을 정확히 알고 있는 경우에 한하여 유용하며, 사용자가 정보의 명칭을 알지 못하는 경우에는 검색에 상당한 시간이 소요된다는 문제가 있다.

이러한 문제를 해결하는 방법으로 자연어 검색 방법이 모색되고 있다. 자연어 검색 방법이란 '대한민국의 수도는?'과 같은 질문을 검색 엔진에 제공하면, 검색 엔진이 대한민국의 수도가 '서울'임을 알아서 검색하는 방법을 말한다. 자연어 검색 방법은 사용자가 필요한 정보를 용이하게 검색할 수 있다는 유용성에 의해 그 개념이 최근에 부각되고 있으나, 기술의 한계로 말미암아 현재까지는 완전한 자연어 검색 방법을 실현하지 못하고 있다. 자연어 검색 기능을 갖고 있다는 일부 검색 엔진이 소개되고 있으나, 이러한 검색 엔진 역시 그 검색 결과는 원하는 답이 아닌 검색어 또는 검색 문장과 관련한 사이트를 소개해 주는 정도에 불과하다. 자연어 검색이 가능하다고 하는 검색 엔진의 경우('대한민국의 수도는 어디인가?'를 입력)를 보면 월드맨(Worldman)에서는 622개, DB Dic의 경우 2507개가 검색된다. 즉, 종래의 자연어 검색 엔진의 경우도 사용자의 질의어에 포함되어 있는 어휘(대한민국, 수도)를 갖는 사이트를 검색하는 수준이며, 질의에 대한 답변을 정확히 제공하지 못하고 있다.

상술한 바와 같이 일반 검색 엔진의 경우는 검색어가 포함된 사이트를 나열하는 수준이며, 자연어 검색 엔진의 경우 역시 검색어가 포함된 문장이 나타나는 사이트나 사이트의 주소를 보여주는 수준에 그치고 있다. 때문에 현행 검색 방법에서는 검색자가 원하는 결과인 '서울'이라는 답변을 단번에 찾을 수 없다는 한계가 있다. 결과적으로 현행 검색 프로그램을 이용하려면 사용자가 검색할 정보의 검색어(명칭)를 정확히 알고 있어야 한다. 위에서 예시한 것처럼 검색 결과인 여러 사이트를 하나하나 확인해서 검색할 내용을 찾을 수도 있겠지만 그러기 위해서는 많은 시간과 노력이 뒤따라야 한다는 문제가 있다.

본 발명은 이러한 문제를 해결하기 위한 것으로서, 본 발명의 목적은 사용자의 질의어에 대한 정확한 답변을 제공하는 자연어 질의 응답 검색 엔진을 제공하는 것이다.

본 발명의 다른 목적은 사용자의 질의어에 대한 정확한 답변을 제공하는 자연어 질의 응답 검색 방법을 제공하는 것이다.

이러한 목적을 달성하기 위하여 본 발명은 인터넷 망과 접속되는 검색 엔진에 있어서, 검색어에 대응하는 웹 사이트 및 웹 페이지 주소가 저장된 제 1 데이터베이스와, 핵심어들에 대응하는 답변들이 저장되어 있는 제 2 데이터베이스와, 상기 인터넷 망을 통하여 사용자로부터 제공되는 질의어의 어휘와 동일한 어휘를 갖는 상기 핵심어를 상기 제 2 데이터베이스에서 검출하고, 검출된 답변을 상기 사용자에게 제공하며, 상기 사용자의 요구에 따라 상기 답변을 검색어로 사용하여 상기 제 1 데이터베이스에서 해당 웹 사이트 및 웹 페이지 정보를 검출하고 검출된 정보를 상기 사용자에게 제공하도록 구성된다.

본 발명은 또한 자연어 검색이 가능한 검색 엔진의 구동 방법에 있어서, 사용자의 질의어를 입력하는 단계와, 상기 질의어로부터 조사 및 어미를 삭제하는 단계와, 상기 조사 및 어미가 삭제된 체언 및 용언과 동일한 어휘를 갖는 핵심어를 검색하는 단계와, 상기 검색된 핵심어에 대응하는 답변을 검색하는 단계와, 상기 검색된 답변을 상기 사용자에게 제공하는 단계를 구비한다.

도 1은 본 발명에 따른 자연어 질의 응답 검색 엔진의 블록도,

도 2는 본 발명에 따른 자연어 질의 응답 검색 엔진에 사용되는 데이터베이스의 구조를 도시한 도면,

도 3은 본 발명에 따른 자연어 질의 응답 검색 방법의 흐름도,

도 4는 본 발명에 따른 자연어 질의 응답 검색 엔진에 따라 사용자가 질의어를 입력하는 과정 및 질의어에 대응한 답변이 사용자에게 제공되는 상태를 도시한 도면,

도 5는 본 발명에 따른 자연어 질의 응답 검색 엔진의 다른 실시예를 도시한 도면,

도 6은 본 발명에 따른 자연어 질의 응답 검색 방법의 다른 실시예를 도시한 도면.

<도면의 주요 부분에 대한 부호의 설명>

1 : 인터넷 망 2 : 퍼스널 컴퓨터

3 : 프로세서 4,5,6 : 데이터베이스

10 : 검색 엔진

이하, 첨부 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다.

도 1에는 본 발명에 따른 자연어 질의 응답 검색 엔진의 블록도가 도시되어 있다. 도시된 바와 같이 본 발명의 검색 엔진(10)은 유/무선 인터넷 망(1)을 통하여 일반 퍼스널컴퓨터(2)(퍼스널컴퓨터 외에 인터넷 통신이 가능한 모든 기기-예컨데 무선 핸드폰-가 포함될 수 있다.)와 접속되는 프로세서(3)를 구비하며, 프로세서(3)는 두 개의 데이터베이스(4), (5)를 구비한다. 데이터베이스(4)는 일반 검색 엔진에서와 같이 각각의 검색어에 대응하는 어휘를 갖는 웹 사이트 및 웹 페이지들의 주소 정보가 검색어에 대응하여 저장되어 있다. 이러한 데이터베이스(4)의 구성 방법은 일반 검색 엔진과 동일하므로 본 명세서에서는 상세한 설명을 생략한다.

데이터베이스(5)에는 본 발명의 자연어 검색을 수행하는데 필요한 정보들이 저장되며, 도 2에는 데이터베이스(5)의 구성 상태가 도시되어 있다. 도시된 바와 같이 본 발명의 데이터베이스(5)는 3개의 필드를 구비한다. 첫 번째 필드는 코드 번호 필드이며 두 번째 필드는 답변란 필드이고 세 번째 필드는 핵심어란 필드이다. 코드 번호 필드에는 다수의 코드 번호가 레코드별로 저장되며, 답변란 필드에는 코드 번호에 대응하는 답변이 레코드 별로 저장된다. 답변란 필드의 레코드에 저장되는 답변은 최근 간행된 국어 대사전과 전문어 사전의 표제어를 중심으로 선택된다. 핵심어란 필드에는 답변란 레코드에 대응하는 핵심어 레코드가 구성되며, 핵심어 레코드 내에는 다수의 핵심어 소 레코드가 구성되고, 핵심어 소 레코드에는 하나 이상의 핵심어들이 각각 저장된다.

핵심어 필드에 저장되는 핵심어들은 자연어 검색 시에 사용되는 사용자의 질문 유형을 분석하여 설정하여야 한다. 핵심어의 설정은 답변란 필드 내의 답변(표제어)에 따라 상이한 방식으로 설정함이 바람직한데, 현행 사전의 뜻풀이를 참고하고, 다음으로 한국어의 의문문의 유형, 조사와 어미 결합 여부 등을 고려해서 핵심어를 설정하여야 한다. 위의 답변란 필드의 '서울'을 대상으로 하여 핵심어를 추출하는 과정을 약술하면 다음과 같다. '서울'에 대해 가장 일반적인 질문은 '대한민국의 수도는 어디인가?'이다. 그렇지만 사용자들은 이 질문 외에 다음과 같은 질문을 할 수 있을 것이다.

(1) ① 대한민국 수도? / 대한민국의 수도는?

② 대한민국의 수도는 어디입니까? / 대한민국의 수도는 어디지?

③ 대한민국의 수도는 무엇입니까? / 대한민국의 수도는 뭡니까? / 대한 민국의 수도는 뭐지?

④ 대한민국의 수도는 머고? / 대한민국의 수도는 머야?

(2) ① 한국 수도? / 한국 수도는?

② 한국의 수도는 어디입니까? / 한국의 수도는 어디지?

③ 한국의 수도는 무엇입니까? / 한국의 수도는 뭡니까? / 한국의 수도 는 뭐지?

④ 한국의 수도는 뭐고? / 한국의 수도는 머야?

(3) 대한민국에서 가장 큰 도시는 어디인가?

(4) 한국에서 가장 큰 도시는 어디인가?

대한민국의 수도에 대한 사용자의 질문 양식은 위에서 예시한 것 외에도 상당수 있을 수 있다. 먼저 (1)의 경우에 대하여 설명하면 다음과 같다.

(1)의 ①은 사용자가 서술어를 사용하지 않은 문장이다. 한국어의 정상적인 질문 형식은 서술어가 포함되는 것이 일반적이지만 그렇다고 ①이 비문은 아니기 때문에 핵심어 필드에서는 이를 고려해야 한다. 이 문장에서 추출할 수 있는 핵심어는 '대한민국'과 '수도'가 된다.

(1)의 ②는 일반적인 질의 문장인데 화자는 질문의 유형을 '존대 형식(합쇼체)'을 사용할 수도 있고 '비존대형식(해체)'을 사용할 수도 있음을 보인 것이다. 유무선 통신상에서 화자가 컴퓨터나 PCS를 사용해서 입력한다는 점을 고려하면 '비존대형식'을 취하는 것이 일반적일 것으로 예상되지만 그렇지 않은 경우도 고려한것이다. 이 문장에서 추출할 수 있는 핵심어는 '대한민국, 수도, 어디,'가 될 것이다.

(1)의 ③은 준말의 형식을 고려한 문장이다. '무엇'과 '뭡'과 '뭐'처럼 준말(준말이 아닌 별개의 형태소로 처리하는 논의도 있음) 관계에 있는 것으로 보이는 단어들에 대한 처리를 보인 것이다. 이들은 컴퓨터가 인식할 수 있는 기호를 로직에 반영하여 동의어로 처리할 수 있다. 따라서 핵심어는 '대한민국, 수도, 무엇'이 된다.

(1)의 ④는 화자가 입력 문장으로 '방언'이나 '비표준어'를 사용할 경우를 대비한 문장이다. 제대로 표준어를 구사할 수 있는 사람이 많지 않다는 점을 고려한 것이다. 이 문장에서 핵심어는 '대한민국, 수도, 머'가 된다.

위의 (1)은 사실 더 많은 경우의 수가 있지만 간단히 약술하여 보인 것이다. (1)의 각각의 경우가 검토된 다음에 다시 최종적인 핵심어를 선정한다. 하나 하나의 경우에 대해 핵심어 선정을 할 수도 있지만 핵심어가 많아질수록 답변 검색 속도가 늦어지고, 데이터베이스(5)내의 정보량이 많아진다는 부담이 있기 때문이다. (1)의 최종적인 핵심어는 '대한민국, 수도'가 된다. (1)의 경우 '대한민국'과 '수도'라는 단어는 모든 문장에 나타나고 있어 이 두 단어가 입력되면 바로 '서울'이라는 답변에 대응시킬 수 있기 때문이다. '서울'이라는 답변에 대한 핵심어는 서술어에 대한 고려를 하지 않아도 된다. 물론 핵심어에 서술어가 포함되는 표제어(답변)도 많다. 서술어가 핵심어로 설정되지 않았을 경우는 서술어 부분에서 오타나 방언 등 비표준어가 입력되어도 답을 찾을 수 있지만 명제항 즉 '대한민국의 수도'부분은 맞춤법에 맞게 입력해야 한다.

(2)는 '서울'이라는 답변을 요구하는 질문의 명제항이 (1)과 다른 경우를 고려한 것이다. 이 경우는 별도의 핵심어를 선정해주어야 한다. 여기서도 (1)의 ①부터 ④의 과정이 다시 검토된다. 그 결과 최종 핵심어로 '한국, 수도'가 선정된다.

(3)과 (4)의 과정도 기본적으로 (1)과 같음은 본 발명의 기술 분야에서 통상의 지식을 가진 자는 용이하게 알 수 있을 것이다.

도 3에는 상술한 구성을 갖는 본 발명의 검색 엔진의 검색 방법을 도시한 흐름도가 도시되어 있다. 인터넷 망(1)을 통하여 본 발명의 검색 엔진(10)과 접속된 사용자가 대한민국의 수도를 검색하기 위해서 도 4 a에 도시된 바와 같이 질의어('대한민국의 수도는 어디인가')를 컴퓨터(2)에 입력할 것이다. 사용자의 컴퓨터(2)와 인터넷 망을 통하여 접속된 본 발명의 프로세서(3)는 사용자의 컴퓨터(2)로부터 질의어(대한민국의 수도는 어디인가?)가 제공되는가를 판단한다(S1). 단계(S1)의 판단 결과 질의어가 제공되면, 프로세서(3)는 질의어에서 사용되는 어휘들(대한민국의 수도는 어디입니까)과 핵심어 소 레코드 내의 핵심어 어휘들을 상호 비교하여(S3), 동일 어휘를 가장 많이 구비하는 핵심어 소 레코드를 검출한다(S5). 이 예에서는 '대한민국' 및 '수도'를 핵심어로 갖고 있는 소 레코드가 질의어의 어휘와 동일한 어휘를 가장 많이 구비하고 있다.

단계(S5)에 의하여 핵심어 소 레코드 필드가 검출되면, 프로세서(3)는 단계(S7)로 진행하여 검출된 핵심어 소 레코드 필드('대한민국' 및 '수도'를 핵심어로 갖는)에 대응하는 답변란 레코드 내의 답변(본 실시예에서는 서울)을 독출하고, 독출된 답변(서울)을 사용자의 컴퓨터(2)에 제공한다(S9). 따라서 사용자의 컴퓨터(2)에는 도 4 b와 같이 '서울'이라는 답변이 제공될 것이다. 답변이 제공된 상태에서 사용자가 서울에 관계되는 사이트를 검색하고자 하면, 사용자는 마우스 등의 입력 장치를 이용하여 관련 사이트 연결을 명령한다. 프로세서(3)는 이 관련 사이트 제공 명령이 제공되면(S11), 데이터베이스(4)내에 저장되어 있는 사이트 정보, 즉 '서울'이라고 하는 검색어를 가지고 있는 사이트 또는 페이지 정보를 검색하여(S13) 사용자 컴퓨터(2)에 제공한다. 즉 검색어를 가지고 사이트 및 페이지를 검색하는 일반 검색 방법을 수행하는 것이다. 사용자는 검색 엔진으로부터 제공되는 사이트 및 페이지 주소를 확인하고, 필요한 정보가 저장되어 있는 사이트 또는 페이지에 접속함으로써 필요한 정보를 검색할 수 있다. 이러한 과정은 일반 검색 방법과 동일하므로 도면에서는 도시를 생략하였다.

한편 '대한민국의 수도는 어디인가' 라는 질의어는 '대한민국의', '수도는', '어디인가'라는 어휘로 구성되어 있다. 이러한 질의어 구성에서 '대한민국의'라는 어휘에는 '대한민국'이라는 명사와 '의'라는 조사로 구성되어 있다.

체언에 부가되어 사용되는 국어의 조사는 격조사, 보조사, 접속조사로 구분되나, 본 발명에서는 조사를 그 하위 범주로 구분할 필요 없다. 조사 목록의 일부를 제시하면 다음과 같다.

<조사 목록>

① 단일 형태 : 이, 가, 을, 를, 에서, 에, 께서, 께, 더러, 와, 과, 은, 는, 만, 도, 부터, 까지, 조차, 마저, ----

② 복합 형태 :에서는, 에서부터, 까지도, 까지는, 에서는, 에서가, 에서도, 에서만, 에서조차, --------

위에서 보인 것처럼 조사는 단일 형태의 목록과 복합 형태의 목록이 있으며, 조사는 체언에 결합되어 사용된다.

한편 상술한 예에서 '대한민국의'라는 어휘와 '대한민국'이라는 어휘의 동일성을 비교하면 양자는 정확히 일치하지 않음을 알 수 있다. 즉 조사 '의'에 의하여 양자는 서로 상이하다. 그러나, 컴퓨터에서 사용되는 '대한민국의'이라는 어휘는 '대한민국'을 의미하는 코드(예컨데 A)와 '의'를 의미하는 코드(예컨데 B)가 결합되어 있는 상태이므로 프로세서(3)는 '대한민국의'를 의미하는 코드(AB)와 핵심어들의 코드를 상호 비교하고, 동일한 것이 없을 때에는 두 개의 코드(AB)중에서 코드(A)가 동일한 핵심어 '대한민국'을 검출한다. 따라서 '대한민국의' 라는 어휘와 동일한 핵심어를 찾는 데 필요한 시간은 '대한민국'이라는 어휘와 동일한 핵심어를 찾는 데 필요한 시간보다 긴 시간이 필요함을 알 수 있다. 본 발명의 데이터베이스(5)내의 답변란 필드에 15만개 이하의 답변이 저장되는 경우에는 질의어에 조사가 붙어 있어도 대응하는 핵심어를 검출하는 데 많은 시간이 소요되지 않는다. 그러나 15만개 이상의 답변이 저장되는 경우에는 핵심어란의 정보량이 커지기 때문에 대응하는 핵심어를 검색하는 데 상당한 시간이 필요하다.

이러한 문제를 해결하기 위하여 본 발명자는 질의어의 체언에 결합된 조사를 제거한 뒤 남은 체언만 핵심어와 비교하여 검색 속도를 향상시키는 방법을 착안하였다. 예컨데 "철수와 영희는 학교에 간다."라는 질의어 문장에서 조사 '와','는', '에'를 삭제함으로 '철수', 영희'라는 체언만을 이용하여 대응하는 핵심어를 검색함으로써 검색 속도를 높일 수 있다.

체언에 부가되는 조사들 중에서 단일 형태의 조사는 '공백' 앞의 조사는 삭제하라"라는 명령어에 의해 자동 삭제한다. '공백 앞'이란 제약은 어두에 오는 조사와 표기가 같은 체언의 일부를 삭제하지 않도록 하기 위한 조치이다. 예를 들면 '의복'의 '의'는 조사 '의'와 표기가 같기 때문에 아무런 제약을 주지 않으면 삭제되고 '복'만 남는 결과를 초래하기 때문이다. 본 발명에서는 조사를 삭제하고, 남아 있는 '철수, 영희, 학교, 간다' 등과 핵심어를 비교하여 답변을 찾게 된다. 그리고 복합 형태 조사를 목록에 포함시켰는데, 이는 '삭제 명령'이 한 번만 적용되도록 하기 위해서이다. 순서상 복합 형태의 조사를 먼저 찾아 삭제하고, 복합 형태가 없을 경우 단일 형태의 조사를 찾아 삭제한다.

한편 용언(동사와 형용사)에는 어미가 반드시 결합되어야 하는데, 질의어에 포함되는 용언에 대응하는 핵심어를 검출하기 위해서는 체언에서와 같이 어미를 삭제하는 과정을 행할 필요가 있다. 물론 어미를 삭제하는 과정은 조사에서와 같이 검색 속도를 향상시키고자 하는 목적이므로 15만개 이상의 답변이 구축되었을 때 필요하며, 15만개 이하의 답변이 구축된 경우에는 검색 속도에서 큰 문제가 없다.

어미는 다음에서와 같이 단일 형태와 복합 형태로 구분할 수 있다.

① 단일형태 : (해)라, (하)자, (하)면, (하)니, (하)고, (하)여,(하)느라, ㅂ니다, ㅂ니까, ----

② 복합형태 : (하)셨다, (하)였다. (하)라고, (하)겠다, (했)었다, (했)더라,----

본 발명에서는 후술하는 바와 같이 어미는 두 가지 처리 과정을 거친다. 즉 핵심어란이 체언으로만 구성되어 있을 경우는 삭제되지 않고 그대로 남게 된다. 그러나 핵심어란에 용언이 포함될 경우 어미는 조사의 경우처럼 삭제되는 과정을 거치게 된다.

상술한 바와 같이 검색어에서 조사 및 어미를 삭제하기 위해서는 조사 및 어미를 구비하는 별도의 데이터베이스가 필요하며, 도 5에는 조사 및 어미가 저장된 데이터베이스(6)를 구비하는 본 발명의 검색 엔진(10)이 도시되어 있다. 도시된 바와 같이 데이터베이스(6)에는 현재 사용되는 조사가 저장되어 있는 조사 저장 영역(61)과 사용되는 어미가 저장되어 있는 어미 저장 영역(62)을 구비한다.

도 6에는 데이터베이스(6)를 갖는 프로세서(3)가 행하는 본 발명의 자연어 검색 과정의 흐름도가 도시되어 있다.

도시된 바와 같이 프로세서(3)는 '대한민국의 수도는 어디인가'와 같은 질의어가 사용자 컴퓨터(2)로부터 제공되는가를 판단한다(S21). 단계(S21)의 판단 결과 질의어가 제공되면, 프로세서(3)는 질의어 어휘들 중에서 복합 형태의 조사들을 검출하여 삭제하고(S23), 단일 형태의 조사를 검출하여 삭제하는 과정을 행한다(S23). 단일 형태의 조사를 검출하여 삭제하기 위해서 프로세서(3)는 질의어의 어휘들 중에서 띄어쓰기 되어 발생되는 '공백' 앞에 사용되는 사용된 조사만을 검출하여 삭제한다. '공백'앞에 사용되는 조사만을 검출하여 삭제하는 이유는 상술하였다. 이와 같이 복합 형태 및 단일 형태의 조사를 검출하기 위하여 프로세서(3)는 상술한 데이터베이스(6)내의 정보를 이용함은 본 발명의 기술 분야에서 통상의지식을 가진 자는 용이하게 알 것이다.

단계(S23,S25)에 의하여 질의어 내의 조사를 삭제한 프로세서(3)는 단계(S27)로 진행하며, 질의어 내에 사용된 어미들을 검출하여 삭제한다. 단계(S23,S25,S27)는 데이터베이스(6)내에 저장되어 조사나 어미 목록에 일치하는 형식이 있는 경우만 수행되며, 일치하는 정보가 없을 경우 기능하지 않는다.

질의어 내의 조사 및 어미를 삭제함으로써 질의어에는 체언과 용언만이 존재하며, 프로세서(3)는 질의어의 체언과 용언(예컨데 대한민국, 수도, 어디)과 핵심어 소 레코드 내의 핵심어 어휘들을 검색하여(S29), 동일 어휘를 가장 많이 구비하는 핵심어 소 레코더를 검출한다(S31). 이 예에서는 '대한민국' 및 '수도'를 핵심어로 갖고 있는 소 레코드가 질의어의 어휘와 동일한 어휘를 가장 많이 구비하고 있다.

단계(S31)에 의하여 핵심어 소 레코드 필드가 검출되면, 프로세서(3)는 단계(S33)로 진행하여 검출된 소 레코드('대한민국' 및 '수도'를 핵심어로 갖는)에 대응하는 답변란 레코드 내의 답변(본 실시예에서는 서울)을 독출하고, 독출된 답변(서울)을 사용자의 컴퓨터(2)에 제공한다. 따라서 사용자의 컴퓨터(2)에는 도 4 b와 같이 서울이라는 답변이 제공될 것이다. 답변이 제공된 상태에서 사용자가 서울에 관계되는 사이트를 검색하고자 하면, 사용자는 마우스 등의 입력 장치를 이용하여 관련 사이트 연결을 명령한다. 프로세서(3)는 이 관련 사이트 연결 명령이 제공되면(34), 데이터베이스(4)내에 저장되어 있는 사이트 정보, 즉 서울이라고 하는 검색어를 가지고 있는 사이트 또는 페이지 정보를 검색하여 사용자 컴퓨터(2)에 제공한다(S35).

상술한 설명으로부터 알 수 있는 바와 같이 본 발명의 검색 엔진은 사용자가 찾고자 하는 정보의 이름을 모르더라도 자연어 상태의 질문을 입력하면 사용자가 원하는 정보를 용이하게 제공할 수 있는 효과가 있다.

Claims

인터넷 망과 접속되는 검색 엔진에 있어서,

검색어에 대응하는 웹 사이트 및 웹 페이지 주소가 저장된 제1 데이터베이스와,

질문에 대응하는 답변들이 저장되어 있는 제2 데이터베이스와,

현대국어 조사와 어미의 총 목록이 저장되어 질의문에서 조사와 어미를 삭제하게끔 하는 장치가 구축되어 있고,

상기 인터넷 망을 통해 사용자로부터 제공되는 질의어를 분석하여 질의어에 포함된 조사와 어미를 제거한 후 핵심어를 추출하고, 추출된 핵심어에 대응하는 정확한 답변을 상기 제2 데이터베이스에서 검출하고, 검출된 답변을 상기 사용자에게 제공하며, 상기 사용자의 요구에 따라 검출된 답변을 검색어로 사용하여 상기 제1 데이터베이스에서 해당 웹 사이트 및 웹 페이지 정보를 검출하고, 상기 검출된 정보를 상기 사용자에게 제공하도록 구성된 자연어 질의 응답 검색 엔진.
제 1 항에 있어서,

상기 제2 데이터베이스는 레코드별로 코드가 저장된 코드 번호 필드와,

상기 코드 번호 필드의 레코드에 대응하는, 레코드 별로 답변이 저장된 답변란 필드와,

상기 답변란 필드의 레코드에 대응한 핵심어가 저장되는 핵심어 필드를 구비하며, 상기 핵심어 레코드는 하나 이상의 핵심어들이 저장되어 있는 다수의 핵심어 소 레코드를 구비하는 자연어 질의 응답 검색 엔진.
삭제
자연어 검색이 가능한 검색 엔진의 구동 방법에 있어서,

검색어에 대응하는 웹 사이트 및 웹 페이지 주소가 저장된 제1 데이터베이스와,

질문에 대응하는 답변들이 저장되어 있는 제2 데이터베이스와,

현대국어 조사와 어미의 총 목록이 저장되어 질의문에서 조사와 어미를 삭제하게끔하는 장치가 구축되어 있고,

상기 인터넷 망을 통해 사용자로부터 제공되는 질의어를 분석하여 질의어에 포함된 조사와 어미를 제거한 후 핵심어를 추출하고, 상기 제2 데이터베이스에서 추출된 핵심어에 대응하는 정확한 답변을 검출하고, 검출된 답변을 상기 사용자에게 제공하며, 상기 사용자의 요구에 따라 검출된 답변을 검색어로 사용하여 상기 제1 데이터베이스에서 해당 웹 사이트 및 웹 페이지 정보를 검출하고, 상기 검출된 정보를 상기 사용자에게 제공하도록 구성된 자연어 질의 응답 검색 방법.