KR20020072092A - 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템 - Google Patents

단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템 Download PDF

Info

Publication number
KR20020072092A
KR20020072092A KR1020010012071A KR20010012071A KR20020072092A KR 20020072092 A KR20020072092 A KR 20020072092A KR 1020010012071 A KR1020010012071 A KR 1020010012071A KR 20010012071 A KR20010012071 A KR 20010012071A KR 20020072092 A KR20020072092 A KR 20020072092A
Authority
KR
South Korea
Prior art keywords
correct
correct answer
candidate
query
document
Prior art date
Application number
KR1020010012071A
Other languages
English (en)
Other versions
KR100498574B1 (ko
Inventor
서정연
이근배
김학수
Original Assignee
서정연
이근배
김학수
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서정연, 이근배, 김학수 filed Critical 서정연
Priority to KR10-2001-0012071A priority Critical patent/KR100498574B1/ko
Publication of KR20020072092A publication Critical patent/KR20020072092A/ko
Application granted granted Critical
Publication of KR100498574B1 publication Critical patent/KR100498574B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자의 질의에 대한 응답 시간을 단축하고 정확률을 향상시키기 위하여 효과적으로 문서를 색인하는 방법과 색인된 정보를 이용하여 사용자의 질의와 정답 후보들 사이의 유사도를 계산하는 방법을 제공하는 자연어 질의-응답 검색 시스템이 개시된다. 본 발명에 따르면, (ⅰ) 질의유형에 따라 문서에서 정답 후보들을 추출하는 단계; (ⅱ) 정답 후보들을 기준으로 문서를 분할하는 단계; (ⅲ) 정답 후보들에게 영향을 미치는 주변 단어들에게 점수를 부여하는 단계; (ⅳ) 점수가 부여된 단어와 정답 후보들을 데이터 베이스에 저장하는 단계를 포함하는 단락 단위의 응답 색인 방법 및 그 색인된 정보를 이용하여 정답 후보들과 사용자의 질의어 사이의 유사도를 계산하여 정답 후보를 우선 순위화하는 검색 방법을 제공한다. 또한 일반적인 정보 검색기의 유사도와 정답 후보들의 유사도를 통합하여 검색된 문서의 순위를 재조정하고 정답이 포함된 문장을 추천하는 방법을 제공한다.

Description

단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답 검색 시스템{Real-time Natural Language Question-Answering System Using Unit Paragraph Indexing Method}
본 발명은 웹 사이트에서 운영되는 대화형 자연어 질의-응답 검색 시스템에 관한 것이며, 특히 자연어 질의-응답 검색 시스템에서 빠른 응답 시간과 높은 정확도를 얻기 위하여 효과적으로 문서를 색인하는 방법과 색인된 정보를 이용하여 사용자의 질의와 정답 후보들 사이의 유사도를 계산하여 정답을 추천하는 방법에 관한 것이다.
최근에 웹 사이트 상에서 무수히 많은 웹 문서 정보를 처리하여 사용자의 요구에 해당하는 것만을 추출하여 사용자에게 제공하는 정보 검색 시스템이 널리 이용되고 있다. 그러나, 일반적으로 방대한 웹 문서 집합에서 정보 요구자가 원하는 문서를 정확히 추출하고 특정 질의에 대한 응답을 정확히 얻는 것은 매우 어렵다.
따라서, 단어가 매칭된 문서를 찾아주는 기존의 검색 시스템과는 달리 사용자의 의도를 파악하여 적합한 문서와 정답을 추천하는 자연어 질의-응답 검색 시스템이 출현하였다.
자연어 질의-응답 검색 시스템의 일 예는 본 출원인에 의한 "대화형 DB, FAQ 리스트, 웹 사이트에 대한 통합형 자연어 질의-응답 검색 시스템 및 방법"이라는 제하의 2000. 5. 25일 특허출원 28345호에서 찾아볼 수 있다.
그러나, 현재의 질의-응답 검색 시스템들은 검색을 수행할 때 정답 후보들을 추출하여 점수를 부여하고 불필요한 정보들을 여과함으로써 응답 시간이 매우 늦다는 단점이 있다. 또한, 시간적 제약으로 인해 정답 후보 주변의 문맥을 효과적으로 반영하지 못한다는 문제점이 있다.
본 발명의 목적은 웹 문서들을 정답 후보를 기준으로 하여 일정한 크기의 단락으로 분할하고, 정답에 영향을 미치는 주변 단어들에 점수를 부여한 후 주변 단어를 정답 색인 데이터 베이스에 저장함으로써 상기한 문제점들을 해결하려는 것이다.
본 발명의 다른 목적은 상기한 색인 결과를 이용하여 문서 검색 성능의 향상을 꾀하고 정답과 함께 정답을 포함하는 문장을 추천하는 기능을 제공하는 데 있다.
본 발명은 또한 일반적인 정보 검색기의 문서 검색 결과와 상기 색인 결과를 이용한 검색 결과를 통합하여 검색 효과를 높이고 정답을 포함하는 문장을 추천하기 위한 것이다.
도 1은 본 발명에 따른 자연어 질의-응답 검색 시스템의 구조도.
도 2는 본 발명에 따른 자연어 질의-응답 검색 시스템의 색인 및 검색 방법의 전체 흐름도.
도 3은 도 1의 색인 엔진에서 수행하는 단락 단위의 정답 색인 방법을 나타내는 흐름도.
도 4는 도 3에서 정답 후보가 있는 문서로부터 정답을 포함한 단락을 결정하는 단락 구분 단계의 상세 흐름도.
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 단락 단위의 응답 색인 방법은 (ⅰ) 입력된 문서를 형태소/부분 구문 분석하는 단계; (ⅱ) 언어 분석된 문서에서 정답 후보를 추출하는 단계; (ⅲ) 정답 후보에 영향을 주는 문장의 범위를 결정하는 단계; (ⅳ) 정답 후보 주변의 단어들에 점수를 부여하는 단계; (ⅴ) 정답 후보를 정답 유형에 따라 분류하고 주변 단어를 정답 색인 데이터 베이스에 저장하는 단계를 포함한다.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 발명에 따라 문서를 색인하고, 사용자의 자연어 질의를 분석하여 정답을 추천해 주는 대화형 자연어 질의-응답 검색 시스템의 전체 구조도이다.
도 1에서, 본 발명의 색인 엔진(10)은 입력 대상 웹 문서에서 문장의 형태소를 분석하기 위한 형태소 분석기(11)와, 상기 분석된 형태소 사이의 수식 관계를 결정하는 부분 구문 분석기(12)와, 상기 분석된 구문에 영역 사전과 정답 유형 규칙을 이용하여 정답 후보를 추출하는 정답 후보 추출기(13)와, 상기 정답 후보 추출기에서 추출한 후보의 주변 문맥의 범위를 결정하는 단락 구분기(14)와, 상기 구분된 단락 내부에 존재하는 단어들과 정답 후보와의 연관도를 계산하여 주변 단어에 점수를 부여하는 점수 부여기(15)와, 상기 정답 후보의 유형을 분류하여 주변 단어와 함께 정답 색인 데이터 베이스(DB1~DBn)에 저장하는 분류 저장기(16)를 포함한다. 상기 색인 엔진(10)은 바람직하게 웹 검색 사이트의 서버 시스템에서 동작하도록 결합된다.
또한, 본 발명의 검색 엔진(20)은 사용자의 자연어 질의를 형태소로 분석하는 형태소 분석기(21)와, 상기 분석된 형태소 사이의 수식 관계를 결정하는 부분 구문 분석기(22)와, 상기 형태소 분석, 구문 분석 결과를 입력으로 하고 렉시코 신택틱(Lexico Syntactic) 문법을 이용하여 자연어 질의의 의도를 파악하는 사용자 의도 분석기(23)와, 상기한 검색 엔진(10)의 정답 색인 데이터 베이스(DB1~DBn)의 정보를 이용하여 후보 정답들을 추출하고, 질의어와 각 정답후보들 사이의 유사도를 계산하는 유사도 계산기(24)를 포함한다. 상기 검색 엔진(20)은 바람직하게, 사용자의 자연어 질의에 응답하여 웹 문서를 검색하는 일반 문서 검색기(26)와, 문서 색인 데이터 베이스(29)의 정보를 이용하여 후보 정답들을 추출하고, 질의어와 각 정답후보들 사이의 유사도를 계산하는 문서 유사도 분석기(27)와, 일반적인 정보 검색의 결과인 문서와 질의어 사이의 유사도에 상기 정답 후보와 질의어 사이의 유사도를 통합하는 유사도 통합기(28)를 더 포함한다. 상기와 같은 검색 엔진(20)은 바람직하게 웹 검색 사이트의 서버 컴퓨터에서 동작하도록 설치된다.
위와 같은 자연어 질의-응답 검색 시스템의 동작을 도 2를 참고로 전체적으로 설명하면 다음과 같다.
도 2를 참조하면, 색인 엔진(10)은 도 1의 형태소 분석기(11) 및 부분 구문 분석기(12)를 통해 대상이 되는 문서의 단락을 형태소 분석하고 부분 구문 분석한다(공정 S2). 일련의 언어처리 과정을 수행한 후, 정답 후보 추출기(13)에서 영역 사전과 정답 유형 규칙을 이용하여 정답으로 추천할 후보들을 추출한다(공정 S3). 추출하는 정답 후보의 유형은 미리 정의되며, 검색 엔진은 정의된 유형에 맞는 사용자 질의에 대해서만 응답을 생성할 수 있다. 만약, 유형에 없는 사용자 질의가 입력되면 기존의 검색 시스템처럼 관련 문서를 추천한다.
정답 후보가 추출되면, 단락 구분기(14)에 의해 해당 후보에 영향을 미칠 수 있는 주변 문장의 범위를 결정하는 단락 구분을 수행한다(공정 S5). 그리고 단락 내에서 정답 후보에 영향을 미칠 수 있는 단어들을 추출하고 점수 부여기(15)에 의해 각 단어에 점수를 부여한다(공정 S6). 이 점수는 각 단어가 정답 후보와 얼마나 연관되어 있는가 하는 정도를 나타낸다. 마지막으로 분류 저장기(16)에 의해 현재 추출된 정답의 유형에 따라 데이터 베이스(DB1~DBn) 중 해당하는 하나를 선택하고, 주변 단어를 저장한다(공정 S8). 주변 단어는 정답 색인 데이터 베이스(DB1~DBn)의 키가 되며, 데이터 베이스의 내용은 각 단어에 부여된 점수와 함께 정답 후보의 문서내 위치 등의 정보도 저장된다.
한편, 검색 엔진(20)은 도 1의 형태소 분석기(21) 및 부분 구문 분석기(22)를 통해 사용자의 자연어 질의를 입력받아 언어 분석을 수행하고 형태소 분석, 구문 분석 결과를 입력으로 하고 렉시코 신택틱 문법(H)을 이용하여 사용자의 의도를파악한다(공정 23). 사용자 의도 분석기(23)에 의해 사용자의 의도가 파악되면, 유사도 계산기(24)에서 의도에 맞는 정답 색인 데이터 베이스(DB1~DBn) 중 하나를 선택하고 사용자 질의 단어(term)을 키로하여 정답 후보들을 생성한다(공정 24).
정답 후보들과 사용자 질의어 사이의 유사도 계산은 정답 색인 데이터 베이스에 저장되어 있는 각 단어들의 점수들을 이용하여 계산된다. 유사도 계산이 끝나면 우선 순위화하여 정답을 추천한다(공정 S25).
정답 추천이 끝나면, 상기 공정에 부가하여 일반적인 문서 검색 방법에 따라 계산된 문서-질의어 유사도에 상기 정답 추천 결과에 따른 정답-질의어 유사도를 통합하고 문서의 순위를 재순위화한다. 다시 말해, 도 1의 일반 문서 검색기(26)와 문서 유사도 분석기(27)를 통해 사용자의 자연어 질의에 응답하여 웹 문서를 검색하고, 문서 색인 데이터 베이스(29)의 정보를 이용하여 후보 정답들을 추출하고, 질의어와 각 정답후보들 사이의 유사도를 계산하는 일반적인 문서 검색 방법(공정 S26)에 따라 문서-질의어 유사도를 별도로 구하고, 유사도 통합기(28)에서 상기 일반 문서 검색 결과인 문서-질의어 유사도에 상기 정답 추출 공정 S24에 따른 정답-질의어 유사도를 통합한 다음, 문서의 순위를 재순위화한다(공정 S28).
다음에는 본 발명에 따른 색인 엔진(10) 및 검색 엔진(20)의 동작을 도 3 및 도 4에 의거하여 더 상세히 설명한다. 도 3은 도 1의 색인 엔진(10)에서 수행하는 단락 단위의 정답 색인 방법을 나타내는 흐름도이다.
도 3에 도시된 바와 같이, 색인 대상이 되는 문서는 형태소/구문 분석 사전 및 통계적 언어 정보를 사용하여 한국어 문법상 하나의 의미를 가지는 최소 단위인형태소와 부분 구문 구조로 분석된다(단계 S12). 색인 엔진은 언어 분석된 문서에서 영역 사전(A)과 정답 유형 규칙(B)을 이용하여 정답 후보들을 추출한다(단계 S13). 영역 사전(A)은 정답 유형에 해당하는 정보를 담고 있는 사전으로 인명 사전, 지명 사전, 기관명 사전 등을 포함한다. 정답 유형 규칙(B)은 홈페이지 주소나 이메일 주소와 같은 것을 인식할 수 있는 정규 문법을 의미한다.
정답 후보가 추출되면, 주변의 어느 문장까지가 현재 정답 후보에 영향을 미칠 수 있는지를 결정하는 단락 구분을 수행한다(단계 S14). 단락 구분을 위해서는 대용어와 어휘 체인 정보(C) 등과 같이 문맥의 연결을 나타내는 표지를 사용한다. 단락 구분 단계의 상세 내용은 도 4를 참고로 후술된다.
단락이 결정되면, 추출된 정답 후보에 영향을 미칠 수 있는 문맥의 범위가 결정된 것이다. 다음으로 단계 15에서 단락 내부에 존재하는 모든 의미 있는 단어들을 추출하고, 단계 16에서 정답 후보와 얼마나 연관되어 있는가 하는 정도를 수치적으로 계산한다. 각 단어들의 점수는 정답 후보와의 동격 관계 여부를 나타내는 정보(D), 위치적인 거리 차(E), 품사 정보(F), 어휘 체인 정보(G) 등을 이용하여 부여된다.
이와 같이 주변 단어들의 점수가 계산되면, 색인 엔진은 정답 후보의 유형을 분류하고(단계 S17), 정답 후보의 유형에 따라 데이터 베이스(DB1~DBn) 중 해당 데이터 베이스를 선택하고 주변 단어를 키로하여 정답 후보의 위치와 점수를 저장한다(단계 S18).
상기한 일련의 색인 과정이 끝나면, 검색 엔진(20)은 사용자의 자연어 질의단어들을 색인 데이터 베이스에서 검색하여 얻어진 점수들을 다음의 수학식 1에 따라 합산함으로써 빠른 시간 내에 정답을 추천할 수 있게 된다.
위의 식에서 A, B, C, D는 가중치 상수이고, fij는 점수 계산에 사용된 동격 관계 여부, 위치적인 거리 차, 품사 등의 정보들이다.
검색 엔진(20)의 정답 추천과정을 좀더 자세히 설명하면 다음과 같다. 검색 엔진(20)은 사용자의 자연어 질의를 입력받아 형태소 분석과 부분 구문 분석을 수행하고, 렉시코-신택틱 패턴을 통하여 사용자의 의도를 파악한다. 렉시코-신택틱 패턴은 어휘, 품사, 구문 정보 및 의미 코드를 포함하고, 정규 표현 형태로 기술되는 문법이다. 사용자의 의도가 파악되면 정답 색인 데이터 베이스(DB1~DBn) 중 의도에 맞는 정답 색인 데이터 베이스를 선택하고, 질의에 나타난 단어들을 키로하여 정답 후보들을 생성한다.
다음으로 추천된 정답 후보들과 사용자 질의 사이의 유사도를 계산한다. 유사도는 질의 단어와 색인된 단어 사이의 가중치들을 p-norm 모델에 적용하여 계산한다.
유사도 계산이 끝나면 우선 순위화하여 정답을 추천한다. 그리고, 일반적인 문서 검색 방법에 따라 계산된 문서-질의어 유사도에 정답-질의어 유사도를 통합한다. 유사도의 통합은 다음의 수학식 2에 따라 각각의 유사도에 다른 가중치를 부여하여 합하는 가중치 평균을 이용한다.
위의 식에서 α, β는 가중치 상수이고, S1, S2는 각각 문서-질의어 유사도와 정답 후보-질의어 유사도이다.
만약, 하나의 문서에 여러 개의 정답이 존재하면 가장 높은 정답-질의어 유사도를 문서-질의어 유사도에 합한다. 유사도 통합이 끝나면 문서를 재순위화하여 보다 관련된 문서를 정답 문장과 함께 사용자에게 제공한다. 정답 문장은 정답 후보들을 추출할 때 얻어진 문서의 이름과 문서 내의 위치를 이용하여 추출한다.
추출된 정답 문장에 속한 정답 후보들은 디스플레이에서 특정한 패턴 또는 색상을 이용하여 하이라이트된다. 하이라이트를 이용한 인터페이스는 사용자가 쉽게 정답을 확인할 수 있도록 도와준다.
다음은 색인 엔진(10)의 단락 구분 과정에 대하여 도 4를 참고로 상세히 설명한다. 먼저 정답 후보가 있는 문서와 문장을 선택하여 추출한다(단계 141). 그리고 정답 후보 문장을 기준으로 앞, 뒤 몇 문장까지를 최대 단락의 크기로 할 것인지 결정한다(단계 142, 143). 최대 단락의 크기가 결정되면 문장에 존재하는 대용어나 어휘 체인을 살펴보고, 현재 단락에 포함할 것인지 아닌지를 결정한다(단계 S144, 145). 예를 들어, 정답 후보 문장과 이전 문장 사이에 어휘 체인이 존재하거나 대용 현상을 관찰할 수 있다면 이전 문장은 현재 단락에 포함된다. 정답 후보문장과 다음 문장 사이의 단락 결정 방법도 상기 방법과 동일하게 수행된다.
본 발명은 웹상에서 사용자의 질의를 파악하여 정답을 추천하는 대화형 자연어 질의-응답 검색 시스템을 구축하기 위한 단락 단위의 응답 색인 방법과 그것을 이용한 검색 엔진의 구성 방법을 제시한다.
본 발명의 실시예에 따르면, 검색 엔진은 상기 단락 단위의 색인 결과에 의한 사용자 질의와 정답 후보 사이의 유사도에 부가하여 일반적인 정보 검색기의 문서 검색 결과로서 사용자의 자연어 질의와 문서 사이의 유사도를 통합함으로써 검색 효과를 높이고 정답을 포함하는 문장을 추천한다. 따라서, 본 발명의 방법을 이용함에 의해 시스템 개발자는 빠른 응답 시간과 높은 정확도를 가지는 자연어 질의-응답 시스템을 쉽게 구축할 수 있다. 또한 사용자는 본 발명의 자연어 질의-응답 시스템을 이용하여 빠르고 정확하게 원하는 정보를 웹상에서 찾을 수 있는 효과가 있다.

Claims (16)

  1. 문서에서 정답 후보를 추출하고 주변 문맥에 점수를 부여하여 단락 단위로 색인하는 색인기와,
    상기 색인기의 색인 결과를 이용하여 사용자의 질의 의도에 따른 정답 후보를 우선 순위화하는 검색기를 포함하는 자연어 질의-응답 검색 시스템.
  2. 제 1항에 있어서, 상기 검색기에서 정답 후보-질의어 유사도와 일반 검색기의 문서-질의어 유사도를 통합하여 정답 후보를 재순위화하는 것을 특징으로 하는 자연어 질의-응답 검색 시스템.
  3. 검색 대상 웹 문서를 형태소로 분석하는 형태소 분석기와, 상기 분석된 형태소 사이의 수식 관계를 결정하는 부분 구문 분석기와, 상기 분석된 구문에 영역 사전과 정답 유형 규칙을 이용하여 정답 후보를 추출하는 정답 후보 추출기와, 상기 정답 후보 추출기에서 추출한 후보의 주변 문맥의 범위를 결정하는 단락 구분기와, 상기 구분된 단락 내부에 존재하는 단어들과 정답 후보와의 연관도를 계산하여 주변 단어에 점수를 부여하는 점수 부여기와, 상기 정답 후보의 유형을 분류하여 주변 단어와 함께 정답 색인 데이터 베이스에 저장하는 분류 저장기를 포함하는 질의-응답 검색 시스템을 위한 색인기.
  4. 사용자의 자연어 질의를 형태소로 분석하는 형태소 분석기와, 상기 분석된 형태소 사이의 수식 관계를 결정하는 부분 구문 분석기와, 상기 형태소 분석, 구문 분석 결과를 입력으로 하고 렉시코 신택틱 문법을 이용하여 자연어 질의의 의도를 파악하는 의도 분석기와, 상기 정답 색인 데이터 베이스의 정보를 이용하여 후보 정답들을 추출하고, 질의어와 각 정답 후보 사이의 유사도를 계산하는 유사도 계산기를 포함하는 질의-응답 검색 시스템을 위한 검색기.
  5. 제 4항에 있어서, 사용자의 자연어 질의에 응답하여 웹 문서를 검색하는 일반 문서 검색기와; 문서 색인 데이터 베이스의 정보를 이용하여 후보 정답들을 추출하고, 질의어와 각 정답후보 사이의 유사도를 계산하는 문서 유사도 분석기와; 상기 문서 유사도 분석기에서 계산된 문서와 질의어 사이의 유사도에 상기 질의어와 각 정답 후보 사이의 유사도를 통합하는 유사도 통합기를 더 포함하는 것을 특징으로 하는 검색기.
  6. 색인기와 검색기를 포함하는 자연어 질의-응답 검색 시스템에서, 상기 색인기에서 수행되는 문서 색인 방법이:
    (a) 입력된 문서를 형태소/부분 구문 분석하는 단계;
    (b) 언어 분석된 문서에서 정답 후보를 추출하는 단계;
    (c) 정답 후보에 영향을 주는 문장의 범위를 결정하는 단계;
    (d) 정답 후보 주변의 단어들에 점수를 부여하는 단계; 및
    (e) 정답 후보를 정답 유형에 따라 분류하고 주변 단어를 정답 색인 데이터 베이스에 저장하는 단계를 포함하고,
    상기 검색기에서 수행되는 검색방법이:
    (f) 사용자의 자연어 질의를 입력받아 언어의 형태소 분석, 구문 분석을 수행하고, 그 결과를 입력으로 하고 렉시코 신택틱 문법을 이용하여 사용자의 의도를 파악하는 단계,
    (g) 사용자 의도에 해당하는 상기 색인기의 정답 색인 데이터 베이스를 선택하고 사용자 질의 단어를 키로하여 정답 후보들을 생성하는 단계, 및
    (h) 정답 후보들과 사용자 질의어 사이의 유사도를 계산하고 우선 순위화하여 정답을 추천하는 단계를 포함하는 자연어 질의-응답 검색 방법.
  7. 제 6항에 있어서, 상기 검색 방법이:
    (i) 일반적인 정보 검색기의 문서 색인 데이터 베이스를 기초하여 얻어진 문서-질의어 유사도와 상기 정답 후보-질의어 유사도를 통합하여 정답 후보를 재순위화하는 단계를 더 포함하는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
  8. 제 6항에 있어서, 상기 정답 후보를 추출하는 단계는 정답 유형에 해당하는 정보를 담고 있는 영역 사전과, 홈 페이지 주소 및 이메일 주소를 인식할 수 있는 정규 문법을 포함하는 정답 유형 규칙을 사용하는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
  9. 제 6항에 있어서, 상기 문장의 범위를 결정하는 단계는 정답 후보가 있는 문서와 문장을 선택하여 추출하는 단계와,
    정답 후보 문장을 기준으로 앞, 뒤 몇 문장까지를 최대 단락의 크기로 할 것인지 결정하는 단계와, 그리고
    최대 단락의 크기가 결정되면 문장에 존재하는 대용어나 어휘 체인을 검사하여 현재 단락에 포함할 것인지를 결정하는 단계를 포함하는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
  10. 제 6항에 있어서, 상기 정답 색인 데이터 베이스에 저장된 주변 단어는 데이터 베이스의 키로 사용되고, 상기 데이터 베이스에 저장된 내용은 상기 정답 후보 주변의 단어들에 부여된 점수와 함께 정답 후보의 문서내 위치를 포함하는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
  11. 제 6항 또는 제 10항에 있어서, 상기 각 주변 단어의 점수는 정답 후보와의 동격 관계 여부를 나타내는 정보, 위치적인 거리 차, 품사 정보, 어휘 체인 정보를 이용하여 부여되는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
  12. 제 10항에 있어서, 상기 정답 후보 데이터 베이스로부터 검색된 주변 단어들의 점수는 다음 식에 의해 계산되는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
    상기 식에서 A, B, C, D는 가중치 상수이고, fij는 동격 관계 여부, 위치적인 거리 차, 품사 등의 정보들이다.
  13. 제 6항에 있어서, 상기 정답 후보들과 사용자 질의어 사이의 유사도 계산은 사용자의 질의 단어와 색인된 단어 사이의 가중치들을 p-norm 모델에 적용하여 수행되는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
  14. 제 7항에 있어서, 상기 문서-질의어 유사도와 정답 후보-질의어 유사도의 통합은 하기 식에 따르는 가중치 평균을 이용하여 수행되는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
    위의 식에서 α, β는 가중치 상수이고, S1, S2는 각각 문서-질의어 유사도와 정답 후보-질의어 유사도이다.
  15. 제 6항에 있어서, 상기 우선 순위화하여 정답을 추천하는 단계는 정답 색인 데이터 베이스에 저장된 정답 후보들의 문서 이름과 문서 내의 위치 정보를 이용하여 정답이 포함된 문장을 추출하는 단계를 포함하고, 상기 추출된 정답 문장에 속한 정답 후보들이 특정한 패턴 또는 색상으로 하이라이트되는 것을 특징으로 하는 자연어 질의-응답 검색 방법.
  16. (a) 대상 문서를 형태소로 분석하고 수식 관계를 결정하는 형태소 분석/구문 분석 단계,
    (b) 영역 사전과 정답 유형 규칙을 이용하여 정답 후보를 추출하는 단계,
    (c) 정답 후보에 영향을 미치는 주변 문장의 범위를 결정하는 단계,
    (d) 단락 내부에 존재하는 단어들과 정답 후보와의 연관도를 계산하여 정답 후보-주변 단어 쌍에 점수를 부여하는 단계,
    (e) 정답 후보의 유형을 분류하여 주변 단어와 함께 데이터 베이스에 분류 저장하는 단계,
    (f) 상기 정답 색인 데이터 베이스를 이용하여 정답 후보와 질의어 사이의 유사도를 계산하는 단계, 및
    (g) 일반 문서-질의어 유사도에 상기 정답 후보-질의어 유사도를 통합하는 단계를 포함하는 자연어 질의-응답 검색 방법.
KR10-2001-0012071A 2001-03-08 2001-03-08 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템 KR100498574B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0012071A KR100498574B1 (ko) 2001-03-08 2001-03-08 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0012071A KR100498574B1 (ko) 2001-03-08 2001-03-08 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템

Publications (2)

Publication Number Publication Date
KR20020072092A true KR20020072092A (ko) 2002-09-14
KR100498574B1 KR100498574B1 (ko) 2005-07-01

Family

ID=27696844

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0012071A KR100498574B1 (ko) 2001-03-08 2001-03-08 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템

Country Status (1)

Country Link
KR (1) KR100498574B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818742B1 (ko) * 2007-08-09 2008-04-02 이종경 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법
KR100828560B1 (ko) * 2006-09-22 2008-05-13 엔에이치엔(주) 검색 대상과 연관된 단어를 추천하는 방법 및 상기 방법을수행하는 시스템
KR101113787B1 (ko) * 2009-10-28 2012-02-27 동국대학교 산학협력단 텍스트 색인 장치 및 방법
US8135692B2 (en) 2007-11-21 2012-03-13 Kddi Corporation Information retrieval apparatus and computer program
KR101120760B1 (ko) * 2003-01-06 2012-06-12 마이크로소프트 코포레이션 구조화 문서 검색
KR20160060253A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
CN108153780A (zh) * 2016-12-05 2018-06-12 阿里巴巴集团控股有限公司 一种人机对话装置及其实现人机对话的方法
CN110427534A (zh) * 2019-07-31 2019-11-08 广州视源电子科技股份有限公司 一种电子习题的处理方法、装置、设备和存储介质
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN116596549A (zh) * 2023-07-14 2023-08-15 山东交控科技有限公司 一种用于轨道交通客服机器人的问答响应管理方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100726176B1 (ko) 2005-12-09 2007-06-11 한국전자통신연구원 질의응답 시스템에 있어서 다중 정답 추출 방법 및 장치
KR101046698B1 (ko) * 2009-07-29 2011-07-05 활로 커뮤니케이션즈(주) 전화번호 설명 정보를 분석하여 다중 검색 서비스를 제공하는 전화번호 안내 시스템 및 전화번호 안내 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732661B2 (ja) * 1989-04-28 1998-03-30 日本電信電話株式会社 テキスト型データベース装置
JP3707506B2 (ja) * 1996-06-18 2005-10-19 富士ゼロックス株式会社 文書検索装置及び文書検索方法
JPH11110408A (ja) * 1997-10-07 1999-04-23 Sharp Corp 情報検索装置および方法
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
KR20010008962A (ko) * 1999-07-06 2001-02-05 정선종 개념분류망을 이용한 정보 검색 장치 및 그 방법
KR20000024179A (ko) * 2000-01-26 2000-05-06 조민형 한국어 인터넷 자연어 질의 응답형 정보 검색 엔진 구축방법.
KR100434688B1 (ko) * 2000-05-25 2004-06-04 주식회사 다이퀘스트 대화형 db, faq리스트, 웹사이트에 대한 통합형 자연어 질의-응답 검색 방법

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101120760B1 (ko) * 2003-01-06 2012-06-12 마이크로소프트 코포레이션 구조화 문서 검색
KR100828560B1 (ko) * 2006-09-22 2008-05-13 엔에이치엔(주) 검색 대상과 연관된 단어를 추천하는 방법 및 상기 방법을수행하는 시스템
KR100818742B1 (ko) * 2007-08-09 2008-04-02 이종경 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법
US8135692B2 (en) 2007-11-21 2012-03-13 Kddi Corporation Information retrieval apparatus and computer program
KR101113787B1 (ko) * 2009-10-28 2012-02-27 동국대학교 산학협력단 텍스트 색인 장치 및 방법
US10503828B2 (en) 2014-11-19 2019-12-10 Electronics And Telecommunications Research Institute System and method for answering natural language question
KR20160060253A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
CN108153780A (zh) * 2016-12-05 2018-06-12 阿里巴巴集团控股有限公司 一种人机对话装置及其实现人机对话的方法
CN108153780B (zh) * 2016-12-05 2021-11-23 阿里巴巴集团控股有限公司 一种人机对话装置及其实现人机对话的方法
CN110427534A (zh) * 2019-07-31 2019-11-08 广州视源电子科技股份有限公司 一种电子习题的处理方法、装置、设备和存储介质
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN111782759B (zh) * 2020-06-29 2024-04-19 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN116596549A (zh) * 2023-07-14 2023-08-15 山东交控科技有限公司 一种用于轨道交通客服机器人的问答响应管理方法及系统
CN116596549B (zh) * 2023-07-14 2023-10-20 山东交控科技有限公司 一种用于轨道交通客服机器人的问答响应管理方法及系统

Also Published As

Publication number Publication date
KR100498574B1 (ko) 2005-07-01

Similar Documents

Publication Publication Date Title
KR102094934B1 (ko) 자연어 질의 응답 시스템 및 방법
KR100546743B1 (ko) 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
JP3027052B2 (ja) 文書検索システム
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
CA2536265C (en) System and method for processing a query
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US20040117352A1 (en) System for answering natural language questions
EP0467527A2 (en) Natural language apparatus and method and construction of a knowledge base for natural language analysis
KR100434688B1 (ko) 대화형 db, faq리스트, 웹사이트에 대한 통합형 자연어 질의-응답 검색 방법
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH03172966A (ja) 類似文書検索装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP2011118689A (ja) 検索方法及びシステム
KR100498574B1 (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
US7409381B1 (en) Index to a semi-structured database
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP2003150624A (ja) 情報抽出装置および情報抽出方法
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JPH0844771A (ja) 情報検索装置
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140623

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150622

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160622

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20170622

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190624

Year of fee payment: 15