KR100745367B1 - 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템 - Google Patents

템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템 Download PDF

Info

Publication number
KR100745367B1
KR100745367B1 KR1020050064096A KR20050064096A KR100745367B1 KR 100745367 B1 KR100745367 B1 KR 100745367B1 KR 1020050064096 A KR1020050064096 A KR 1020050064096A KR 20050064096 A KR20050064096 A KR 20050064096A KR 100745367 B1 KR100745367 B1 KR 100745367B1
Authority
KR
South Korea
Prior art keywords
template
index
information
question
null
Prior art date
Application number
KR1020050064096A
Other languages
English (en)
Other versions
KR20060067129A (ko
Inventor
이충희
오효정
왕지현
김현진
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067129A publication Critical patent/KR20060067129A/ko
Application granted granted Critical
Publication of KR100745367B1 publication Critical patent/KR100745367B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 템플릿에 기반한 기록정보(Record) 색인 및 검색 방법과 이를 이용한 질의응답 시스템에 관한 것으로서, 기록정보와 관련된 부사적 중심어휘를 정의하고, 부사적 중심어휘를 기반으로 기록정보를 추출할 수 있는 정답색인 템플릿을 정의 및 생성하며, 정답색인 템플릿을 이용해서 일반텍스트의 문장들로부터 기록정보를 색인하고, 질문분석을 위한 질문색인 템플릿을 정의 및 생성하며, 질문색인 결과와 기록정보색인 결과를 이용해서 정답을 제시하는 과정을 진행함으로써, 기록정보에 대한 질문에 대해 템플릿을 이용해서 보다 정확한 답을 찾을 수 있으므로 질의응답 시스템의 성능을 개선할 수 있다.
질의응답, 기록정보, 레코드, 템플릿

Description

템플릿에 기반한 기록정보 색인 및 검색 방법과 이를 이용한 질의응답 시스템{METHOD OF INDEX AND RETRIEVAL OF RECORD BASED ON TEMPLATE AND QUESTION ANSWERING SYSTEM USING AS THE SAME}
도 1은 본 발명에 따른 템플릿에 기반한 기록정보 색인/검색 과정 및 질의응답 시스템을 도시한 개요도,
도 2는 본 발명에 따라 정답색인 템플릿을 생성하는 과정을 도시한 순서도,
도 3은 본 발명에 따른 정답색인 템플릿의 전체적인 구조를 도시한 도면,
도 4는 본 발명에 따른 질문색인 템플릿의 전체적인 구조를 도시한 도면이다.
<도면의 주요부분에 대한 부호의 설명>
10 : 정답색인 템플릿 생성부 20 : 기록정보 색인부
30 : 질문색인부 40 : 기록정보 검색부
본 발명은 질의응답 시스템에서 색인 및 검색 기술에 관한 것으로, 더욱 상세하게는 질의응답 시스템에서 기네스 기록과 같은 기록정보를 묻는 질문에 대한 정답을 찾기 위해, 기록정보를 추출할 수 있는 템플릿을 정의하고, 템플릿의 각 슬롯에 들어갈 수 있는 정보를 일반 텍스트로부터 자동으로 추출하여 색인함으로써 기록정보를 묻는 질문에 대한 정답을 자동으로 검색할 수 있는 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를 이용한 질의응답 시스템에 관한 것이다.
일반적으로, 질의응답 시스템은 질문에 대한 결과로 정답을 제시한다. 대부분의 질의응답 시스템은 정답을 추출하기 위해, 먼저 문서나 단락을 검색하고, 검색된 문서나 단락으로부터 정답을 추출하는데, 문서나 단락을 검색하고 정답을 추출하기 위해서는 형태소분석 및 구문분석 등의 언어분석 결과를 이용한다. 하지만 아직 언어분석 결과에 많은 오류가 있고, 정확한 답을 추출하기 위해서는 언어분석결과를 이용할 수 밖에 없으므로 질의응답 시스템의 전체적인 성능은 낮은 편이다.
기존에 제안된 한국어 인터넷 자연어에 대한 질의 응답형 정보 검색 엔진을 구축하는 방법에서는 자연어 형태의 사용자 질문에 대하여 축적해 놓은 데이터 베이스를 이용하여, 질의 구문에 해당하는 결과를 2차 및 3차에 걸쳐 사용자에게 재 질의 구문을 보여주고 선택하게 하는 인터넷 정보검색 방법을 개시하고 있다.
또한, 구문구조를 이용하여 정답을 추출하는 질의응답 시스템[참고문헌: 이대연, 서영훈, 제15회 한글 및 한국어 정보처리 학술대회, pp. 89-94, 2003]에서는 질의문 내에 포함된 동사를 중심으로 한 질의어 확장 및 정답 추출 기법을 이용한 질의 응답 시스템이 개시되어 있다. 동사에 대한 활용은 구축된 동사구문 사전의 정보를 이용하며, 동사 모호성을 배제하기 위해 명사 의미사전을 사용한다. 시스템은 크게 3부분으로 나뉘어지며, 사용자의 질의어를 구조화된 구문구조로 변환하고 확장하는 부분, 확장된 질의 구조집합을 이용하여 문서집합으로부터 후보문장을 검색하는 부분, 마지막으로 얻어진 후보 문장으로부터 순위화된 정답을 추출하는 부분으로 구성되어 있다.
개념어의 습득을 위한 지식기반 질의응답 시스템[참고문헌: 이재홍, 최호섭, 옥철영, 제15회 한글 및 한국어 정보처리 학술대회, pp. 95-100, 2003]에서는 현실 세계가 가지고 있는 지식이 어느 정도 체계적으로 정제되어 있는 국어사전, 백과사전 등을 중심으로, 하이브리드 방법(Hybrid Method)을 이용한 통계 기반 지식베이스와, 어휘분류 기반 지식베이스를 효율적으로 구축하여 질의응답 시스템에 활용한다. 이러한 시스템은 사용자 질의에 대한 의미 있는 정답을 제시하기 위하여 3단계의 과정을 거치게 된다. 각 과정은 다음과 같다. 먼저, 1단계는 질의분석을 통해 수집된 정보를, 구축되어진 구문정보와 어휘분류 기반 지식베이스와 매칭시키는 단계이다. 2단계에서는 1단계 과정을 통해 정답 후보 리스트가 생성이 안 될 경우에 사용자가 입력한 질의문에 등장하는 키워드의 동의어, 유의어와 뜻풀이를 이용하여 질의 확장한다. 그리고 3단계에서는 하이브리드 방법(Hybrid Method)을 이용하여 1, 2 단계를 통해 생성된 정답후보 순위화 정보와 통계기반 지식베이스를 통해 생성된 순위화 정보를 통합하여 최적화된 정답 후보 리스트를 생성한다.
그런데 이러한 종래의 한국어 질의응답 시스템을 위한 기존의 연구들은 키워드 및 구문구조 정보를 이용하여 정답을 추출하는 모델로서, 언어분석 결과의 신뢰도가 떨어지므로 질의응답 시스템의 전체 성능도 낮다는 문제를 안고 있었다.
따라서, 본 발명의 목적은 종래 기술의 문제점을 극복하기 위해, 한국어 질의응답 시스템에서 기록정보와 관련된 질문에 대해서 정확한 답을 추출하기 위해, 기록정보를 나타내는 문장에는 특정한 형식이 있으므로 이러한 형식을 템플릿 정보로 형상화하고, 만들어진 템플릿에 기반해서 정답을 색인하고 검색함으로써 보다 정확한 답을 얻을 수 있는 템플릿에 기반한 기록정보 색인 및 검색 방법을 제공하는데 있다.
한편, 본 발명의 다른 목적은, 기록정보와 관련된 부사적 중심어휘를 정의하고 부사적 중심어휘를 기반으로 기록정보를 추출할 수 있는 정답색인 템플릿을 만드는 정답색인 템플릿 생성부; 정답색인 템플릿을 이용해서 일반텍스트의 문장들로부터 기록정보를 색인하는 기록정보 색인부; 질문분석을 위한 질문색인템플릿을 생성하고 색인하는 질문 색인부; 및 질문색인결과와 기록정보색인 결과를 이용해서 정답을 제시하는 기록정보 검색부로 구성된 템플릿에 기반한 기록정보 색인 및 검색 방법을 이용한 질의응답 시스템을 제공하는데 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명하기로 한다.
먼저, 본 발명에서 제안하는 방법은 기록정보를 가지는 문장의 구조적 특성을 이용하여 템플릿을 만들고, 템플릿을 이용하여 정답을 색인 및 검색하여, 기록정보를 묻는 질문에 대해 정확한 정답을 제공하는 것이다.
도 1은 본 발명에 따른 템플릿에 기반한 기록정보 색인/검색 과정 및 질의응답 시스템을 도시한 개요도이다.
도 1을 참조하면, 본 발명에 따라 템플릿에 기반한 기록정보 색인 및 검색방법을 적용한 질의응답 시스템은, 기록정보와 관련된 부사적 중심어휘를 정의하고 부사적 중심어휘를 기반으로 기록정보를 추출할 수 있는 정답색인 템플릿을 만드는 정답 색인 템플릿 생성부(10)와, 정답 색인 템플릿을 이용해서 일반텍스트의 문장들로부터 기록정보를 색인하는 기록정보 색인부(20), 질문분석을 위한 질문 색인 템플릿을 생성하고 색인하는 질문 색인부(30), 질문 색인 결과와 기록 정보 색인 결과를 이용해서 정답을 제시하는 기록정보 검색부(40)로 구성된다.
정답 색인 템플릿 생성부(10)에서는 기록정보를 추출해서 색인하기 위해 먼저 정답 색인 템플릿을 정의하고 생성하여야 하는데 도 2에서 설명하기로 한다.
도 2는 본 발명에 따라 정답색인 템플릿 생성과정을 도시한 순서도이다.
도 2를 참조하면, 기록정보를 나타내는 문장에는 중심 표현어휘가 존재한다(이하 ‘중심어휘’는 기록정보 중심 표현어휘를 말한다). 예를 들면, “아나콘다는 세상에서 가장 큰 뱀으로, 길이가 큰 것은 10미터가 넘는다.”와 같은 문장에서, 기록정보임을 나타내는 중심어휘는 ‘가장’이다. 기록정보 중심 표현어휘 정의 단계(201)에서는 이러한 다양한 중심어휘들을 정의하며, 다음 [표 1]은 이렇게 정의된 중심어휘들의 일부 예를 보인다.
대분류 소분류
가장 가장
최대 최대 최대의 국내최대 국내최대의 한국최대 한국최대의 세계최대 세계최대의
제1회 제1회
처음 처음 처음으로 국내처음 국내처음으로
상기 [표 1]에서 소분류가 실제 사용되는 중심어휘들이다.
용례추출 단계(202)에서는 앞에서 정의된 중심어휘를 포함하고 있는 용례를 문장단위로 추출한다. 용례는 본 발명을 적용하고자 하는 도메인과 관련된 말뭉치로부터 추출한다.
정답색인 템플릿 생성 단계(203)에서는 다섯 가지 제약을 기반으로, 추출된 용례를 분석하여 최종적으로 정답색인 템플릿을 생성하게 된다. 정답색인 템플릿에 사용되는 제약은 다음과 같다.
1. 거리 제약
거리제약은 중심어휘로부터의 어절 거리정보인데, 다음 [표 2]에서와 같이, 기호와 숫자의 조합으로 표현된다.
-: 중심어휘 앞 어절에 위치 +: 중심어휘 뒤 어절에 위치 N: 거리제약 없음 F: 첫 번째 어절 E: 마지막 어절
예를 들면, “-1”은 중심어휘 바로 앞 어절에 위치를 나타내고, “+N”은 거리에 상관없이 중심어휘 뒤에만 나오면 되는 것이고, “-F”는 중심어휘 앞에 위치하고, 첫 번째 어절이어야 한다.
2. 형태소 제약
형태소 제약은 해당 어절에 나타나는 형태소 정보로, 1개 이상의 형태소와 다음 [표 3]의 기호의 조합으로 표현된다.
+: 형태소 간의 연결 ~: 앞부분과 뒷부분의 형태소는 무시해도 됨
예를 들면 “세계+제일~”은 어절의 시작 형태소들이 ‘세계’+‘제일’이어야 하고, “~의”는 어절의 마지막 형태소가 ‘의’여야 한다.
3. 태그 제약
태그제약은 형태소 자질과 동일한 구조로 이루어지고, 차이점은 태그 리스트를 표현한다는 점이다. 사용되는 태그는 본 출원인에 의해 작성된 표준 형태소 태그를 사용한다.
예를 들면, “0+12~”은 어절의 시작부분이 명사(0)와 격조사(12)이어야 한다는 것을 나타낸다.
4. AT(Answer Type) 제약
AT 제약은 정답유형에 대한 개체명 태그로 미리 AT를 정의하여 두고, 해당 어절에 특정 AT가 존재하는 지를 확인하기 위해 사용한다.
예를 들면, “701(COUNTRY)”는 해당 어절에 나라이름이 들어있어야 한다는 것을 나타낸다.
5. 구문 제약
구문제약은 문장의 일부 구문구조를 이용하기 위해 몇 가지 정보를 미리 정의해서 사용하며, 세부 정보는 다음 [표 4]와 같다.
S: 해당어절이 주격이어야 함 O: 해당어절이 목적격이어야 함 V: 해당어절에 용언이 존재해야 함 M: 해당어절이 관형형이어야 함 CO: 해장어절에 지정사가 존재해야 함 NM: 해당어절이 관형형이 아니어야 함
이상에서 설명한 다섯 가지 제약을 이용해서 최종적으로 생성되는 정답색인 템플릿의 전체적인 구조는 도 3에 도시된 바와 같다.
도 3은 본 발명에 따른 정답색인 템플릿의 전체적인 구조를 도시한 도면이다.
도 3을 참조하면, 정답색인 템플릿의 구조는 하나의 기본정보(310)와 다수의 슬롯정보(320)로 구성되며, 각 정보는 ‘_’ 기호로 구분된다. 기본정보(310)는 템플릿번호(311)와 중심어휘(312), 중요슬롯정보(313)로 이루어지고, 중요슬롯정보(313)는 정답:용언:지역:정답상위어(314)로 이루어진다. 즉, 기본 정보(310)는 템플릿이 반드시 가져야 할 기본 정보를 나타내며, “ 템플릿번호_중심어휘_중요슬롯정보”로 이루어진다. “템플릿 번호(311)”는 해당 템플릿의 번호를 나타내고, “중심어휘(312)”는 해당 템플릿의 대상 중심어휘를 나타내며, “중요슬롯정보(313)”는 정답, 용언, 지역, 정답상위어에 해당하는 슬롯에 대한 위치정보를 나타내고, ‘:’ 기호로 구분된다. 순서는 ‘정답:용언:지역:정답상위어’이다.
슬롯정보(320)는 슬롯번호(321), 형태소 리스트(322), 태그 리스트(323), AT(Answer Type)정보(324), 구문정보(325), 거리정보(326)로 이루어진다. 여기서, 슬롯 정보(320)는 특정 어절에 대한 제약을 나타내며, 1개 이상이 존재할 수 있다. 그리고 포맷은 “슬롯번호)형태소리스트^태그리스트^구문정보:AT정보:거리정보”로 표시된다. 슬롯 번호는 해당 슬롯의 일련번호를 나타내고, 형태소 리스트는 해당 어절의 형태소 제약을 나타내며, 태그리스트는 해당 어절의 태그제약을 나타낸다. 구문정보는 해당 어절의 구문제약을 나타내고, 거리정보는 해당 어절의 거리제약을 나타낸다.
위 다섯 가지 제약을 이용해서 최종적으로 생성되는 정답색인 템플릿의 실제 예는 다음 [표 5]에 일부를 나타내었다.
1_가장_A:C:B:D_A)NULL^NULL^S:NULL:-2_B)~에서^~12^NULL:701:- 1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^0~^NM:NULL:+2 2_가장_A:C:B:D_A)NULL^NULL^S:NULL:-2_B)세계+에서^NULL^NULL:NULL:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^0~^NM:NULL:+2 3_가장_A:C:B:D_A)NULL^NULL^S:NULL:-2_B)현존+하+는^NULL^NULL:NULL:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^0~^NM:NULL:+2 4_가장_A:C:B:D_A)NULL^NULL^S:NULL:-N_B)~에서^~12^NULL:701:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^0~^NM:NULL:+2 5_가장_A:C:B:D_A)NULL^NULL^S:NULL:-N_B)세계+에서^NULL^NULL:NULL:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^0~^NM:NULL:+2 6_가장_A:C:B:D_A)NULL^NULL^S:NULL:-N_B)현존+하+는^NULL^NULL:NULL:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^0~^NM:NULL:+2 7_가장_A:C:B:D_A)NULL^NULL^S:NULL:-N_B)~에서^~12^NULL:701:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^NULL:NULL:+2&E 8_가장_A:C:B:D_A)NULL^NULL^S:NULL:-N_B)세계+에서^NULL^NULL:NULL:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^NULL:NULL:+2&E 9_가장_A:C:B:D_A)NULL^NULL^S:NULL:-N_B)현존+하+는^NULL^NULL:NULL:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^NULL:NULL:+2&E 10_가장_E:B:A:C_A)세계+에서^NULL^NULL:NULL:-1_B)NULL^6~^M:NULL:+1_C)NULL^0~^CO:NULL:+2_D)NULL^0~^M:NULL:+2_E)NULL^0~^NULL:NULL:+3.
상기 [표 5]에서 하나의 예를 보면, “1_가장_A:C:B:D_A)NULL^NULL^S:NULL:-2_B)~에서^~12^NULL:701:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^ NULL^NM:NULL:+2”의 템플릿 정보를 해석하면 다음과 같다.
1_가장_A:C:B:D_A)NULL^NULL^S:NULL:-2_B)~에서^~12^NULL:701:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^ NULL^NM:NULL:+2”는 "1_가장_A:C:B:D"의 기본정보와 "A)NULL^NULL^S:NULL:-2_B)~에서^~12^NULL:701:-1_C)NULL^6~^M:NULL:+1_D)NULL^0~^CO:NULL:+2_E)NULL^ NULL^NM:NULL:+2"의 각 슬롯에 대한 슬롯정보로 구성되어 있다.
기본정보의 구조인 "템플릿번호_중심어휘_정답:용언:지역:정답상위어"에 따라 "1_가장_A:C:B:D"를 해석하면, 템플릿번호는 1, 중심어휘는 ‘가장’, 정답은 A슬롯(어절), 용언은 C슬롯, 지역은 B슬롯, 정답상위어는 D슬롯이다.
그리고 슬롯정보의 구조인 "슬롯번호)형태소리스트^태그리스트^구문정보:AT정보:거리정보"에 따라 각 슬롯에 대한 슬롯정보를 해석하면, "_A)NULL^NULL^S:NULL:-2"는 정답이 ‘가장’의 앞 2번째 어절에 주격으로 나와야 하고, "_B)~에서^~12^NULL:701:-1"는 지역이 ‘가장’의 바로 앞 어절에 나라(701)로 나와야 하고, "_C)NULL^6~^M:NULL:+1"는 용언이 ‘가장’의 바로 뒤에 관형형(M) 형용사(6) 어절로 나와야 하고, "_D)NULL^0~^CO:NULL:+2"는 정답상위어가 ‘가장’의 뒤 두 번째 어절에 명사(0)로 시작하고 지정사(CO)로 존재해야 하고 "_E)NULL^ NULL^NM:NULL:+2"는 마지막 어절인 ‘가장’의 뒤 두 번째 어절이 관형형이 아니어야 한다(NM)로 해석된다.
상기한 바와 같이 정의 및 생성된 정답색인 템플릿에 대해 다음으로 기록정보 색인이 이루어지며, 질문에 대응하여 질문 색인 템플릿 생성 및 질문 색인 결과와 기록 정보 색인 결과를 이용하여 검색결과를 출력하는 과정을 진행하게 되는데, 이에 대해 상세히 설명하기로 한다.
기록정보 색인부(20)는 상기 정답색인 템플릿 생성부(10)에서 생성되어진 정답색인 템플릿을 이용해서 기록정보를 색인한다. 색인은 일반 텍스트 형태로 만들어진 모든 문장들에 적용되어질 수 있고, 네 가지 정보를 색인하게 된다.
네 가지 정보는 정답, 용언, 지역(분야) 및 정답 상위어로 이루어지는데, 정답은 특정 질문에 대한 답이 될 수 있는 정보이고, 용언은 특정 질문의 용언이 될 수 있는 정보이며, 지역(분야)는 기록의 지역 또는 분야 제한 정보로, 세계, 나라, 또는 특정 분야 등이 될 수 있다. 그리고 정답 상위어는 정답이 포함되는 상위 분류를 나타낸다.
예를 들면, 문장 “그물무늬비단뱀과 함께 아나콘다는 세계에 가장 큰 뱀으로 무독성이다.”에서 [표 5]에 있는 1번 템플릿을 이용해서 다음 [표 6]과 같은 정보를 색인한다.
정답: 아나콘다 용언: 크다 지역(분야): 세계 정답상위어: 뱀
질문색인부(30)는 사용자가 한 질문에 대해서 정답을 찾을 수 있도록 분석하는 것이다.
질문을 분석하기 위해서는 먼저 질문 색인 템플릿을 만들어야 한다. 질문 색인 템플릿은 앞서 설명한 정답색인 템플릿과 유사한 형태로 만들어지며, 질문 문장형태에 사용할 수 있는 템플릿 정보로 구성된다. 정답색인 템플릿과의 차이는 중요슬롯정보가 “용언:지역:정답상위어”의 세 가지 정보로 구성된다는 점이다.
도 4는 본 발명에 따른 질문 색인 템플릿의 구조를 도시한 도면이고, 다음 [표 7]은 일부 예를 보여준다.
본 발명에 따른 정답색인 템플릿의 구조는 도 4에 도시된 바와 같이, 하나의 기본정보(410)와 다수의 슬롯정보들(420)로 구성되며, 각 정보는 ‘_’ 기호로 구분된다.
도 4를 참조하면, 기본정보(410)는 템플릿번호(411)와 중심어휘(412), 중요슬롯정보(413)로 이루어지고, 중요슬롯정보(413)는 용언:지역:정답상위어(414)로 이루어진다. 즉, 기본 정보(410)는 템플릿이 반드시 가져야 할 기본 정보를 나타내며 “ 템플릿번호_중심어휘_중요슬롯정보”로 이루어진다. “템플릿 번호(411)”는 해당 템플릿의 번호를 나타내고, “중심어휘(412)”는 해당 템플릿의 대상 중심어휘를 나타내며, “중요슬롯정보(413)”는 용언, 지역, 정답상위어에 해당하는 슬롯에 대한 위치정보를 나타내고, ‘:’ 기호로 구분된다. 순서는 '용언:지역:정답상위어'이다.
슬롯정보(420)는 슬롯번호(421), 형태소 리스트(422), 태그 리스트(423), AT(Answer Type)정보(424), 구문정보(425), 거리정보(426)로 이루어진다. 여기서, 슬롯 정보(420)는 특정 어절에 대한 제약을 나타내며, 1개 이상이 존재할 수 있다. 그리고 포맷은 “슬롯번호)형태소리스트^태그리스트^구문정보:AT정보:거리정보”로 표시된다. 슬롯 번호는 해당 슬롯의 일련번호를 나타내고, 형태소 리스트는 해당 어절의 형태소 제약을 나타내며, 태그리스트는 해당 어절의 태그제약을 나타낸다. 구문정보는 해당 어절의 구문제약을 나타내고, 거리정보는 해당 어절의 거리제약을 나타낸다.
1_가장_B:A:C_A)~에서^~12^NULL:701:-1_B)NULL^6~^M:NULL:+1_ C)NULL^0~^S:NULL:+2 2_가장_B:A:C_A)세계+에서^NULL^NULL:NULL:-1_B)NULL^6~^M:NULL:+1_ C)NULL^0~^S:NULL:+2 3_가장_B:A:C_A)현존+하+는^NULL^NULL:NULL:-1_B)NULL^6~^M:NULL:+1_ C)NULL^0~^S:NULL:+2
“세계에서 가장 큰 뱀은 무엇인가?”라는 질문으로부터 상기 [표 7]의 질문색인 템플릿 1번을 이용해서 다음 [표 8]과 같은 정보가 추출된다.
용언: 크다 지역: 세계 정답상위어: 뱀
기록정보 검색부(40)는 상기 질문색인부(30)에서 분석되어진 질문 정보와 문장으로부터 미리 색인되어진 기록정보를 비교하여 정답을 추출하는 것이다. 정답 검색은 질문 분석으로부터 추출된 “용언:지역:정답상위어” 세 가지 정보와 일치되는 정보를 정답 색인 정보로부터 찾아서 해당 정답을 제시한다. 예를 들어, 기록정보 색인부(20)와 질문색인부(30)계에서 예로 든, “그물무늬비단뱀과 함께 아나콘다는 세계에 가장 큰 뱀으로 무독성이다.” 문장과 “세계에서 가장 큰 뱀은 무엇인가?”라는 질문에 대해서, 색인정보로 “크다:세계:뱀”이 일치하므로 ‘아나콘다’를 정답으로 제시할 수 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였으나, 본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경도 본 발명에 기재된 청구범위 내에 포함된다.
이상에서 설명한 본 발명에 의한 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를 이용한 질의응답 시스템에 의하면, 기록정보를 포함하는 문장의 구조를 반영하여 특정 정보를 추출할 수 있는 템플릿을 미리 정의해서 색인 및 검색함으로써, 사용자가 원하는 정답이 기록정보에 대한 것인 경우에 정확한 답을 줄 수 있으므로, 질문응답 시스템의 정확성을 향상시킬 수 있다.

Claims (12)

  1. (a) 기록정보를 포함하는 문장의 구문적인 특징을 반영하여, 특정 정보를 추출할 수 있는 정답색인 템플릿을 정답색인 템플릿 생성부에서 정의하고 생성하는 단계; 및
    (b) 기록정보 색인부에서 상기 생성된 정답색인 템플릿을 이용해서 기록정보를 일반 텍스트 문장으로부터 추출하여 색인하는 단계
    를 포함하는 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  2. 제 1 항에 있어서, 상기 (a) 단계는
    기록정보를 나타내는 다양한 중심어휘들을 정의하는 기록정보 중심 표현어휘 정의 단계와,
    상기 정의된 중심어휘를 포함하고 있는 용례를 문장단위로 추출하는 용례추출 단계와,
    제약을 기반으로, 상기 추출된 용례를 분석하여 최종적으로 정답색인 템플릿을 생성하는 정답색인 템플릿 생성 단계
    로 구성되는 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  3. 제 2 항에 있어서, 상기 제약은
    중심어휘로부터의 어절 거리정보인 거리제약과, 해당 어절에 나타나는 형태소 정보인 형태소 제약과, 태그제약과, AT제약과, 구문제약으로 이루어진 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  4. 제 3 항에 있어서, 상기 거리제약은,
    중심어휘 앞 어절에 위치를 나타내는 “-”와, 중심어휘 뒤 어절에 위치를 나타내는 “+”와, 거리제약 없음을 나타내는 “N”과, 첫 번째 어절을 나타내는 “F”와, 마지막 어절을 나타내는 “E”로 정의된 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  5. 제 3 항에 있어서, 상기 형태소 제약은,
    형태소 간의 연결을 나타내는 “+”와 앞부분과 뒷부분의 형태소는 무시해도 됨을 나타내는 “~”로 정의된 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  6. 제 3 항에 있어서, 상기 구문 제약은,
    해당 어절이 주격이어야 함을 나타내는 “S”와,
    해당 어절이 목적격이어야 함을 나타내는 “O”와,
    해당 어절에 용언이 존재해야 함을 나타내는 “V”와,
    해당 어절이 관형형이어야 함을 나타내는 “M”과,
    해당 어절에 지정사가 존재해야 함을 나타내는 “CO”와,
    해당 어절이 관형형이 아니어야 함을 나타내는 “NM”으로 정의된 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  7. 제 2 항에 있어서, 상기 정답색인 템플릿은,
    하나의 기본정보와, 다수의 슬롯정보로 구성되는 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  8. 제 7 항에 있어서, 상기 기본정보는
    템플릿번호와, 중심어휘와, 중요슬롯정보로 이루어지고, 상기 중요슬롯정보는 정답:용언:지역:정답상위어로 이루어진 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  9. 제 7 항에 있어서, 상기 슬롯 정보는
    슬롯 번호와, 형태소 리스트와, 태그 리스트와, 구문정보와, 거리정보로 이루어진 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  10. (c) 질문 색인부에서 사용자 질문을 분석하기 위한 질문색인 템플릿을 생성하고, 질문색인 템플릿을 이용해서 질문을 색인하는 단계; 및
    (d) 기록정보 검색부에서 상기 색인된 질문색인결과와 기존에 색인된 정답색인결과를 비교해서 정답을 추출하도록 하는 단계
    를 포함하는 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  11. 제 10 항에 있어서, 상기 (c) 단계의 질문색인 템플릿은
    하나의 기본정보와, 다수의 슬롯정보로 구성되고,
    상기 기본정보는 템플릿번호와, 중심어휘와, 중요슬롯정보로 이루어지고, 상기 중요슬롯정보는 용언:지역:정답상위어로 이루어지는 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법.
  12. 기록정보를 포함하는 문장의 구문적인 특징을 반영하여 특정 정보를 추출하기 위한 정답색인 템플릿을 정의하고 생성하는 정답색인 템플릿 생성부;
    상기 생성된 정답색인 템플릿을 이용해 일반 텍스트 문장으로부터 기록정보를 추출하여 색인하는 기록정보 색인부;
    사용자 질문을 분석하기 위한 질문색인 템플릿을 생성하고, 상기 생성된 질문색인 템플릿을 이용해서 질문을 색인하는 질문 색인부; 및
    상기 색인된 질문색인결과와 기존에 색인된 정답색인결과를 비교해서 정답을 추출하는 기록정보 검색부
    를 포함하는 것을 특징으로 하는 템플릿에 기반한 기록정보 색인 및 검색 방법을 이용한 질의응답 시스템.
KR1020050064096A 2004-12-14 2005-07-15 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템 KR100745367B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105510 2004-12-14
KR20040105510 2004-12-14

Publications (2)

Publication Number Publication Date
KR20060067129A KR20060067129A (ko) 2006-06-19
KR100745367B1 true KR100745367B1 (ko) 2007-08-02

Family

ID=37161744

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050064096A KR100745367B1 (ko) 2004-12-14 2005-07-15 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템

Country Status (1)

Country Link
KR (1) KR100745367B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101173561B1 (ko) 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
KR101254654B1 (ko) * 2011-04-28 2013-04-26 대한민국 책갈피 기반 질의답변 지원 시스템 및 방법
KR102094934B1 (ko) 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050032937A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050032937A (ko) * 2003-10-02 2005-04-08 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템

Also Published As

Publication number Publication date
KR20060067129A (ko) 2006-06-19

Similar Documents

Publication Publication Date Title
US7672831B2 (en) System and method for cross-language knowledge searching
Jacquemin Spotting and discovering terms through natural language processing
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR100515641B1 (ko) 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US20040117352A1 (en) System for answering natural language questions
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
CN111553160A (zh) 一种获取法律领域问句答案的方法和系统
Biswas et al. A framework for restricted domain Question Answering System
Craig et al. Scaling address parsing sequence models through active learning
KR100745367B1 (ko) 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템
KR101092354B1 (ko) 복합 명사 인식 장치 및 그 방법
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
Barcala et al. Tokenization and proper noun recognition for information retrieval
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
Tran et al. A model of vietnamese person named entity question answering system
Buitelaar et al. Integrating different strategies for cross-language information retrieval in the MIETTA project
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
KR100599450B1 (ko) 질의응답시스템에서의 정답색인 시스템 및 방법
Milić-Frayling Text processing and information retrieval
Xu et al. PolyUCOMP in TAC 2011 entity linking and slot filling
Gillard et al. Relevance measures for question answering, the LIA at QA@ CLEF-2006
Chakraborty et al. N-Gram based Assamese Question Pattern Extraction and Probabilistic Modelling
Abidin et al. Text Stemming and Lemmatization of Regional Languages in Indonesia: A Systematic Literature Review

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110711

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee