KR20060070610A - 질의응답시스템에서의 정답색인 시스템 및 방법 - Google Patents

질의응답시스템에서의 정답색인 시스템 및 방법 Download PDF

Info

Publication number
KR20060070610A
KR20060070610A KR1020040109134A KR20040109134A KR20060070610A KR 20060070610 A KR20060070610 A KR 20060070610A KR 1020040109134 A KR1020040109134 A KR 1020040109134A KR 20040109134 A KR20040109134 A KR 20040109134A KR 20060070610 A KR20060070610 A KR 20060070610A
Authority
KR
South Korea
Prior art keywords
index
correct answer
correct
sentence
word
Prior art date
Application number
KR1020040109134A
Other languages
English (en)
Other versions
KR100599450B1 (ko
Inventor
김현진
왕지현
오효정
이충희
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020040109134A priority Critical patent/KR100599450B1/ko
Publication of KR20060070610A publication Critical patent/KR20060070610A/ko
Application granted granted Critical
Publication of KR100599450B1 publication Critical patent/KR100599450B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 질의응답시스템에서의 정답색인 시스템 및 방법에 관한 것으로서, 입력문을 LF(Logical Form) 단위와 문장 단위로 각 어휘들을 정답대상어와 단서어로 나누고, 각 단서어와 정답대상어 쌍을 색인 할 수 있는 방법을 제시하여 정답 제시에서의 속도를 개선함으로써, 질의응답에서 사용자의 질문에 대한 검색 결과인 방대한 문서로부터 사용자가 원하는 정답만을 초점으로 할 수 있으므로 정보검색 및 질의응답 시스템의 성능을 개선할 수 있다.
질의응답, 정답 색인

Description

질의응답시스템에서의 정답색인 시스템 및 방법{INDEXING SYSTEM AND METHOD FOR QUESTION ANSWER SYSTEM}
도 1은 본 발명의 일실시예에 의한 질의응답시스템에서의 정답색인 시스템을 개략적으로 나타낸 도면,
도 2는 본 발명의 일실시예에 의한 정답 색인 과정을 나타낸 흐름도,
도 3은 도 2의 언어분석 과정을 상세히 나타낸 흐름도,
도 4는 본 발명의 질문 분류에 대한 다양한 정답유형을 나타낸 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
1 : 언어분석부
2 : LF 단위 색인 구조 추출부
3 : 문장 단위 색인 구조 추출부
4 : 색인어 가중치 추정부
5 : 문장 주제 추정부
6 : 정답 색인 구조 저장부
본 발명은 질의응답시스템에서의 정답색인 시스템 및 방법에 관한 것으로, 더욱 상세하게는 질의응답 시스템에서 정답 부분을 색인화하여 정답을 추출하는 과정에서의 속도를 개선하고 정확성을 향상시키는 질의응답시스템에서의 정답색인 시스템 및 방법에 관한 것이다.
국외에서 연구되고 있는 QA(QUESTION ANSWER) 관련 기술은 크게 두 그룹으로 나뉠 수 있는데, IE(Information Extraction) 기법을 이용한 방법론과 기존 정보검색 엔진을 응용한 단락 검색 시스템을 사용하는 방법론이다. IE 기법을 이용한 대표적인 QA 시스템들은 각 엔티티(entity)(예: person entity)들에 대해서 일종의 템플릿(template)(예: name, birth_time, what, when 등)을 정의하고, 정보추출을 통해서 각 template 값을 채우는 방식을 제안하고 있다. 이러한 IE 기법을 이용한 QA 시스템은 정답 제시에 속도가 빠르고, 신문 기사, 백과사전 등 특정 제한된 도메인에서는 효과적이라는 평가를 받고 있으나, entity 또는 template 정의에 있어서 일부 수작업의 노력이 필요하기 때문에, 확장성 면에서 문제가 제기되고 있다.
따라서, 많은 QA 시스템에서 따르는 방법론은 기존 정보검색 시스템에서 검색 단위를 문서가 아닌 단락 또는 문장 단위로 하여, 정답 후보가 포함된 일부를 검색 한 후에, 실시간으로 언어분석 등을 통해서 정답으로 추정되는 단어 또는 어구를 추출하는 단락 검색 응용 방법론을 채택하고 있다. [Sanda M Haragagiu-1999] 는 이러한 방법론의 대표적인 논문으로, 키워드 검색 방법론을 이용하여 문서에서 주요한 단락을 검색한 후, Lexico-syntactic information 또는 NLP 기술을 응용하여 해당 단락에서 비교적 정확한 정답을 제시해 주고 있다. 그러나, 이러한 방법론은 사용자 질문이 입력된 후 실시간으로 언어분석을 통해서 문장들을 분석해 내기 때문에 응답 시간이 매우 길다는 단점을 가지고 있다.
한편, MAYA라는 질의응답 시스템이 제안된 바 있는데, 응답 속도를 개선하는데 초점을 맞춘 시스템으로 개체명 사전과 LSP(Lexico-Syntactic Pattern)을 이용하여 개체명을 인식하고, 이를 질의응답 시스템이 정답 가능한 후보로 미리 색인하였다. 사용자의 질의유형을 105가지의 의미범주로 구분하고, 이에 따라 정답유형을 분류하였으며, Lexico-Syntactic Parser를 이용하여 사용자의 질의유형을 분석하여 색인된 정답DB에서 정답후보를 순위화하고 이를 정답으로 제시하였다.
이와 같이, 기존의 방법론에서는 정보검색 시스템을 활용하거나 정보추출 방법론을 응용하게 될 경우에, 시스템 응답 속도가 늦거나 수작업의 노력이 많이 필요로하게 되는 단점이 있었다.
따라서, 본 발명의 목적은 상기한 종래 기술의 문제점을 해결하기 위해 이루어진 것으로서, 질의응답의 대상이 되는 문서의 문장에서 정답으로 추출될 수 있는 단어들과 이외의 단어들 사이의 관계를 이용하여 색인 구조를 생성하여 질의응답시스템에서 정답을 빠르고 효과적으로 찾는 질의응답시스템에서의 정답색인 시스템 및 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 질의응답시스템에서의 정답색인 시스템은,
입력된 문장을 형태소 분석, 정답유형 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미있는 코드로 변환하는 언어분석부;
구문구조를 활용하여 용언을 중심으로 재구성한 LF의 범위 내에서의 색인 구조를 추출하는 LF 단위 색인 구조 추출부;
입력 문장 전체를 범위로 해서 색인 구조를 추출하는 문장 단위 색인 구조 추출부;
상기 추출된 색인어에 대해서 가중치 부여식을 통해 전체 문서에서의 단어 가중치를 계산하여 추정하는 색인어 가중치 추정부;
해당 문장에 대해서 도메인에 맞는 주제 분류표를 정의하여, 각 문장별 주제 태그를 생성하는 문장 주제 추정부; 및
추출된 색인어들을 DB에 저장하기 위해 색인 구조를 정의하고 변경하는 정답 색인 구조 저장부
를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명의 질의응답시스템에서의 정답색인 방법은,
a. 언어분석부로 입력된 문장을 형태소 분석, 정답유형 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미있는 코드로 변환하는 단계;
b. 구문구조를 활용하여 용언을 중심으로 재구성한 LF의 범위 내에서의 색인 구조를 추출함과 아울러, 입력 문장 전체를 범위로 해서 색인 구조를 추출하는 단계;
c. 상기 추출된 색인어에 대해서 가중치 부여식을 통해 전체 문서에서의 단어 가중치를 계산하여 추정하는 단계;
d. 해당 문장에 대해서 도메인에 맞는 주제 분류표를 정의하여, 각 문장별 주제 태그를 생성하는 단계; 및
e. 상기 추출된 색인어들을 DB에 저장하기 위해 색인 구조를 정의하고 변경하는 단계
를 포함하여 이루어진 것을 특징으로 한다.
이하, 본 발명의 질의응답시스템에서의 정답색인 시스템 및 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 의한 질의응답시스템에서의 정답색인 시스템을 개략적으로 나타낸 도면이다. 도 1을 참조하면, 본 발명의 질의응답시스템에서의 정답색인 시스템은, 크게 언어분석부(1), LF 단위 색인 구조 추출부(2), 문장 단위 색인 구조 추출부(3), 색인어 가중치 추정부(4), 문장 주제 추정부(5), 정답 색인 구조 저장부(6)로 이루어져 있다.
상기 언어분석부(1)는 입력된 문장을 형태소 분석, 정답유형 인식, 어휘 의 미태깅 과정을 통해 개개의 어휘를 의미있는 코드로 변환한다.
상기 LF 단위 색인 구조 추출부(2)는 구문구조를 활용하여 용언을 중심으로 재구성한 LF의 범위 내에서의 색인 구조를 추출한다.
상기 문장 단위 색인 구조 추출부(3)는 입력 문장 전체를 범위로 해서 색인 구조를 추출한다.
상기 색인어 가중치 추정부(4)는 앞서 추출된 색인어에 대해서 가중치 부여식을 통해 전체 문서에서의 단어 가중치를 계산하여 추정한다.
상기 문장 주제 추정부(5)는 해당 문장에 대해서 도메인에 맞는 주제 분류표를 정의하여, 각 문장별 주제 태그를 생성한다.
상기 정답 색인 구조 저장부(6)는 추출된 색인어들을 DB에 저장하기 위해 색인 구조를 정의하고 변경한다.
그러면, 상기와 같은 구성을 가지는 본 발명의 질의응답시스템에서의 정답색인 방법에 대해 도 2 내지 도 4를 참조하여 설명하기로 한다.
도 2는 본 발명의 일실시예에 의한 정답 색인 과정을 나타낸 흐름도이다.
여기서, 제안하는 방법은 언어분석기(1) 결과를 이용하여 문장의 어휘들을 정답대상어와 단서어로 나누고, 크게 색인 범위에 따라서 각 색인어 구조를 추출하여 질의응답 시스템에서 정답 추출에 유용하도록 저장하는 것이다.
이를 위해, 본 발명에서 고안한 질의응답 시스템에서의 정답 색인 방법은 크게 언어분석 단계(S10), LF(Logical Form) 단위 색인 구조 추출 단계(S20), 문장 단위 색인 구조 추출 단계(S30), 색인어 가중치 및 문장 주제 추정 단계(S40), 정답 색인 구조 저장 단계(S50)로 나누어진다.
상기한 과정에 의한 결과로, 즉 사용자의 질문 분류의 결과는 도 4에 일부를 보인 다양한 정답의 유형이 될 수 있다. 상기 각 단계와 관련된 처리 방법을 살펴보면 아래와 같다.
- 언어분석 단계(S10)
입력 문장을 언어분석하여 질문분류를 하는데 이용한다. 도 3에 언어분석 단계가 상세하게 설명되어 있다. 형태소분석 단계(S201)에서는 각 형태소의 품사를 결정한다. 정답유형 인식단계(S202)에서는 미리 정의한 160 여개의 의미적 분류를 정답유형으로 정의하고, 이에 대한 인식을 수행한다. 도 4에 도시된 바와 같이, 정답유형은 인명, 학술분야명, 이론, 인공물, 조직명, 지명, 문화/문명, 날짜, 시간, 수량, 사건, 동물, 식물, 물질, 전문용어에 대해 상세히 분류하였다. 어휘의미태깅 단계(S203)에서는 명사 어휘 개념망을 이용하여 각 명사에 개념을 할당한다. 어휘의미 분별단계(S204)에서는 (S203)단계에서 부착한 정보중 유일한 하나의 어휘 의미를 결정한다. 그 다음은 구문분석단계(S205)를 실행하는데, 여기에서는 각 문장에 대한 구문 구조를 분석하여 출력하게 된다. LF 추출 단계(S206)에서는 격틀을 이용한 구문분석 결과를 용언을 중심으로 재구성하여 LF(Logical Form) 구조를 추출한다.
- LF 단위 색인 구조 추출 단계(S20)
LF(Logical Form) 구조는 언어분석단계(S10)의 LF 추출 단계(S206)의 결과를 이용하여 얻어진다. 각 문장에 대한 LF 결과를 추출하여 각 LF 단위 당 정답대상어와 단서어로 구분하여 정답 색인 구조체를 생성한다. 이때 정답대상어는 언어분석단계(S10)의 정답유형 인식단계(S202)의 결과에서 나온 정답유형 태그가 붙은 단어들이 대상이 된다. 단서어는 문장에서 정답대상어를 제외한 나머지 단어들이 해당된다. 단서어에 해당하는 키워드는 단일명사, 복합명사, 속격어구가 대상이 된다. 이에 대해서는 다음 단계에서 자세히 언급하도록 한다. 입력문장을 예문으로 처리하는 과정을 설명하면 다음과 같다.
1. 입력문 : 아래의 예문은 백과사전의 ‘나이팅게일’ 표제어에서 일부를 발췌한 문장이다.
국제적십자에서는 ‘나이팅게일상(賞)’을 마련하여 매년 세계 각국의 우수한 간호사를 선발, 표창하고 있다. (표제어: 나이팅게일)
2. 언어분석 모듈 결과 : 입력문장을 문서 전처리 모듈과 언어분석 모듈을 통해 결과를 받으면 다음의 두 가지 형태의 결과를 입력으로 받을 수 있다. 첫번째는 문장의 형태소 분석과 구문 분석을 수행한 결과를 담은 Chunking Structure이고, 두번째는 구문분석 후에 LF 추출기를 통해 각 문장에서 이벤트 용언을 중심으로 한 LF 결과를 담은 구조체인 LF Structure이다.
* Chunking Structure
명사구 등 구단위 묶음 정보가 있는 Data Structure
예문 결과: 국제적십자에서는 ‘나이팅게일상(賞)’을 마련하여 매년 {세계 각국의 우수한 간호사}를 선발, 표창하고 있다.
* LF Structure
입력 문장에서 용언 ‘마련하다’와 ‘우수하다’ ‘선발하다’를 중심으로 구문분석 후의 Dependency 결과를 추출하면 다음과 같다.
예문 결과:
● 마련하(<subj:국제적십자사<ORG>가 > <obj:‘나이팅게일상’<PRIZE>를 > <adverb:NULL>
<comple:NULL>
● 우수하(id=2, v_type=1, sent_type=2 <subj:간호사 OCCUPATION>가 > <obj:NULL>,
<adverb:NULL> <comple:NULL>
● 선발하(id=3, v_type=4, sent_type=2 <subj:title<PERSON>가 > <obj:간호사<OCCUPATION>를 >
<adverb:NULL> <comple:NULL>
3. 정답대상어와 단서어 추출 : LF structure에서 각 object에 대해서 정답 대상어(정답 유형이 부착된 키워드)와 단서어(각 정답 유형과 같은 LF 구조에 속한 키워드)를 추출한다.
* 정답대상어 : 국제적십자사(ORG), 나이팅게일상(PRIZE), 간호사(OCCUPATION)
* 단서어 : 마련하다, 우수하다, 선발하다, 국제적십자사(ORG), 나이팅게일상(PRIZE), 간호사(OCCUPATION), 세계+각국
4. LF 단위 색인 구조 변환: LF 단위로 추출된 정답대상어와 단서어를 중심으로 <단서어_정답유형, 정답대상어> 튜플을 생성하고, LF 구조에 나온 구조 정보를 추출한다. LF 구조 정보는 SV, SO 등(주어, 목적어, 부사어 관계를 나타낸 것임).
*(마련하_ORG), 국제적십자사 SV *(마련하_PRIZE), 나이팅 게일상 SO *(우수하, OCCUPATION) - 간호사 SV *(선발하, OCCUPATION) - 간호사 SO *(선발하, PERSON) - 나이팅게일 SV *(간호사,PERSON) - 나이팅게일 OS *(나이팅게일, OCCUPATION ) - 간호사 SO *(세계+각국_PERSON) 나이팅게일 AS *(세계+각국_ OCCUPATION ) 간호사 AO
- 문장 단위 색인 구조 추출 단계(S30)
문장 단위 색인 구조 추출 단계는 문장을 대상범위로 해서 정답대상어와 단서어 쌍을 색인어로 추출한다. 단서어의 대상 키워드는 LF 단위와 동일하게 단일명사(하나의 어절로 이뤄진 명사), 복합명사, 속격어구가 대상이 된다.
● 복합명사 : 복합명사는 단일명사 또는 수사가 2개이상 연결된 명사열을 말하며, 수사는 뒤에 의존명사가 존재하는 경우만 수사와 의존명사를 붙여서 추출한다.
■ 예: 1921년 여름에 아프리카 배드민턴연맹 체육대회에 가족전원이 참가하다. --> 복합명사: 1921년+여름, 아프리카+배드민턴+연맹+체육+대회
● 속격어구: 속격어구는 속격조사 ‘의’가 포함되어진 명사구를 말하며, 복합명사와의 매칭을 위해서 속격조사 앞, 뒤도 ‘+’로 연결한다. 속격조사 뒤 부분은 속격구문에서 중심명사구이므로 추가로 추출한다. 예를 들면 다음과 같다.
■ 문장: 아버지의 외제자동차를 타다. --> 속격어구 추출: 아버지+외제+자동차, 중심명사구 추출: 외제+자동차
1. 입력문 : 국제적십자에서는 ‘나이팅게일상(賞)’을 마련하여 매년 세계 각국의 우수한 간호사를 선발, 표창하고 있다. (표제어: 나이팅게일)
2. 언어분석 모듈 결과 : 입력문장을 형태소 분석기와 정답유형인식기, 구문 청킹 과정을 거쳐서, 결과를 추출한다. (단일명사, 복합명사, 속격어구를 포함한 명사구 추출)
3. 정답대상어와 단서어 추출 : 정답유형인식기를 이용해서 문장에 있는 정 답대상어를 추출한다. 정답대상어를 제외한 모든 명사구의 구성 성분은 단서어로 포함된다.
● 정답대상어 : 국제적십자사(ORG), 나이팅게일상(PRIZE), 간호사(OCCUPATION)
● 단서어 : 국제적십자사, 나이팅게일+상, 간호사, 세계+각국
4. 문장 단위 색인 구조 변환: 정답대상어와 단서어를 중심으로 <단서어_정답유형, 정답대상어> 튜플을 생성하고, 단서어와 정답대상어 사이의 거리 정보 등을 추출한다.
*(간호사, PERSON) - 나이팅게일 *(국제적십자사, PERSON) - 나이팅게일 *(나이팅게일상, PERSON) - 나이팅게일 *(간호사, PERSON) - 나이팅게일 *(세계+각국, PERSON) - 나이팅게일 *(간호사, PERSON) - 나이팅게일 : (생략) *(나이팅게일, OCCUPATION ) - 간호사
- 색인어 가중치 및 문장 주제 추정 단계(S40)
색인어 가중치 및 문장 주제 추정 단계는 크게 각 색인어별 전체에서 차지하는 가중치 계산을 하는 부분과 색인어가 속한 문장에 대한 주제를 선정하는 부분으로 나뉜다.
먼저 색인어 가중치 추정부분은 앞 두단계에서 추출된 단서어들에 대해서 단어별 가중치를 적용하여, 검색에서의 정답 추출에 신뢰도를 높이기 위한 단계이다. 즉, 각 단서어들이 전체 문서 세트에서 차지하는 가중치 값을 추정하여, 각 단서어 들마다 정보를 입력해 준다.
본 발명에서 색인어 가중치를 추정하는 방식으로는 다음과 같다. 색인어 가중치의 수치값은 각 코퍼스 대상에 따라서 튜닝을 해서 입력하도록 한다.
● 색인어 가중치(W) = avgTF * (log10((전체 문서수)/(해당 색인어가 나온 문서수)) - [식1]
● avgTF = (전체에서 나온 색인어 빈도수)/(색인어가 나온 전체 문서수)
문장 주제 추정은 자동 분류 시스템을 활용하여 각 문장을 아래의 문장 주제표에 따라 자동 주제 태깅을 하여 그 태깅 정보를 입력해 준다. 문장 주제는 각 도메인에 맞는 주제 분류표를 작성하고, 각 주제에 맞게 분류 시스템을 활용하여 문장별로 태깅을 해준다. 여기서 문장 주제 분류표의 예는 다음과 같다.
[표1 ] 문장 주제표 예
대분류 중분류 소분류
출생 국적
사망
활동 업적 설립, 연구, 발견 등
교육 졸업, 유학, 수학 등
각 문장에 대해서 주제 태깅을 한 예는 다음과 같다. 각 문장끝에 붙여진 [#출생] 등이 문장별 주제 태깅의 예이다.
[원문 주제 할당 예]
경북 선산(善山) 출생[#출생]. 가난한 농부인 박성빈(朴成彬)과 백남의(白南義) 사이에서 5남 2녀 중 막내로 태어났다[#출생]. 1937년 대구사범학교를 졸업 하고[#졸업], 3년간 초등학교 교사로 근무하다가[#역임], 만주의 신경(新京:現 長春)군관학교를 거쳐 1944년 일본육군사관학교를 졸업하였으며[#졸업], 8ㆍ15광복 이전까지 주로 관동군 배속되어 중위로 복무하였다[#역임].
- 정답 색인 구조 저장 단계(S50)
정답 색인 구조 저장 단계는 앞 단계에서 추출된 각 색인 구조들을 DB에 넣기 위해서 스키마를 정의하고, 부가 정보를 추출하여 저장하게 하는 역할을 한다.
[정답 색인 구조 스키마 정의]
형식: <단서어_정답대상어의 정답유형 태그명, 정답대상어> 튜플
예) <간호사_100, 나이팅게일> : 예문에서 ‘간호사’가 단서어의 키워드이고, 정답대상어가 나이팅게일일 때, 실제 DB에 저장되는 모습은 나이팅게일의 정답유형 태그인 100을 확장한 간호사_100 이 색인어로 저장된다.
추가 부가 정보로는 정답대상어, 주제정보, 키워드와 정답대상어의 거리, LF 정보, 표제어ID, 그리고 문장ID를 추출한다.
최종적으로 테이블에 저장되는 형태는 다음과 같다.
● 관련정보저장순서: 정답대상어|거리|표제어가중치|주제정보|LF정보|표제어ID|문장ID
● 테이블 저장 예
색인 구조 관련정보
거관_10 신흥사|8|0.2|위치|SO|185|6
거관_10 관동순찰사 정원용|16|0.5|용도|NULL|185|6
거관_6 제자들|10|0.1|SA|역할|185|6
... ...
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.
상술한 바와 같이, 본 발명에 의한 질의응답시스템에서의 정답색인 시스템 및 방법은, 단락 또는 문장을 검색해서 실시간으로 분석한 후 정답을 추정하는 기존 방법에 비해서, 색인 과정을 통해서 시간이 많이 걸리는 언어분석 등의 과정을 미리 수행해서 결과를 저장해 놓기 때문에, 시스템의 사용자 응답 속도 및 정확도를 향상시킬 수 있다.

Claims (12)

  1. 입력된 문장을 형태소 분석, 정답유형 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미있는 코드로 변환하는 언어분석부;
    구문구조를 활용하여 용언을 중심으로 재구성한 LF의 범위 내에서의 색인 구조를 추출하는 LF 단위 색인 구조 추출부;
    입력 문장 전체를 범위로 해서 색인 구조를 추출하는 문장 단위 색인 구조 추출부;
    상기 추출된 색인어에 대해서 가중치 부여식을 통해 전체 문서에서의 단어 가중치를 계산하여 추정하는 색인어 가중치 추정부;
    해당 문장에 대해서 도메인에 맞는 주제 분류표를 정의하여, 각 문장별 주제 태그를 생성하는 문장 주제 추정부; 및
    추출된 색인어들을 DB에 저장하기 위해 색인 구조를 정의하고 변경하는 정답 색인 구조 저장부
    를 포함하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 시스템.
  2. a. 언어분석부로 입력된 문장을 형태소 분석, 정답유형 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미있는 코드로 변환하는 단계;
    b. 구문구조를 활용하여 용언을 중심으로 재구성한 LF의 범위 내에서의 색인 구조를 추출함과 아울러, 입력 문장 전체를 범위로 해서 색인 구조를 추출하는 단 계;
    c. 상기 추출된 색인어에 대해서 가중치 부여식을 통해 전체 문서에서의 단어 가중치를 계산하여 추정하는 단계;
    d. 해당 문장에 대해서 도메인에 맞는 주제 분류표를 정의하여, 각 문장별 주제 태그를 생성하는 단계; 및
    e. 상기 추출된 색인어들을 DB에 저장하기 위해 색인 구조를 정의하고 변경하는 단계
    를 포함하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  3. 제 2 항에 있어서, 상기 a. 단계는,
    각 형태소의 품사를 결정하는 형태소분석 단계;
    미리 정의된 의미적 분류를 정답유형으로 정의하고, 상기 정답유형에 대해 인식을 수행하는 정답유형 인식단계;
    명사 어휘 개념망을 이용하여 각 명사에 개념을 할당하는 어휘의미태깅 단계;
    상기 어휘의미태깅 단계에서 부착한 정보중 유일한 하나의 어휘 의미를 결정하는 어휘의미 분별단계;
    각 문장에 대한 구문 구조를 분석하여 출력하는 구문분석단계; 및
    격틀을 이용한 구문분석 결과를 용언을 중심으로 재구성하여 LF(Logical Form) 구조를 추출하는 LF 추출 단계
    로 이루어진 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  4. 제 3 항에 있어서, 상기 정답유형은 인명, 학술분야명, 이론, 인공물, 조직명, 지명, 문화/문명, 날짜, 시간, 수량, 사건, 동물, 식물, 물질, 전문용어를 포함하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  5. 제 2 항에 있어서, 상기 b. 단계에서 LF의 범위 내에서의 색인 구조를 추출하는 단계는,
    각 문장에 대한 LF 결과를 추출하여 각 LF 단위별로, 의미적 분류가 정의된 정답유형에 대해 인식을 수행하여 얻어진 정답유형 태그가 붙은 단어인 정답대상어와 상기 정답대상어를 제외한 나머지 단어인 단서어로 구분하여, LF 구조에 나온 주어, 목적어, 부사어 관계를 나타내는 정답 색인 구조체를 생성하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  6. 제 2 항에 있어서, 상기 b. 단계에서 입력 문장 전체를 범위로 해서 색인 구조를 추출하는 단계는,
    문장을 대상범위로 해서 정답대상어와 단서어 쌍을 색인어로 추출하여 문장 단위별로, 의미적 분류가 정의된 정답유형에 대해 인식을 수행하여 얻어진 정답유형 태그가 붙은 단어인 정답대상어와 상기 정답대상어를 제외한 나머지 단어인 단서어로 구분하여, 문장 구조에 나온 주어, 목적어, 부사어 관계를 나타내는 정답 색인 구조체를 생성하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  7. 제 5 항 또는 제 6 항에 있어서, 상기 정답 색인 구조체는,
    LF 단위 및 문장 단위로 추출된 정답대상어와 단서어를 중심으로 <단서어_정답유형, 정답대상어> 튜플형식으로 색인 구조화하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  8. 제 2 항에 있어서, 상기 c. 단계에서,
    색인어 가중치는 다음의 [식1]로 정의되는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
    색인어 가중치(W) = avgTF * (log10((전체 문서수)/(해당 색인어가 나온 문서수)) --- [식1]
    여기서, avgTF = (전체에서 나온 색인어 빈도수)/(색인어가 나온 전체 문서수)
  9. 제 2 항에 있어서, 상기 d. 단계에서,
    문장 주제 추정은 상기 주제 분류표를 이용하여 주제 태깅을 수행하여 문장별로 태깅 정보를 입력하여 이루어지는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  10. 제 2 항에 있어서, 상기 e. 단계는,
    추출된 각 색인 구조들을 DB에 넣기 위한 정답 색인 구조 스키마를 정의하고, 정답대상어, 주제정보, 키워드와 정답대상어의 거리, LF 정보, 표제어ID 및 문장ID를 포함한 부가 정보를 추출하여 저장하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  11. 제 10 항에 있어서, 상기 정답 색인 구조 스키마는,
    <단서어_정답대상어의 정답유형 태그명, 정답대상어> 튜플형식으로 구조화하는 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
  12. 제 10 항에 있어서, 상기 테이블에 저장되는 형태는,
    정답대상어|거리|표제어가중치|주제정보|LF정보|표제어ID|문장ID
    인 것을 특징으로 하는 질의응답시스템에서의 정답색인 방법.
KR1020040109134A 2004-12-21 2004-12-21 질의응답시스템에서의 정답색인 시스템 및 방법 KR100599450B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040109134A KR100599450B1 (ko) 2004-12-21 2004-12-21 질의응답시스템에서의 정답색인 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040109134A KR100599450B1 (ko) 2004-12-21 2004-12-21 질의응답시스템에서의 정답색인 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20060070610A true KR20060070610A (ko) 2006-06-26
KR100599450B1 KR100599450B1 (ko) 2006-07-12

Family

ID=37164209

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040109134A KR100599450B1 (ko) 2004-12-21 2004-12-21 질의응답시스템에서의 정답색인 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100599450B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100016192A (ko) * 2007-04-03 2010-02-12 구글 인코포레이티드 부적절한 탐색 콘텐츠 식별
KR20160060253A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
KR20190131270A (ko) * 2018-05-16 2019-11-26 (주)아이브릭스 질의자 의도를 이해하기 위한 구문 규칙 자동생성 장치 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543185B (zh) * 2018-11-22 2021-11-16 联想(北京)有限公司 语句主题获取方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100016192A (ko) * 2007-04-03 2010-02-12 구글 인코포레이티드 부적절한 탐색 콘텐츠 식별
US9020933B2 (en) 2007-04-03 2015-04-28 Google Inc. Identifying inadequate search content
KR20160060253A (ko) * 2014-11-19 2016-05-30 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
KR20190131270A (ko) * 2018-05-16 2019-11-26 (주)아이브릭스 질의자 의도를 이해하기 위한 구문 규칙 자동생성 장치 및 방법

Also Published As

Publication number Publication date
KR100599450B1 (ko) 2006-07-12

Similar Documents

Publication Publication Date Title
CN109684448B (zh) 一种智能问答方法
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
KR102033435B1 (ko) 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
US7383169B1 (en) Method and system for compiling a lexical knowledge base
KR101923650B1 (ko) 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
Lopez et al. Powermap: Mapping the real semantic web on the fly
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN105930452A (zh) 一种识别自然语言的智能应答方法
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
CN109471949B (zh) 一种宠物知识图谱的半自动化构建方法
CN102262634A (zh) 一种自动问答方法及系统
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN111553160B (zh) 一种获取法律领域问句答案的方法和系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
CN110119404B (zh) 一种基于自然语言理解的智能取数系统及其方法
CN114239546A (zh) 一种基于语法树剪枝的翻译机测试方法
KR100599450B1 (ko) 질의응답시스템에서의 정답색인 시스템 및 방법
ElSayed An Arabic natural language interface system for a database of the Holy Quran
KR100726176B1 (ko) 질의응답 시스템에 있어서 다중 정답 추출 방법 및 장치
Silveira et al. Advances in automatically solving the ENEM
Govilkar et al. Question answering system using ontology in Marathi language
KR100745367B1 (ko) 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템
Tran et al. A model of vietnamese person named entity question answering system

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee