KR100597437B1

KR100597437B1 - 하이브리드 정답유형 인식 장치 및 방법

Info

Publication number: KR100597437B1
Application number: KR1020040108121A
Authority: KR
Inventors: 정의석; 임수종; 황이규; 장명길
Original assignee: 한국전자통신연구원
Priority date: 2004-12-17
Filing date: 2004-12-17
Publication date: 2006-07-06
Also published as: KR20060069616A; US7412093B2; US20060136208A1

Abstract

본 발명은 질의 응답 시스템을 위한 한국어의 정답유형을 인식하도록 하는 하이브리드 정답유형 인식 장치 및 방법에 관한 것이다. 이와 같은 본 발명은 입력 텍스트의 형태소를 분석하는 형태소 분석부와, 상기 형태소 분석부에서 분석된 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 그 추출된 음절을 기반으로 하여 정답 유형을 인식하는 음절 기반 정답 유형 인식부와, 상기 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하여 그 해당 자질을 인식하는 어휘 자질 인식부와, 상기 어휘 자질 인식부에서 인식된 하나 이상의 자질을 갖는 형태소들에 대하여 어휘 자질 중의성을 해소하는 어휘 자질 중의성 해소부와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답 유형을 인식하는 패턴 규칙 기반 정답 유형 인식부와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열에 통계 모델을 적용하여 정답 유형을 인식하는 통계 기반 정답 유형 인식부와, 상기 통계 기반 정답 유형 인식부에서 대분류로 인식된 정답 유형에 대한 정답 유형 세부 범주를 인식하는 정답 유형 세부 범주 인식부로 구성된다.

정답 유형 인식, 하이브리드 정답유형 인식, 통계기반 정답유형 인식, 규칙기반 정답유형 인식, 개체명 인식, 하이브리드 개체명 인식, 질의응답

Description

하이브리드 정답유형 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING HYBRID ANSWER TYPE}

도 1은 본 발명의 실시예에 따른 하이브리드 정답유형 인식 장치의 기능 블록도,

도 2는 도 1에서의 음절기반 정답 유형 인식부의 상세 기능 블록도,

도 3은 도 1에서의 어휘 자질 인식부의 상세 기능 블록도,

도 4는 도 1에서의 어휘 자질 중의성 해소부의 상세 기능 블록도,

도 5a는 도 1에서의 패턴 규칙 기반 정답 유형 인식부의 상세 기능 블록도,

도 5b는 도 5a에서의 패턴 규칙을 설명하기 위한 테이블도,

도 6a는 도 1에서의 통계기반 정답 유형 인식부의 상세 기능 블록도,

도 6b는 도 6a에서의 통계 기반 정답 유형 인식에서 사용되는 정답 유형 대상 어휘의 문맥 자질을 도시한 테이블도,

도 6c는 도 6a에서의 최대 엔트로피 통계모델에 적용되는 문맥 자질 템플릿의 종류를 설명하기 위한 도면,

도 6d는 도 6a에서의 최대 엔트로피 통계모델에 적용되는 자질 리스트와 이들 리스트의 가중치 할당을 설명하기 위한 도면,

도 7은 도 1에서의 정답 유형 세부 범주 인식부의 상세 기능 블록도,

도 8은 질의 응답 시스템을 위한 정답 유형을 기재한 테이블도,

도 9는 정답 유형 인식을 위한 세부 자질 유형을 기재한 테이블도,

도 10은 정답유형 인식을 위한 다양한 언어 자질 추출을 위한 정답 유형 태깅 문서를 기술한 도면,

도 11은 본 발명의 실시예에 따른 하이브리드 정답유형 인식 방법을 설명하기 위한 제어 흐름도,

도 12a는 도 11에서의 음절기반 정답 유형 인식과정의 상세 흐름도,

도 12b는 도 12a에서의 학습 자료 구축 과정의 상세 흐름도,

도 13a는 도 11에서의 어휘 자질 중의성 해소 과정의 상세 흐름도,

도 13b는 도 13a에서의 학습 자료 구축 과정의 상세 흐름도,

도 14a는 도 11에서의 패턴 규칙 기반 정답 유형 인식 과정의 상세 흐름도,

도 14b는 도 14a에서의 패턴 규칙 구축 과정의 상세 흐름도,

도 15a는 도 11에서의 통계 기반 정답 유형 인식과정의 상세 흐름도,

도 15b는 도 15a에서의 통계 정보 구축 과정의 상세 흐름도,

도 16a는 도 11에서의 정답 유형 세부 범주 인식 과정의 상세 흐름도,

도 16b는 도 16a에서의 통계 정보 구축 과정의 상세 흐름도이다.

<도면의 주요부분에 대한 부호의 설명>

100 : 형태소 분석부

200 : 음절 기반 정답 유형 인식부

300 : 어휘 자질 인식부

400 : 어휘 자질 중의성 해소부

500 : 패턴 규칙 정답 유형 인식부

600 : 통계 기반 정답 유형 인식부

700 : 정답 유형 세부 범주 인식부

본 발명은 하이브리드 정답유형 인식 장치 및 방법에 관한 것으로, 특히 질의 응답 시스템을 위한 한국어의 정답유형을 인식하도록 하는 하이브리드 정답유형 인식 장치 및 방법에 관한 것이다.

일반적으로, 개체명 인식(Named entity recognition)은 질의 응답 시스템이나 텍스트 마이닝 시스템과 같은 특정 텍스트로부터 핵심 정보 추출을 필요로 하는 시스템에서 필수적으로 요구되는 기능이다. 특히, 개체명 인식기는 FALCON이나 IBM의 질의 응답 시스템의 핵심 모듈로서 정답유형 인식을 담당하는 역할을 한다. 즉, 개체명 인식기는 질의 응답 시스템에서 정답 유형(answer type)을 인식하여 질의에 대한 정답을 제시하는 역할을 수행한다. 비록 정답유형이 정확히 개체명 인식과 일치하지 않을 수 있으나 정답유형 인식은 기존의 개체명 인식 기술을 그대로 적용할 수 있다. 차이점이 있다면 질의 응답시스템을 위한 정답유형은 개체명보다 더 많은 분류 개수를 필요로 한다는 점이 있다.

상기 개체명 인식 기술은 최근 지식 관련 기술의 발전으로 인해 꾸준히 연구 개발 되어온 기술이다. 대체적으로 통계 기반 접근 방법이 주류를 이루고 있으며 이중에서 HMM(hidden markov model)기반의 연구들과 최근의 ME(maximum-entropy) 기반의 연구들이 대표적이라 할 수 있다. 이들은 대상 어휘 문맥상의 히스토리 정보에 기반하여 대상 어휘의 개체명 할당을 진행하는 기법을 이용하고 있다. 영어권에서 단순 어휘 자질을 이용하여 Bikel은 F-measure 90%를 보였고, Zhou는 Bikel보다 복합적인 자질을 이용한 HMM기반 개체명 인식 기법을 제시하여 F-measure 93.4%의 인식률을 보였다.

하이브리드 접근 방법과 세부범주 개체명 인식의 기존 연구로는 Srihari의 모델이 대표적이다. 이 연구는 ME모델과 HMM모델 그리고 수작업으로 생성된 문법 모델을 이용하여 개체명 인식에 적용하였고, ME모델을 기반으로 세부범주 인식 방법에 대하여 제시하였다. 그러나 패턴 규칙 구축이 수작업으로 진행되었고, 개체명 태그 부착 말뭉치를 이용하지 않고 외부 사전 정보를 이용한 세부 범주 인식 기법을 제시하였다.

한국어의 개체명 인식 기술의 경우 ME 모델, 뉴럴 네트워크 그리고 패턴 선택 규칙을 이용한 하이브리드 접근방법이 대표적이다. 이 연구는 인명, 지명, 조직명만을 대상으로 하여 F-measure 84.09%을 보였다. 한국어 개체명 인식 기술이 영어권의 연구 결과에 비교하여 낮은 성능을 보이는 큰 이유는 한국어는 영어와 같은 고유명사에 대한 대문자 자질이 없다는 점에 있다. 그럼에도 불구하여 이 연구는 상당한 성능을 보였다고 할 수 있으나, 단순 개체명만을 대상으로 한 실험적 연구였고, 질의 응답 시스템에서 요구하는 대량의 정답유형에 대한 인식 방법론에 대하여 제시하지 못하고 있다는 문제점이 있다.

따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어 진 것으로서, 본 발명의 목적은 백과사전 영역의 질의응답시스템을 위해 한국어의 정답유형을 인식할 수 있는 하이브리드 정답유형 인식 장치 및 방법을 제공하는 데 있다.

또한, 본 발명의 목적은 정답유형 인식은 기존의 개체명 인식 기법에 기반을 두고 있으나, 인명, 지명, 조직명과 같은 고유명사 중심으로 구성된 7개 정도의 개체명 인식 대상에서 160여개로 구성된 정답유형의 확장 인식을 위한 하이브리드 정답유형 인식 장치 및 방법을 제공하는 데 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 하이브리드 정답유형 인식 장치는, 입력 텍스트의 형태소를 분석하는 형태소 분석부와, 상기 형태소 분석부에서 분석된 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 그 추출된 음절을 기반으로 하여 정답 유형을 인식하는 음절 기반 정답 유형 인식부와, 상기 각 형태 소 리스트의 구성 형태소별 해당 자질을 할당하여 그 해당 자질을 인식하는 어휘 자질 인식부와, 상기 어휘 자질 인식부에서 인식된 하나 이상의 자질을 갖는 형태소들에 대하여 어휘 자질 중의성을 해소하는 어휘 자질 중의성 해소부와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답 유형을 인식하는 패턴 규칙 기반 정답 유형 인식부와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열에 통계 모델을 적용하여 정답 유형을 인식하는 통계 기반 정답 유형 인식부와, 상기 통계 기반 정답 유형 인식부에서 대분류로 인식된 정답 유형에 대한 정답 유형 세부 범주를 인식하는 정답 유형 세부 범주 인식부를 포함하여 구성되는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명의 하이브리드 정답유형 인식 방법은, 입력 텍스트의 형태소를 분석하는 형태소 분석 단계와, 상기 형태소 분석 단계에서 분석된 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 그 추출된 음절을 기반으로 하여 정답 유형을 인식하는 음절 기반 정답 유형 인식 단계와, 상기 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하여 그 해당 자질을 인식하는 어휘 자질 인식 단계와, 상기 어휘 자질 인식 단계에서 인식된 하나 이상의 자질을 갖는 형태소들에 대하여 어휘 자질 중의성을 해소하는 어휘 자질 중의성 해소 단계와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답 유형을 인식하는 패턴 규칙 기반 정답 유형 인식 단계와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열에 통계 모델을 적용하여 정답 유형을 인식하는 통계 기반 정답 유형 인식 단계와, 상기 통계 기반 정답 유형 인식 단계에서 대분류로 인식된 정답 유형에 대한 정답 유형 세부 범주를 인식하는 정답 유형 세부 범주 인식 단계를 포함하여 이루어 지는 것을 특징으로 한다.

이하, 본 발명의 실시예에 의한 하이브리드 정답유형 인식 장치 및 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 하이브리드 정답유형 인식 장치의 기능 블록도를 도시한 것이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 하이브리드 정답유형 인식 장치는, 입력 텍스트의 형태소를 분석하는 형태소 분석부(100)와, 상기 형태소 분석부(100)에서 분석된 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 그 추출된 음절을 기반으로 하여 정답 유형을 인식하는 음절 기반 정답 유형 인식부(200)와, 상기 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하여 그 해당 자질을 인식하는 어휘 자질 인식부(300)와, 상기 어휘 자질 인식부(300)에서 인식된 하나 이상의 자질을 갖는 형태소들에 대하여 어휘 자질 중의성을 해소하는 어휘 자질 중의성 해소부(400)와, 상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답 유형을 인식하는 패턴 규칙 기반 정답 유형 인식부(500)와, 상기 형태소들의 연속된 나열과 형태소 에 연결된 구성 자질들의 연속된 나열에 통계 모델을 적용하여 정답 유형을 인식하는 통계 기반 정답 유형 인식부(600)와, 상기 통계 기반 정답 유형 인식부(600)에서 대분류로 인식된 정답 유형에 대한 정답 유형 세부 범주를 인식하는 정답 유형 세부 범주 인식부(700)로 구성된다.

도 2는 도 1에서의 음절 기반 정답 유형 인식부의 상세 기능 블록도를 도시한 것이다.

도 2에 도시된 바와 같이, 상기 음절 기반 정답 유형 인식부(200)는 상기 형태소 분석부(100)에서 분석된 형태소 리스트 각각에 대해 고정 크기(3byte)의 음절을 추출하는 음절 추출부(201)와, 정답 유형 태깅 코퍼스에 태깅된 정답 유형들중 일정 크기(4byte) 이상의 정답 유형들에 대하여 일정 크기(3byte)의 음절 색인을 추출하여 구축된 음절 색인 DB(202)와, 상기 음절 색인 DB(202)를 조회하는 음절 색인 검색부(203)와, 해당 음절별 정답 유형 엔트리를 추출하여 구축된 음절 기반 정답 유형 사전 DB(204)와, 상기 음절 기반 정답 유형 사전 DB(204)를 검색하여 정답 유형 어휘가 존재할 경우 음절 기반 정답 유형 인식 결과를 출력하는 정답 유형 사전 검색부(205)로 구성된다.

도 3은 도 1에서의 어휘 자질 인식부의 상세 기능 블록도를 도시한 것이다.

도 3에 도시된 바와 같이, 상기 어휘 자질 인식부(300)는 기 구축된 자질 사전 DB(301)와, 상기 자질 사전 DB(301)를 검색하여 각 형태소 리스트의 구성 형태 소별 해당 자질을 할당하는 자질 할당부(302)로 구성된다.

도 4는 도 1에서의 어휘 자질 중의성 해소부의 상세 기능 블록도를 도시한 것이다.

도 4에 도시된 바와 같이, 상기 어휘 자질 중의성 해소부(400)는 상기 중의성 자질 대상에서 자질 문맥 정보를 추출하는 자질 문맥 정보 추출부(401)와, 정답 유형 자료 구조의 정보들을 이용하여 자질 문맥 통계 정보를 추출하여 기 구축된 자질 문맥 통계정보 DB(402)와, 상기 자질 문맥 정보 추출부(401)에서 추출된 자질 문맥 정보와 상기 자질 문맥 통계정보 DB(402)에 기 저장된 자질 문맥 통계 정보를 이용하여 자질 중의성을 해소하는 자질 중의성 해소부(403)로 구성된다.

도 5a는 도 1에서의 패턴 규칙 기반 정답 유형 인식부의 상세 기능 블록도를 도시한 것이다.

도 5a에 도시된 바와 같이, 상기 패턴 규칙 기반 정답 유형 인식부(500)는 패턴 규칙을 추출한 후 그 추출된 패턴들을 필터링하여 기 구축된 패턴 규칙 DB(501)와, 상기 패턴 규칙 DB(501)에 저장된 패턴 규칙을 로딩하는 패턴 규칙 로딩부(502)와, 상기 패턴 규칙 로딩부(502)에 의해 로딩된 패턴 규칙을 이용하여 FSA를 생성하는 FSA 생성부(503)와, 상기 FSA 생성부(503)에서 생성된 FSA 및 상기 자질 중의성 해소 결과를 이용하여 정답 유형을 인식한 후, 그 정답 유형 인식 결과를 출력하는 정답 유형 인식부(504)로 구성된다.

도 5b에 도시된 바와 같이, 상기 패턴 규칙은 '정답 유형=어휘/의미/자질패턴'으로 구성된다.

도 6a는 도 1에서의 통계 기반 정답 유형 인식부의 상세 기능 블록도를 도시한 것이다.

도 6a에 도시된 바와 같이, 상기 통계 기반 정답 유형 인식부(600)는 상기 자질 중의성 해소 결과를 이용하여 상위 정답 유형 자질 함수를 추출하는 상위 정답 유형 자질 함수 추출부(601)와, 상위 정답 유형 자질 함수을 추출한 후 IIS 알고리즘을 통해 기 기축된 상위 정답 유형 λ벡터 DB(602)와, 상기 상위 정답 유형 자질 함수 추출부(601)에서 추출된 상위 정답 유형 자질 함수와 상기 상위 정답 유형 λ벡터 DB(602)에 저장된 상위 정답 유형 λ벡터를 이용하여 최대 확률 상위 정답 유형 범주를 도출하는 최대 확률 상위 정답 유형 범주 도출부(603)로 구성된다.

도 7은 도 1에서의 정답 유형 세부 범주 인식부의 상세 기능 블록도를 도시한 것이다.

도 7에 도시된 바와 같이, 상기 정답 유형 세부 범주 인식부(700)는 상기 통계 기반 정답 유형 인식부(600)에서 인식된 ME 기반 상위 정답 유형을 이용하여 세부 정답 유형 자질 함수를 추출하는 세부 정답 유형 자질 함수 추출부(701)와, 세부 정답 유형 자질 함수를 추출한 후 IIS 알고리즘을 통해 기 구축된 세부 정답 유형 λ벡터 DB(702)와, 상기 세부 정답 유형 자질 함수 추출부(701)에서 추출된 세 부 정답 유형 자질 함수와 상기 세부 정답 유형 λ벡터 DB(702)에 저정된 세부 정답 유형 λ벡터를 이용하여 최대 확률 세부 정답 유형 범주를 도출하는 최대 확률 세부 정답 유형 범주 도출부(703)로 구성된다.

그러면, 상기와 같은 구성을 가지는 본 발명의 실시예에 따른 하이브리드 정답유형 인식 장치의 동작을 도 12a 내지 16b를 참조하여 상세히 설명하기로 한다.

먼저, 입력 텍스트가 입력되면(S100), 형태소 분석부(100)는 형태소 분석 과정(S200)을 거친 후, 텍스트는 형태소 단위로 분리 되고 각각 형태소 품사 표지가 붙는다. 이 과정은 한국어 형태소 분석기에 의해 수행된다. 여기서 입력 텍스트는 문장들의 리스트로 분리되고 각각의 문장은 형태소 리스트로 구성된다.

이후, 음절 기반 정답 유형 인식부(200)는 상기 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 음절기반 정답유형 인식 과정(S300)을 진행한다. 여기서, 일정 크기의 음절이란 6byte정도의 한정된 부분 어휘를 말하고, 이 부분 어휘를 기 구축된 음절 색인 정답유형 사전 DB(204)의 키로 이용하여 대상 어휘가 정답유형 대상인지 아닌지를 판별하는 것이다.

이후, 어휘 자질 인식부(300)는 각 형태소 리스트의 구성 형태소 별 해당 자질을 할당하는 어휘 자질 인식 과정(S400)을 수행하게 된다. 어떤 형태소는 '조직명'의 접미사 속성을 가질 수 있고, 어떤 형태소는 '지역명'의 접미사 속성을 가질 수 있다. 이 과정(S400)에서 각 형태소가 어떤 자질들을 가질 수 있는지 파악하여 이들 자질 정보를 형태소 자료구조에 저장하는 작업을 진행한다. 여기서 하나의 형태소는 다양한 자질들을 가질 수 있다. 예를 들면, '군'의 경우 '인명'의 외부 자질('김갑수 군) 과 지역명의 내부 자질('연기 군 ')을 가질 수 있다. 이를 어휘 자질 중의성이라 하겠다.

이후, 어휘 자질 중의성 해소부(400)는 이들 하나 이상의 자질을 가진 형태소들에 대하여 어휘 자질 중의성 해소 과정(S400)을 진행한다. 어휘 자질 중의성 해소는 하나의 형태소에 단일 자질만을 할당하여 이후 진행되는 패턴 규칙기반 정답유형 인식 과정(S500) 및 통계 기반 정답유형 인식 과정(S600)의 성능 향상에 기여하게 된다.

이후, 패턴 규칙 기반 정답 유형 인식부(500)는 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답유형을 인식하는 패턴 규칙 기반 정답유형 인식 과정(S600)을 진행한다. 여기서, 패턴 규칙 적용은 FSA(Finite-state automata)를 이용하며, 주로 '날짜', '금액', '수량' 등의 표현과 같은 정규화된 정답유형을 인식하는데 활용한다.

이후, 통계 기반 정답 유형 인식부(600)는 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열에 통계모델을 적용하여 정답유형을 인식하는 통계 기반 정답유형 인식 과정(S700)을 진행한다. 여기서, 통계모델은 ME모델을 이용하며, 대분류 정답유형인 인명(PERSON), 학술분야(STUDY_FIELD), 이론(THEORY), 인공물(ARTIFACTS), 조직명(ORGANIZATION), 지역명(LOCATION), 문명/문화(CIVILIZATION), 날짜(DATE), 시간(TIME), 수량표현(QUANTITY), 사건(EVENT), 동물(ANIMAL), 식물(PLANT), 물질(MATERIAL), 용어(TERM)를 인식하는데 활용된다.

이후, 정답 유형 세부 범주 인식부(700)는 질의 응답의 다양한 질의 형태에 대응하기 위한 대량의 정답유형 인식(S800)을 진행한다. 여기서, 이전에 대분류로 인식된 정답유형에 대한 정답유형 세부 범주 인식 과정(S800)을 진행하다. 정답유형 세부범주는 도 8에 도시된 15개의 대분류를 하위 분류로 세분화하는 것인데, 대략 160개의 세부 정답유형으로 구성된다. 세분 정답유형 인식 과정(S800) 역시 통계 기반 정답유형 인식 과정(S700)과 동일한 접근 방법을 취한다. 차이점이 있다면 태깅 대상이 기존에 인식된 정답유형에 대한 재분류라는 점이 차이점이라 할 수 있겠다.

도 12a는 음절 기반 정답유형 인식 과정의 상세 흐름도를 도시한 것이다.

먼저, 음절 기반 정답유형 인식의 학습 자료 구축 과정(S301)이 수행되어 음절 색인 DB(202)와 음절 기반 정답 유형 사전 DB(204)가 구축된다. 상기 학습 자료 구축 과정(S301)에서 기 구축된 음절 색인 DB(202)과 음절 기반 정답 유형 사전 DB(204)를 이용하여 음절 기반 정답유형 인식 과정이 진행된다. 우선, 음절 추출부 (201)는 상기 형태소 분석 과정(S200)에서 분석된 각각의 형태소에 대하여 고정 크기(3byte)의 음절을 추출하는 음절 추출 과정(S302)을 수행한다. 이후, 음절 색인 검색부(203)는 상기 음절 색인 DB(220)을 조회하는 음절 색인 검색과정(S303)을 수행한다. 정답 유형 사전 검색부(205)는 상기 정답 유형 사전 검색 과정(S304)을 거쳐 정답유형 어휘가 존재할 경우 정답유형 인식 결과를 도출하게 되는 것이다.

도 12b는 상기 학습 자료 구축 과정의 상세 흐름도를 도시한 것이다.

먼저, 정답 유형 태깅 코퍼스가 입력되면(S3011), 그 정답유형 태깅 코퍼스로부터 음절 색인 구축 DB(202)와 음절 기반 정답 유형 사전 추출 DB(204)를 구축하는 음절 색인 구축 과정(S3012)과 음절 기반 정답 유형 사전 DB 구축 과정(S3013)을 수행한다.

음절 색인 DB 구축 과정(S3012)은 정답 유형 태깅 코퍼스에 태깅된 정답 유형들 중 일정 크기 이상(4byte이상)의 정답 유형들에 대하여 일정 크기(3byte)의 음절 색인을 추출하여 음절 색인 DB(202)를 구축한다. 상기 음절 색인 DB(202)을 구축함과 동시에, 상기 음절 기반 정답 유형 사전 DB 구축 과정(S3013)은 해당 음절별 정답 유형 엔트리를 추출하여 음절 기반 정답 유형 사전 DB(204)를 구축한다.

상기 음절 기반 정답 유형 인식 과정(S200)은 주로 미 등록어 형태의 정답유형 대상 어휘들에 대한 형태소 오류 극복과 긴 길이(4byte 이상)를 지닌 다 어절 정답 유형 인식을 위해 활용된다. 예를 들면, EVENT 정답유형인 '10 센트 은화 찬조운동'의 경우 부분 음절인 '_조 운동'과 해당 정답 유형의 길이인 '18'을 음절 색인 DB(202)에 저장한 후. 이들 색인이 입력 텍스트에 존재할 경우 음절 기반 정답유형 사전DB(204)에 존재 유무를 확인하는 방식으로 진행된다. 이러한 접근 방법은 사전DB의 접근 회수를 감소시켜 정답유형 인식의 효율성 향상에 어느정도 기여한다고 할 수 있다.

도 13a는 도 11에서의 어휘 자질 중의성 해소 과정의 상세 흐름도를 도시한 것이다.

먼저, 학습 자료 구축 과정(S501)이 수행되어 자질 문맥 통계 정보 DB(402)가 구축된다. 자질 문맥 정보 추축부(401)는 중의성 자질 대상에서 자질 문맥 정보를 추출하는 자질 문맥 정보 추출 과정(S502)을 수행한다. 자질 중의성 해소부(403)는 상기 학습 자료 구축 과정(S501)에서 기 구축된 자질 문맥 통계 정보 DB(402)에 저장된 자질 문맥 통계 정보와 상기 자질 문맥 정보 추출 과정(S502)에서 추축된 자질 문맥 정보를 이용하여 자질 중의성 해소 과정(S503)을 수행하게 된다.

상기 중의성 자질 대상이란 하나의 형태소에 하나 이상의 자질이 할당된 경우를 말하며, 이 경우에만 자질 중의성 해소가 진행되게 된다. 자질 중의성 해소는 다양한 통계적 모델로 접근 가능하다. 즉, HMM, ME, Navie Bayes모델 등의 범용 통계모델을 활용하여 구축 가능하다.

도 13b는 상기 학습 자료 구축 과정의 상세 흐름도를 도시한 것이다.

상기 자질 중의성 해소를 위한 학습 자료 구축 과정(S501)은 정답유형 태깅 코퍼스가 입력되면(S5011), 그 정답 유형 태깅 코퍼의 형태소를 분석하는 형태소 분석 과정(S5012)을 수행한다. 이후, 각 형태소에 대하여 자질사전을 이용한 자질 할당 과정(S5013)을 진행하고, 형태소와 관련 자질들과 태깅 정보로부터 추출된 정답유형 정보에 따라 정답유형 자료구조 생성 과정(S5014)을 진행한다. 이들 정보들을 이용하여 자질 문맥 통계 정보 추출을 거쳐 자질문맥 통계정보 DB(402)을 구축하는 자질 문맥 통계 정보 DB 구축 과정(S5015)을 수행하게 되는 것이다.

자질 문맥 통계정보 추출 과정에서 자질 문맥 정보는 자질 어휘, 자질 어휘의 이전 어휘, 이후 어휘, 자질 어휘와 관련된 서술어의 조합으로 구성되어 있다. 이들 조합에 관련된 각각의 빈도수와 특정 통계적 접근 방법을 위한 빈도수의 값 재할당은 자질 중의성 해소 과정(S503)의 기본 데이터로 활용된다.

상기 자질 중의성 해소 과정(S503)은 이후 진행되는 패턴 기반 정답 유형 인식 과정(S600)과 통계 기반 정답유형 인식 과정(S700)의 성능 향상을 위한 필수적 기능이다. 기존의 개체명 인식과 달리 정답유형의 수는 상당하기 때문에 인식과정시 상당한 연산량을 요구하게 된다. 따라서, 다중 자질 처리를 위한 별도의 연산보다는 사전에 자질을 단일화하면 인식 속도를 향상에 기여할 수 있다.

도 14a는 도 11에서의 패턴 규칙 기반 정답 유형 인식 과정의 상세 흐름도를 도시한 것이다.

먼저, 패턴 규칙 구축 과정(S601)이 수행되어 패턴 규칙 DB(501)가 구축된 다. 패턴 규칙 로딩부(502)는 상기 패턴 규칙 DB(501)를 이용하여 FSA를 생성하기 위해 패턴규칙을 로딩하는 패털 규칙 로딩 과정(S602)을 수행한다. FSA 생성부(503)는 상기 패턴 규칙 로딩부(502)에 의해 로딩된 패턴 규칙을 이용하여 FSA를 생성하는 FSA 생성 과정(S603)을 수행한다. 정답 유형 인식부(503)는 상기 FSA 생성부(503)에서 생성된 FSA와 상기 어휘 자질 중의성 해소 과정(S500)의 자질 중의 해소 결과를 이용하여 정답유형 인식 과정(S604)을 진행하게 된다.

도 14b는 상기 패턴 규칙 구축 과정의 상세 흐름도를 도시한 것이다.

개체명 태깅 코퍼스가 입력되면(S6011), 형태소 분석 과정(S6012), 자질 할당 과정(S6013), 자질 중의성 해소 과정(S6014), 정답 유형 자료구조 생성 과정(S6015)이 수행된다. 이후, 패턴 규칙 추출 과정(S6016)을 거치고 추출된 패턴들을 필터링하여 패턴규칙으로 적합한 패턴들만을 규칙화하는 패턴 필터링 과정(S6017)를 통해 패턴규칙 DB(501)가 생성된다(S6018).

상기 패턴 규칙 추출 과정(S6016)은 다양한 자질(사전, 문자형태, 단서어휘, 형태소범주, 어휘)들로 구성된 규칙들을 추출한다. 패턴 규칙 추출 과정(S6016)은 다 어절의 정답유형을 대상으로 하고 있고, 규칙 추출 결과 단일 정답유형에서 중복된 규칙 추출이 가능하고 규칙화하기 부적합할 수 있는 규칙이 추출될 수 있으므로, 상기 패턴 필터링 과정(S6017)이 필수적으로 요구된다. 따라서, 아래와 같은 규칙 선택 접근 방법을 취한다. 여기서, rⁱ는 정답유형 범주 i의 어떤 규칙이라는 것을 말한다. count는 규칙 출현 횟수이다. 특정 범주 i에서 출현한 규칙 rⁱ를 전체 범주에서 출현한 횟수로 나누어 이 값이 특정 경계(threshold)값 α,β를 넘을 경우 이를 규칙으로 추출하게 된다. 다음 수학식 1은 은 규칙 가중치 식이다.

상기 정답 유형 규칙 추출에서 중요한 점들은 다음과 같다.

(1) 정답 유형 규칙이 정답유형 내부 어휘들에만 해당되지 않는다는 것이다. 즉, 외부 단서 어휘가 존재할 경우 이를 규칙으로 수용해야 되는 문제가 있다. 이 경우 외부 단서 어휘가 태깅 코퍼스에서 정답 유형 자질로 인식 되었을 경우만을 패턴규칙 대상으로 한다.

(2) 패턴 규칙으로 어휘를 사용할 근거가 부족하다는 점이다. 이 경우 패턴 규칙의 수준을 정하여 접근한다. 어휘를 패턴 규칙에 포함하면 그 규칙의 적용성이 떨어질 것이다. 이 경우 규칙 구성 자질 대상을 어휘 의미 자질까지 한정한다면 그 적용성을 향상할 수 있다.

(3) 패턴 규칙의 구성 내부 자질중 다중 내부 자질이 존재할 경우가 있다. 이 경우 자질 중의성 해소 결과를 이용한 단일 자질 이용을 원칙으로 한다.

(4) 현재 규칙은 결정적(deterministic) 적용을 원칙으로 한다.

도 5b는 정답유형 인식을 위한 패턴 규칙의 예제를 기술한다.

상기 패턴 규칙 기반 정답 유형 인식 과정(S600)에서 패턴 규칙은 '정답유형=어휘/의미/자질패턴'으로 구성된다. 예제에서 'DATE=[BC] 47 24'는 DATE유형의 패턴 정보가 '[BC] 47 24'라는 것이다. 여기서, '[BC]'는 어휘 'BC'를 말하고, 47은 WFID_OneDigitNum, 24는 FID_SuffixDate와 같은 자질을 말한다. 이러한 패턴 규칙은 정답유형 태깅 코퍼스로부터 자동으로 추출되어 구축된후 인식과정에서 FSA로 처리되어 정답유형을 인식한다.

도 15a는 도 11에서의 통계 기반 정답 유형 인식 과정의 상세 흐름도를 도시한 것이다.

먼저, 통계 정보 구축 과정(S701)이 수행되어 상위 정답 유형 λ벡터 DB(602)가 구축된다.

상위 정답 유형 자질 함수 추출부(601)는 상기 자질 중의성 해소 결과를 이용하여 상위 정답 유형 자질 함수를 추출하는 상위 정답 유형 자질 함수 추출 과정(S702)를 수행한다. 최대 확률 상위 정답 유형 범주 도출부(603)는 상기 통계 정보 구축 과정(S701)에서 구축된 상위 정답 유형 λ벡터 DB(602)에 저장된 상위 정답 유형 λ벡터와 상기 상위 정답 유형 자질 함수 추출 과정(S702)에서 추축된 상위 정답 유형 자질 함수를 이용하여 최대 확률 상위 정답 유형 범주를 도출하는 최대 확률 상위 정답 유형 범주 도출 과정(S703)을 수행한다.

도 15b는 상기 통계 정보 구축 과정(S701)의 상세 흐름도를 도시한 것이다.

정답유형 태깅 코퍼스가 입력되면(S7011), 형태소 분석 과정(S7012), 자질 할당 과정(S7013), 자질 중의성 해소 과정(S7014), 정답유형 자료구조 생성 과정(S7015), 상위 정답유형 자질 함수 추출 과정(S7016), 그리고 IIS알고리즘 수행 과정(S7017)과 상위 정답유형 λ벡터 DB 구축 과정(S7018)을 통해 상위 정답유형 λ벡터 DB(602) 구축의 결과물을 도출한다.

통계모델은 ME모델을 이용한다. NLP, IR, Speech 분야에서 최근 ME모델과 같은 conditional 또는 discriminative 확률 모델이 폭넓게 쓰이고 있다. 이 모델의 특징은 고성능을 보이면서 다양한 언어 자질을 통합하기 쉽다는 데 있으며, 언어 독립적인 NLP모듈의 자동 생성을 가능하게 한다는 장점 등이다. Discriminative 모델은 주어진 데이터를 기반으로 주어진 데이터의 숨겨진 구조에 대한 확률을 부여하는 반면, 기존의 n-gram 모델, Naive Bayes classifiers, HMM, PCFG와 같은 Joint(generative) 모델은 숨겨진 구조로부터 관찰 데이터를 생성하고 각 데이터와 숨겨진 구조 모두에 확률을 할당하는 방식이다. 일반적으로 NLP영역에서 conditional 모델의 성능이 joint 모델 계열보다 실험 결과가 더 우수하다는 것은 익히 알려진 사실이다.

ME 모델에서 자질들은 예측하기 위한 범주 x와 관찰값 y를 연결한 실수값을 가지는 indicator function(자질함수)으로 표현된다. 이는 f(x, y)로 표현되며 보 통 데이터의 자질값이 일치하면 1값을 갖고, 아니면 0값을 갖는다[2]. 즉, 자질 기반 모델에서는 특정 시점에서 활성화되는 자질들로 데이터에 대한 결정이 진행된다. 개체명 인식을 예를 든다면 자질들은 현재 어휘, 이전, 이후 어휘, 이전 클래스, 이전, 다음, 현재의 형태소 범주, 문자와 문자의 n-gram자질들 그리고 어휘 형태-대문자, 알파벳, 숫자 표현-등으로 구성된다. 이러한 자질들은 학습 데이터를 통해 자동으로 가중치를 할당 받아 통합 자질로 쓰이게 된다. 이러한 자질 함수들은 학습 데이터로 구축되고, 이들 데이터 f_i(x,y)는 IIS(iterative scaling algorithm)을 통해 해당 가중치λ_i를 갖게 되며 이들은 아래와 같은 수학식 2으로 적용되어 범주x의 예측에 활용된다.

도 6b는 통계 기반 정답유형 인식에서 사용되는 정답유형 대상 어휘의 문맥 자질에 대하여 기술 한다.

자질 구성은 형태소의 품사, 어휘, 자질단위, 주변형태소의 품사, 주변형태소의 어휘, 주변형태소의 자질 단위로 구성 가능하다. 여기서 자질함수 f(x, y)는 history y와 예측 정답유형 x로 구성된다. 여기서 x는 각 정답유형 범주마다, start, continue, end, unique로 세분화 된다. 이는 하나의 정답유형은 대부분 복합 형태소로 구성되기 때문에 필요한 인코딩 방식이다. PS_NAME을 예로 들면, PS_NAME_START, PS_NAME_CONTINUE, PS_NAME_END, PS_NAME_UNIQUE의 태깅 범주가 생성되는 것이다. 상기 표로부터 자질 함수 템플릿을 도출할 수 있다. 예를 들면 현재 형태소가 명사 NN일 경우, f(x, y) = {1 x=PERSON_START & y=NN, 0 else}의 자질함수가 가능하다.

도 6c는 최대 엔트로피 통계모델에 적용되는 문맥 자질 템플릿의 종류에 대하여 기술하고, 제 6d도는 최대 엔트로피 통계모델에 적용되는 자질 리스트와 이들 리스트의 가중치 할당 예제를 기술한다.

통계적 정답유형 인식에 사용되는 ME자질 템플릿으로 forward형태 9개, backward형태 9개, current 3개로 구성되어 있다. 템플릿은 X_i형태로 기술되어 있다. 여기서 X의 종류로 T는 정답유형 범주를, L은 어휘를, F는 자질을, P는 형태소 범주를 나타낸다. 그리고, i는 -1의 경우 이전 문맥, 0의 경우 현재 문맥, 1의 경우 이후 문맥을 나타낸다. 예를 들면, 도 6d에서 자질템플릿 유형+context+AT형태의 자질추출 결과(600d)를 보면, '101’아시아 0 65'에서 101은 자질 템플릿 유형 중 forward의 L_-1L₀T₀를 나타낸다. 여기서 L_-1은 '’'가 되고, L₀는 '아시아'가 되고, T₀는 '0 65'가 된다. 여기서 0은 start를 말하고 65는 LOCATION을 말한다. 즉 LOCATION_START를 나타내는 것이다.

이들 자질함수는 코퍼스로부터 자질 형태별로 도출되고, 빈도수가 계산된 후, IIS(improved iterative scaling)알고리즘을 통해 각 자질에 대한 가중치인 λ벡터를 도출하게 된다.

도 16a는 도 11에서의 정답 유형 세부 범주 인식 과정의 상세 흐름도를 도시한 것이다.

먼저, 통계 정보 구축 과정(S801)이 수행되어 세부 정답 유형 λ벡터 DB(702)가 구축된다. 세부 정답 유형 자질 함수 추출부(701)는 상기 ME 기반 정답 유형 인식 결과를 이용하여 세부 정답 유형 자질 함수를 추출하는 세부 정답 유형 자질 함수 추출 과정(S802)을 수행한다. 최대 확률 세부 정답 유형 범주 도출부(703)는 상기 세부 정답 유형 자질 함수 추출 과정(S802)에서 추출된 세부 정답 유형 자질 함수와 상기 세부 정답 유형 λ벡터 DB(702)에 저장된 세부 정답 유형 λ벡터를 이용하여 최대 확률 세부 정답 유형 범주를 도출하는 최대 확률 세부 정답 유형 범주 도출 과정(S803)을 수행한다.

상기 정답 유형 세부 범주 인식 과정(S800)은 대분류 정답유형 인식 과정과 그 학습과정이 동일하다. 다른 점이 있다면 인식 영역의 차이라 할 수 있다. 즉 대분류 DATE의 정답유형으로 인식된 결과를 세분류인 DT_DURATION, DT_DAY, DT_MONTH 등으로 재분류하는 기능을 수행한다. 그러나 사용자질 형태나 통계 자질 함수는 그 구조가 대분류 정답유형 인식과 동일하게 사용된다. 여기서 필수적으로 요구되는 것은 세분류로 태깅된 정답유형 태깅 코퍼스이다.

도 16b는 상기 통계 정보 구축 과정의 상세 흐름도를 도시한 것이다.

정답 유형 태깅 코퍼스가 입력되면(S8011), 어휘 자질 처리 과정(S8012), 세부 정답유형 자질 함수 추출 과정(S8013), IIS알고리즘 수행 과정(S8014) 및 세부 정답 유형 λ벡터 DB 구축 과정(S8015)를 통하여 세부 정답 유형 λ벡터 DB(702)가 생성된다.

본 발명은 세부 정답유형으로 태깅된 정답유형 태깅 코퍼스를 이용하여 대분류 정답유형을 학습하고, 동일 정답유형 태깅 코퍼스를 이용하여 세분류 정답유형을 학습한다. 이는 세분류 정답유형 태깅 결과가 대분류 정답유형으로 맵핑이 가능하기 때문이다. 따라서, 두 모듈의 학습 및 인식 방식에 있어 정답유형 태깅만을 제외하고 자질함수, 통계학습, 정답유형 인식 과정을 동일하게 가져갈 수 있는 방법을 제시한다.

도 8은 질의 응답 시스템에서 사용되는 정답 유형을 기술한 것이다.

구성은 15개의 대분류 정답유형과 각 대분류가 세분화 되어 총 160여개의 하위분류 정답유형으로 구성되어 있다. 이들은 질의응답 시스템의 다양한 질의를 처리하기 위하여 구성된 것이다. 이들의 다양한 정답유형을 인식하기 위하여 하나의 특정모델만을 사용한다는 것은 좋은 결과를 내기 어렵다고 본다. 따라서 본 발명은 사전검색, 패턴규칙, 통계모델, 하위범주인식 등과 같은 다양한 접근 방법을 동원하여 160개의 정답유형을 인식하는 시도를 한다.

도 9는 정답유형 인식을 위한 세부 자질 유형을 기술한 것이다.

세부 자질은 문자형 자질, 정답유형 자질, 결합명사/접사 자질, 인접명사 자질, 어휘 의미 자질로 구성되어 있다. 대상 어휘에 대한 세부 자질 유형은 기구축 자질 사전과 어휘 형태 파악을 이용하여 인식된다. 이들 인식 자질은 하나 이상으로 구성될 수 있으며 이들 인식 자질들은 대상 어휘와 연결되어 저장된다.

상기 문자형 자질은 어휘의 형태적 분류라 할 수 있겠다. 정답유형 중 수량 표현이나 날짜 등은 수량 표현 등과 같은 형태적 속성을 파악하면 쉽게 인식할 수 있다. WFID_OneDigitNum의 경우 하나의 숫자로 구성된 자질을 말하고, WFID_TwoDigitNum은 두자리로 구성된 숫자를 말한다.

상기 정답 유형 자질은 정답유형 사전 구축 결과를 이용하기 위한 자질로 정답유형별 사전 구축을 전제로 하고 있다. 예를 들면, 인명 리스트나 지역명 리스트등을 미리 구축하여 이들 사전을 자질 할당에 활용하는 것이다. FID_PS_NAME의 경우 인명 자질을 말하고, FID_FD_SCIENCE의 경우 과학 영역의 학문명 자질을 말한다.

상기 결합명사/접사자질은 정답유형 내부 구성 어휘들 중 빈번하게 사용되는 어휘나 접사들을 자질화 한 것이다. 이들의 예로는 '천원'에서 '원'과 같은 화폐 단위의 경우 자질값 'SuffixMoney'로 취급된다.

상기 인접명사 자질의 경우, 정답 유형 인접 구성 어휘들 중 빈번하게 사용되는 어휘들을 자질화 한 것이다. 이들의 예로는 '이건희 사장 '에서 '사장'은 인명(PERSON)의 지위를 나타내는 인접명사로 자질값 'PositionPERSON'으로 취급된다.

상기 어휘의미 자질의 경우, 기 구축된 어휘 의미 사전을 전제로 하고 있다. 어휘 의미 자질은 정답유형 대상어휘와 일반 명사와의 중의성 해소를 위해 필요하며, 패턴 규칙의 적용 대상 확장을 위해 요구된다. 인명 '이유'의 경우, 일반 명사 '이유'와 중의성을 갖는다. 어휘 의미 자질은 '이유'가 이러한 중의성을 갖고 있다는 것을 파악할 수 있기에 이런 중의성을 해소할 수 있는 여지를 남길 수 있게 한다.

도 10은 정답 유형 인식을 위한 다양한 언어 정보를 추출하기 위한 정답유형 태깅문서의 예제를 보여준다.

정답유형 대상 문서는 백과사전 영역을 대상으로 하고 있고, 정답유형은 <> 표시로 묶여있고 <정답유형 대상어휘:정답유형>의 형태로 기술되어 있다. 정답유형 태깅 문서는 이후 형태소 분석, 자질 할당, 자질 중의성 해소 및 정답유형 태깅 처리 과정을 통해 특정 정답유형의 문맥을 인식하는 과정으로 활용된다.

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다.

상술한 바와 같이 본 발명에 의한 하이브리드 정답유형 인식 장치 및 방법에 의하면, 본 발명은 질의응답 시스템을 위한 한국어 정답유형 인식을 위해 효율적 정답유형 사전 검색에 기반한 음절기반 정답유형 인식, 형태소별 자질 할당을 어휘 자질 인식, 다중 어휘 자질을 단일한 자질로 한정하는 어휘 자질 중의성 해소, 정규 형태로 구성된 정답유형 인식을 위한 패턴 규칙 기반 정답유형 인식, 정답유형 태깅 코퍼스로부터 통계정보를 수집하여 진행하는 통계 기반 정답유형 인식 그리고 대분류 인식 이후 이를 세분류로 재인식하는 정답유형 세부 범주 인식 기법을 통합한 하이브리드 접근 방법을 제시할 수 있다.

또한, 본 발명은 이를 통해 대량의 정답유형 범주를 요구하는 질의응답 영역에 적합한 정답유형 인식장치를 제시할 수 있다.

또한, 본 발명은 정답유형 인식의 성능향상을 위한 자질 중의성 해소 및 통계적 세부 범주 인식 기법은 기존 개체명 인식 시스템과 차별성 있는 접근 방법으로, 질의응답 시스템이나 텍스트마이닝 시스템과 같은 복잡한 정보추출 기술을 요구하는 응용 시스템의 기술적 한계를 극복할 수 있다.

Claims

입력 텍스트의 형태소를 분석하는 형태소 분석부와;

상기 형태소 분석부에서 분석된 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 그 추출된 음절을 기반으로 하여 정답 유형을 인식하는 음절 기반 정답 유형 인식부와;

상기 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하여 그 해당 자질을 인식하는 어휘 자질 인식부와;

상기 어휘 자질 인식부에서 인식된 하나 이상의 자질을 갖는 형태소들에 대하여 어휘 자질 중의성을 해소하는 어휘 자질 중의성 해소부와;

상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답 유형을 인식하는 패턴 규칙 기반 정답 유형 인식부와;

상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열에 통계 모델을 적용하여 정답 유형을 인식하는 통계 기반 정답 유형 인식부와;

상기 통계 기반 정답 유형 인식부에서 대분류로 인식된 정답 유형에 대한 정답 유형 세부 범주를 인식하는 정답 유형 세부 범주 인식부를 포함하여 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
제 1 항에 있어서,

상기 음절 기반 정답 유형 인식부는 상기 형태소 분석부에서 분석된 형태소 리스트 각각에 대해 고정 크기의 음절을 추출하는 음절 추출부와;

정답 유형 태깅 코퍼스에 태깅된 정답 유형들중 제1 일정 크기 이상의 정답 유형들에 대하여 제2 일정 크기의 음절 색인을 추출하여 구축된 음절 색인 DB와;

상기 음절 색인 DB를 조회하는 음절 색인 검색부와;

해당 음절별 정답 유형 엔트리를 추출하여 구축된 음절 기반 정답 유형 사전 DB와;

상기 음절 기반 정답 유형 사전 DB를 검색하여 정답 유형 어휘가 존재할 경우 음절 기반 정답 유형 인식 결과를 출력하는 정답 유형 사전 검색부로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
제 1 항에 있어서,

상기 어휘 자질 인식부는 기 구축된 자질 사전 DB와;

상기 자질 사전 DB를 검색하여 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하는 자질 할당부로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
제 1 항에 있어서,

상기 어휘 자질 중의성 해소부는 상기 중의성 자질 대상에서 자질 문맥 정보를 추출하는 자질 문맥 정보 추출부와;

정답 유형 자료 구조의 정보들을 이용하여 자질 문맥 통계 정보를 추출하여 기 구축된 자질 문맥 통계정보 DB와;

상기 자질 문맥 정보 추출부에서 추출된 자질 문맥 정보와 상기 자질 문맥 통계정보 DB에 기 저장된 자질 문맥 통계 정보를 이용하여 자질 중의성을 해소하는 자질 중의성 해소부로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
제 1 항에 있어서,

상기 패턴 규칙 기반 정답 유형 인식부는 패턴 규칙을 추출한 후 그 추출된 패턴들을 필터링하여 기 구축된 패턴 규칙 DB와;

상기 패턴 규칙 DB에 저장된 패턴 규칙을 로딩하는 패턴 규칙 로딩부와;

상기 패턴 규칙 로딩부에 의해 로딩된 패턴 규칙을 이용하여 FSA를 생성하는 FSA 생성부와;

상기 FSA 생성부에서 생성된 FSA 및 상기 자질 중의성 해소 결과를 이용하여 정답 유형을 인식한 후, 그 정답 유형 인식 결과를 출력하는 정답 유형 인식부로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
제 5 항에 있어서,

상기 패턴 규칙은 '정답 유형=어휘/의미/자질패턴'으로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
제 1 항에 있어서,

상기 통계 기반 정답 유형 인식부는 상기 자질 중의성 해소 결과를 이용하여 상위 정답 유형 자질 함수를 추출하는 상위 정답 유형 자질 함수 추출부와;

상위 정답 유형 자질 함수을 추출한 후 IIS 알고리즘을 통해 기 기축된 상위 정답 유형 λ벡터 DB와;

상기 상위 정답 유형 자질 함수 추출부에서 추출된 상위 정답 유형 자질 함수와 상기 상위 정답 유형 λ벡터 DB에 저장된 상위 정답 유형 λ벡터를 이용하여 최대 확률 상위 정답 유형 범주를 도출하는 최대 확률 상위 정답 유형 범주 도출부로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
제 1 항에 있어서,

상기 정답 유형 세부 범주 인식부는 상기 통계 기반 정답 유형 인식부에서 인식된 ME 기반 상위 정답 유형을 이용하여 세부 정답 유형 자질 함수를 추출하는 세부 정답 유형 자질 함수 추출부와;

세부 정답 유형 자질 함수를 추출한 후 IIS 알고리즘을 통해 기 구축된 세부 정답 유형 λ벡터 DB와;

상기 세부 정답 유형 자질 함수 추출부에서 추출된 세부 정답 유형 자질 함수와 상기 세부 정답 유형 λ벡터 DB에 저정된 세부 정답 유형 λ벡터를 이용하여 최대 확률 세부 정답 유형 범주를 도출하는 최대 확률 세부 정답 유형 범주 도출부로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 장치.
입력 텍스트의 형태소를 분석하는 형태소 분석 단계와;

상기 형태소 분석 단계에서 분석된 형태소 리스트 각각에 대해 일정 크기의 음절을 추출하여 그 추출된 음절을 기반으로 하여 정답 유형을 인식하는 음절 기반 정답 유형 인식 단계와;

상기 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하여 그 해당 자질을 인식하는 어휘 자질 인식 단계와;

상기 어휘 자질 인식 단계에서 인식된 하나 이상의 자질을 갖는 형태소들에 대하여 어휘 자질 중의성을 해소하는 어휘 자질 중의성 해소 단계와;

상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열을 기 구축된 패턴 규칙들과 비교하여 정답 유형을 인식하는 패턴 규칙 기반 정답 유형 인식 단계와;

상기 형태소들의 연속된 나열과 형태소에 연결된 구성 자질들의 연속된 나열에 통계 모델을 적용하여 정답 유형을 인식하는 통계 기반 정답 유형 인식 단계와;

상기 통계 기반 정답 유형 인식 단계에서 대분류로 인식된 정답 유형에 대한 정답 유형 세부 범주를 인식하는 정답 유형 세부 범주 인식 단계를 포함하여 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 9 항에 있어서,

상기 음절 기반 정답 유형 인식 단계는 학습 자료를 구축하여 음절 색인 DB와 음절 기반 정답 유형 사전 DB를 구축하는 학습 자료 구축 과정과;

상기 형태소 분석 단계에서 분석된 형태소 리스트 각각에 대해 고정 크기의 음절을 추출하는 음절 추출 과정과;

상기 학습 자료 구축 과정에서 구축된 상기 음절 색인 DB를 조회하는 음절 색인 검색 과정과;

상기 학습 자료 구축 과정에서 구축된 음절 기반 정답 유형 사전 DB를 검색하여 정답 유형 어휘가 존재할 경우 음절 기반 정답 유형 인식 결과를 출력하는 정 답 유형 사전 검색 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 10 항에 있어서,

상기 학습 자료 구축 과정은 정답 유형 태깅 코퍼스가 입력되면 음절 색인을 추출하여 음절 색인 DB를 구축하는 음절 색인 DB 구축 과정과;

상기 추출된 음절 색인을 이용하여 음절 기반 정답 유형 사전을 추출하여 음절 기반 정답 유형 사전 DB를 구축하는 음절 기반 정답 유형 사전 DB 구축 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 9 항에 있어서,

상기 어휘 자질 인식 단계는 기 구축된 자질 사전 DB를 검색하여 각 형태소 리스트의 구성 형태소별 해당 자질을 할당하는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 9 항에 있어서,

상기 어휘 자질 중의성 해소 단계는 학습 자료를 구축하여 자질 문맥 통계정보 DB를 구축하는 학습 자료 구축 과정과;

상기 중의성 자질 대상에서 자질 문맥 정보를 추출하는 자질 문맥 정보 추출하는 자질 문잭 정보 추출 과정과;

상기 자질 문맥 정보 추출 과정에서 추출된 자질 문맥 정보와 상기 자질 문맥 통계정보 DB에 기 저장된 자질 문맥 통계 정보를 이용하여 자질 중의성을 해소하는 자질 중의성 해소 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 13 항에 있어서,

상기 학습 자료 구축 과정은 정답 유형 태깅 코퍼스가 입력되면 그 정답 유형 태깅 코퍼스의 형태소를 분석하는 형태소 분석 과정과;

기 구축된 자질 사전을 이용하여 상기 형태소 분석 과정에서 분석된 각 형태소에 대하여 자질을 할당하는 자질 할당 과정과;

상기 형태소와 관련된 자질들과 태깅 정보로 부터 추출된 정답 유형 정보에 따라 정답 유형 자료 구조를 생성하는 정답 유형 자료 구조 생성과정과;

상기 정답 유형 자료 구조 생성과정의 정보들을 이용하여 자질 문맥 통계 정 보를 추출하여 상기 자질 문맥 통계 정보 DB를 구축하는 자질 문맥 통계 정보 DB 구축 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 9 항에 있어서,

상기 패턴 규칙 기반 정답 유형 인식 단계는 패턴 규칙을 구축하여 패턴 규칙 DB를 구축하는 패턴 규칙 구축 과정과;

상기 패턴 규칙 DB에 저장된 패턴 규칙을 로딩하는 패턴 규칙 로딩 과정과와;

상기 패턴 규칙 로딩 과정에 의해 로딩된 패턴 규칙을 이용하여 FSA를 생성하는 FSA 생성 과정과;

상기 FSA 생성 과정에서 생성된 FSA 및 상기 자질 중의성 해소 결과를 이용하여 정답 유형을 인식한 후, 그 정답 유형 인식 결과를 출력하는 정답 유형 인식과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 15 항에 있어서,

상기 패턴 규칙 구축 과정은 개체명 태깅 코퍼스가 입력되면, 그 개체명 태깅 코퍼스의 형태소를 분석하는 형태소 분석 과정과;

기 구축된 자질 사전을 이용하여 상기 형태소 분석 과정에서 분석된 각 형태 소에 대하여 자질을 할당하는 자질 할당 과정과;

상기 자질 할당 과정에서 할당된 자질의 중의성을 해소하는 자질 중의성 해소 과정과;

상기 형태소와 관련된 자질들과 태깅 정보로 부터 추출된 정답 유형 정보에 따라 정답 유형 자료 구조를 생성하는 정답 유형 자료 구조 생성과정과;

상기 정답 유형 자료 구조 생성과정의 정보들에서 패턴 규칙을 추출하는 패턴 규칙 추출 과정과;

상기 패턴 규칙 추출 과정에서 추출된 패턴들을 필터링하여 패턴 규칙으로 적합한 패턴들만을 규칙화하는 패턴 필터링 과정과;

상기 패턴 필터링 과정에서 필터링된 패턴들을 이용하여 패턴 규칙 DB를 구축하는 패턴 규칙 DB 구축 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 16 항에 있어서,

상기 패턴 규칙은 '정답 유형=어휘/의미/자질패턴'으로 구성되는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 9 항에 있어서,

상기 통계 기반 정답 유형 인식 단계는 통계 정보를 구축하여 상위 정답 유형 λ벡터 DB를 구축하는 통계 정보 구축 과정과;

상기 자질 중의성 해소 결과를 이용하여 상위 정답 유형 자질 함수를 추출하는 상위 정답 유형 자질 함수 추출 과정과;

상기 상위 정답 유형 자질 함수 추출 과정에서 추출된 상위 정답 유형 자질 함수와 상기 상위 정답 유형 λ벡터 DB에 저장된 상위 정답 유형 λ벡터를 이용하여 최대 확률 상위 정답 유형 범주를 도출하는 최대 확률 상위 정답 유형 범주 도출 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 18 항에 있어서,

상기 통계 정보 구축 과정은 정답 유형 태깅 코퍼스가 입력되면, 그 정답 유형 태깅 코퍼스의 형태소를 분석하는 형태소 분석 과정과;

기 구축된 자질 사전을 이용하여 상기 형태소 분석 과정에서 분석된 각 형태소에 대하여 자질을 할당하는 자질 할당 과정과;

상기 자질 할당 과정에서 할당된 자질의 중의성을 해소하는 자질 중의성 해소 과정과;

상기 형태소와 관련된 자질들과 태깅 정보로 부터 추출된 정답 유형 정보에 따라 정답 유형 자료 구조를 생성하는 정답 유형 자료 구조 생성과정과;

상기 정답 유형 자료 구조 생성과정의 정보들에서 상위 정답 유형 자질 함수를 추축하는 상위 정답 유형 자질 함수 추출 과정과;

상기 상위 정답 유형 자질 함수 추출 과정에서 추출된 상위 정답 유형 자질 함수를 이용하여 IIS 알고리즘을 수행하는 IIS 알고리즘 수행 과정과;

상기 IIS 알고리즘 수행 과정에서의 수행 결과를 이용하여 상위 정답 유형 λ벡터 DB를 구축하는 상위 정답 유형 λ벡터 DB 구축 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 9 항에 있어서,

상기 정답 유형 세부 범주 인식 단계는 통계 정보를 구축하여 세부 정답 유형 λ벡터 DB를 구축하는 통계 정보 구축 과정과;

상기 통계 기반 정답 유형 인식 단계에서 인식된 ME 기반 상위 정답 유형을 이용하여 세부 정답 유형 자질 함수를 추출하는 세부 정답 유형 자질 함수 추출 과정과;

상기 세부 정답 유형 자질 함수 추출 과정에서 추출된 세부 정답 유형 자질 함수와 상기 세부 정답 유형 λ벡터 DB에 저정된 세부 정답 유형 λ벡터를 이용하여 최대 확률 세부 정답 유형 범주를 도출하는 최대 확률 세부 정답 유형 범주 도출 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.
제 20 항에 있어서,

상기 통계 정보 구축 과정은 정답 유형 태깅 코퍼스가 입력되면, 그 정답 유형 태깅 코퍼스의 어휘 자질을 처리하는 어휘 자질 처리 과정과;

상기 어휘 자질 처리 과정에서 처리된 어휘 자질에서 세부 정답 유형 자질 함수를 추출하는 세부 정답 유형 자질 함수 추출 과정과;

상기 세부 정답 유형 자질 함수 추출 과정에서 추출된 세부 정답 유형 자질 함수를 이용하여 IIS 알고리즘을 수행하는 IIS 알고리즘 수행 과정과;

상기 IIS 알고리즘 수행 과정에서의 수행 결과를 이용하여 세부 정답 유형 λ벡터 DB를 구축하는 세부 정답 유형 λ벡터 DB 구축 과정으로 이루어 지는 것을 특징으로 하는 하이브리드 정답유형 인식 방법.