KR20060063345A

KR20060063345A - 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문분류 시스템 및 방법

Info

Publication number: KR20060063345A
Application number: KR1020040102494A
Authority: KR
Inventors: 황이규; 장명길
Original assignee: 한국전자통신연구원
Priority date: 2004-12-07
Filing date: 2004-12-07
Publication date: 2006-06-12
Also published as: KR100597435B1

Abstract

본 발명은 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템 및 방법에 관한 것으로서, 입력된 질문에 포함된 작품명을 인식하는 질문 작품명 처리와, 질문을 형태소분석, 개체명 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미 있는 코드로 변환하는 질문 언어분석 과정과, 질문의 의미 있는 LSP 형태 코드와 미리 정의된 질문분류 규칙을 이용하여 질문이 요구하는 정답 유형을 분류하는 규칙기반 질문분류 과정과, 질문의 정답유형이 태깅된 학습문서로부터 구축된 통계정보를 이용하여, 질문의 LSP 코드에 대한 분류를 수행하는 통계기반 질문분류 과정과, 규칙기반 질문분류와 통계기반 질문분류의 결과를 이용하여 최종적으로 사용자의 질문에 대한 정답의 유형을 판별하는 질문 정답유형 결정 과정을 진행함으로써 정보검색 및 질문응답에서 사용자의 질문에 대한 검색 결과인 방대한 문서로부터, 사용자가 원하는 정답만을 초점으로 할 수 있어, 정보검색 및 질문응답 시스템의 성능을 개선할 수 있다.

정보검색, 질문응답, 작품명 인식, 하이브리드 질문분류

Description

정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템 및 방법{SYSTEM AND METHOD FOR CLASSFYING QUESTION BASED ON HYBRID OF INFORMATION SEARCH AND QUESTION ANSWER SYSTEM}

도 1은 기존의 검색과정을 나타낸 도면,

도 2는 기존의 지지벡터기계 기반의 질의유형 분류기를 이용한 질문 분류 과정을 나타낸 도면,

도 3은 본 발명의 일실시예에 의한 하이브리드 기반 질문 분류 시스템 및 그 분류 방법을 나타낸 도면,

도 4는 본 발명의 사용자의 질문 분류에 대한 다양한 정답유형을 나타낸 도면,

도 5는 본 발명의 미리 구축한 작품명 사전과 고유코드의 관계를 나타낸 도면,

도 6 및 도 7은 구축된 작품명 좌/우 문맥 정보를 이용한 필터링 관계를 나타낸 도면,

도 8은 본 발명의 질문에 대한 언어분석 과정을 나타낸 도면,

도 9는 LSP 규칙의 예를 나타낸 도면,

도 10은 질문코퍼스의 예를 나타낸 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

10 : 질문 작품명 처리부 11 : 작품명 및 인식문맥 DB

20 : 질문 언어 분석부 21 : 언어분석 지식부 DB

30 : 규칙기반 질문분류부 31 : 질문분류규칙 DB

40 : 통계기반 질문분류부 41 : 질문코퍼스 통계정보 DB

50 : 질문 정답유형 결정부

본 발명은 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템 및 방법에 관한 것으로, 더욱 상세하게는 질문에 포함된 파라메타에서 질문이 요구하는 정답의 유형을 찾아, 질문을 분류하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템 및 방법에 관한 것이다.

정보검색 시스템에서, 사용자의 질의는 키워드의 나열로 이해되고, 키워드들 간의 관계는 불리언 연산에 따라 표현된다. 키워드 기반의 정보검색 시스템은 해당 키워드의 문서내 존재 여부 및 존재할 때, 색인과정에 부여된 키워드 빈도(TF; Term Frequency)나 역문헌 빈도(IDF; Inverse Document Frequency)와 같은 정보를 이용한 가중치를 이용한다. 이에 따라, 검색의 결과는 해당 키워드와 관련이 있는 문서 전체가 되며, 문서내에서 사용자가 원하는 부분을 찾는 것은 사용자의 노력이 필요하다. 그러나, 사용자는 문서내에 포함된 답을 직접적으로 검색시스템이 찾아주기를 원하며, 질의응답 시스템은 이러한 사용자의 목적을 만족시키기 위해, 질문이 요구하는 정답의 유형을 분류하기를 원한다.

기존에, 자연어로 입력된 사용자의 질문을 인공지능 시스템이 분석하여 인터넷에 존재하는 정보를 효과적으로 제시하는 서비스에 대한 방법이 제안된 바 있는데, 이는 사용자의 질문을 형태소 분석 및 어휘에 대한 유의어 사전을 통한 확장, 그리고 사용자 질문의 유형 분류를 통해 ‘정의형’, ‘법률’, ‘의료’, ‘교육’, ‘인터넷’ 등을 분류하고 있다.

또한, 문서 검색 시스템 및 질문 응답 시스템이 제안된 바 있는데, 여기에서는 질문응답 시스템을 위해 질문에서 키워드를 추출하고 있는데, 질문문이 나타내는 중심적인 주제에 관한 주요형태 키워드와 보충적인 정보에 관한 비주요형태 키워드를 추출한다. 예를 들어, “2002년에 개최된 FIFA 월드컵의 우승국은 어디입니까”에 대하여, ‘2002년’, ‘개최’, ‘FIFA’, ‘월드컵’, ‘우승’, ‘국가’, ‘어디’ 등을 얻는다. 이를 바탕으로, 각 검색 키워드에 키워드 형태를 부여하는데, ‘2002년’에는 날짜표현, ‘FIFA’에는 조직명 등의 의미표현을 부여한다. 또한, 질문에서 동사들을 구문적 속성에 따라 주된 동사와 보조동사로 분류하 기도 하며, 질문에 포함된 의문사를 이용하여 질문을 분류한다. 각 단어의 의미표현은 계층적 형태를 띄는데, 날짜의 경우, 연도/월/일/시간의 구조를 가지며, 장소의 경우, 국가/도도부현/시구정촌/번지 레벨을 가지고 있다.

“2002년에 개최된 FIFA 월드컵의 우승국은 어디입니까?”에 대한 처리 과정 및 그 결과는 도 1과 같다. 도 1에서와 같이, 개개의 단어에 대한 의미속성을 이용하여 키워드 형태를 부여하고, 의문사 ‘어디’ 및 ‘국’과 같은 개개 키워드의 의미형태를 이용하여 질문 형태를 분류하여 “장소”에 관한 질문임을 찾아내고 있다.

그리고, 한국어 질의응답시스템을 위한 지지벡터기계 기반의 질의유형 분류기가 제안된 바 있는데, 이 질의유형분류기는 질문분류를 위한 질문코퍼스로부터 자질추출과 자질 선택, 자질 가중치 할당과 학습을 통해 지지벡터기계를 생성하고, 이를 이용하여 질문의 유형을 결정하는 것이다. 이는 크게 질의 학습 부분과 질의분류 과정으로 나누어지며, 구체적인 흐름은 도 2와 같다.

질의유형 분류를 위해 각 단어를 개체명 인식 및 의미 표지 부착 과정을 거치게 하는데, 각 어휘는 다음 네가지 중 하나로 분류된다.

- 고유명사: 인명, 국가명, 도시명, 기관명 등

- 일반명사: 직책, 취미, 직위 등

- 단위명사: km, m, kg, g, mg 등

- 기타: 질의응답 시스템에 필요한 특수 단어

도 2에 도시된 바와 같이, 학습 질의 세트에 있는 질문에서 개개의 단어를 개체명 인식 및 의미표지 부착을 통해 코드화하고, 이를 이용하여 벡터를 형성한 후, 각 질의 유형에 따른 지지벡터를 학습하여, 이를 이용하여 질문을 분류한다.

그런데, 이 한국어 질의응답시스템을 위한 지지벡터기계 기반의 질의유형 분류기는 통계기반의 모델로, 대용량의 학습 질문 구축이 필요하며, 질문의 정답유형이 다양할수록, 자료부족 문제가 발생하는 단점이 있었다. 또한, 통계적 모델만을 사용함으로써, 새로운 질문 정답 유형의 확장이 어렵고, 질문분류 시스템의 튜닝에 어려운 문제가 있었다.

한편, 자연어로 입력된 사용자의 질문을 인공지능 시스템이 분석하여 인터넷에 존재하는 정보를 효과적으로 제시하는 서비스에 대한 방법이 제안된 바 있는데, 이는 질문의 분류 체계가 ‘정의형’, ‘법률’, ‘의료’, ‘교육’, ‘인터넷’으로 아주 단순하며, 질문이 요구하는 정답의 유형을 찾기보다는 질문 그 자체가 해당하는 범주를 찾는 방법이다. 여기에서는 개개의 어휘에 의미속성을 부여하고, 의미속성과 의문사를 결합하여 질문의 유형을 분리하는 것으로, 구체적인 규칙이나 통계모델과 같은 정형화되고 체계적인 방법보다는 휴리스틱(Heuristic) 정보를 활용하여 질문을 분류하고 있다.

이와 같이, 기존의 방법들에서는 질문에 포함된 다양한 작품명(영화, 드라마, 소설, 희곡, 오페라, 음악 등의 예술적 분야에서의 작품의 이름; 한 단어 이상 으로 구성되며, 질문의 분석에서 개별적인 어휘는 의미가 없음)의 인식이 없이 질문을 처리함으로써 질문분류의 정확성에 문제가 있었다.

따라서, 본 발명의 목적은 상기한 종래 기술의 문제점을 해결하기 위해 이루어진 것으로서, 질문에 포함된 작품명의 인식과, 어휘, 중요 어휘의 포함관계 및 배제 관계, 품사, 의문사, 어휘의 의미적 분류 및 어휘의 개체유형에 따라 질문이 요구하는 정답의 유형을 찾아, 질문을 분류하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템 및 방법을 제공하는데 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템은, 입력된 질문에 포함된 작품명을 인식하는 질문 작품명 처리부; 질문을 형태소분석, 개체명 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미 있는 코드로 변환하는 질문 언어분석부; 질문의 의미 있는 LSP 형태 코드와 미리 정의된 질문분류 규칙을 이용하여 질문이 요구하는 정답 유형을 분류하는 규칙기반 질문분류부; 질문의 정답유형이 태깅된 학습문서로부터 구축된 통계정보를 이용하여, 질문의 LSP 코드에 대한 분류를 수행하는 통계기반 질문분류부; 및 규칙기반 질문분류와 통계기반 질문분류의 결과를 이용하여 최종적으로 사용자의 질문에 대한 정답의 유형을 판별하는 질문 정답유형 결정부를 포함 하여 이루어진 것을 특징으로 한다.

한편, 본 발명의 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법은, 입력된 질문에 포함된 작품명을 인식하는 질문 작품명 처리 단계; 질문을 형태소분석, 개체명 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미 있는 코드로 변환하는 질문 언어분석 단계; 질문의 의미 있는 LSP 형태 코드와 미리 정의된 질문분류 규칙을 이용하여 질문이 요구하는 정답 유형을 분류하는 규칙기반 질문분류 단계; 질문의 정답유형이 태깅된 학습문서로부터 구축된 통계정보를 이용하여, 질문의 LSP 코드에 대한 분류를 수행하는 통계기반 질문분류 단계; 및 규칙기반 질문분류와 통계기반 질문분류의 결과를 이용하여 최종적으로 사용자의 질문에 대한 정답의 유형을 판별하는 질문 정답유형 결정 단계를 포함하여 이루어진 것을 특징으로 한다.

이와 같이, 본 발명에서 제안하는 시스템 및 방법은 사용자의 질문에서 나타나는 어휘에 나타나는 의미적 특성 및 통계적 특성을 이용하여, 질문이 요구하는 정답의 의미적 부류를 결정하는 것이다.

즉, 본 발명은 정보검색 및 질문응답 시스템에서, 사용자의 자연어 질문에 대하여, 질문이 요구하는 정답의 의미적 분류를 사전에 정의하고, 사용자의 질문이 요구하는 정답의 유형을 실시간으로 자동 분류함으로써, 질문에 대해 적절한 문서를 찾는 것이 아니라, 문서 내에서 질문의 정답을 찾는데 도움을 주기 위한 질문 분류 방법이다. 예컨대, “에버랜드를 운영하는 기업은 어디인가요?”라는 질문에 대해, “회사이름”을, “훈민정음의 보급책의 일환으로 만든 책은?”에 대해서는 “작품이름”이라는 질문이 요구하는 정답의 유형을 찾아, 질문을 분류하는 것으로, 이를 위하여, 1) 사용자가 질문할 가능성이 있는 질문에 대한 정답의 유형을 미리 정의하고, 2) 질문에 포함되며, 개개의 단어는 의미를 가지지 않지만, 결합하여 의미있는 단위로 작용하는 작품명을 인식하며, 3) 각 질문의 정답 유형에 대해, 정교하며 유연성이 있는 규칙을 통해 질문의 유형을 분류하고, 4) 통계적 방법에 의해 규칙에 의해 결정되지 않는 질문의 정답유형을 분류하는 질문의 자동 분류 방법 및 그 장치에 관한 것이다.

이하, 본 발명의 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템 및 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 3은 본 발명의 일실시예에 의한 하이브리드 기반 질문 분류 시스템 및 그 분류 방법을 나타낸 도면이다. 도 3에 도시된 바와 같이, 본 발명의 하이브리드 기반 질문 분류 시스템은, 크게 질문에 나타난 작품명(책이름, 연극/영화제목, 음악명 등 하나 이상의 단어로 이루어진 타이틀)을 인식하는 질문 작품명 처리부(10)와, 질문을 형태소 분석, 개체명 인식, 개념망에 기반한 어휘의미 부착 및 어휘의미 분류를 수행하는 질문 언어분석부(20)와, 수작업으로 작성한 질문분류규칙을 이용한 규칙기반 질문분류부(30)와, 질문의 정답유형을 태깅한 문서로부터 학습한 통계정보를 이용한 통계기반 질문분류부(40)와, 최종적으로 질문의 정답유형 결정부(50)로 이루어져 있다.

여기에, 상기 질문 작품명 처리부(10)에는 작품명을 인식하기 위한 작품명 테이블 및 작품명 좌/우 문맥 규칙을 저장한 작품명 및 인식문맥 DB(11)가 더 마련되며, 상기 질문 언어분석부(20)에는 질문언어분석을 위한 언어분석지식 DB(개체명 사전, 개체명 인식문맥, 어휘개념망, 명사 의미분별을 위한 상호정보)(21)가 더 마련되며, 상기 규칙기반 질문분류부(30)에는 규칙기반 질문분류를 위한 LSP(Lexico-Semantic Pattern) 기반의 질문분류규칙 DB(31)가 더 마련되며, 상기 통계기반 질문분류부(40)에는 Naive- Bayesian을 이용한 통계기반 질문분류를 위해 학습문서로부터 자동으로 학습한 질문코퍼스 통계정보 DB(41)가 더 마련되어 있다.

이 시스템을 이용한 하이브리드 기반 질문 분류 방법은, 크게 질문 작품명 처리 단계(S10), 질문 언어분석 단계(S20), 규칙기반 질문분류 단계(S30), 통계기반 질문분류 단계(S40), 질문 정답유형 결정 단계(S50)로 진행되게 된다.

상기한 과정에 의한 결과로, 사용자의 질문 분류의 결과는 도 4에 일부를 보인 다양한 정답의 유형이 될 수 있다. 각 단계와 관련된 처리 방법 및 사용되는 지식을 살펴보면 아래와 같다.

- 작품명 처리 단계(S10)

정보검색 및 질의응답을 위한 시스템에서, 사용자의 질문에는 작품명과 같은 단어들이 표현될 수 있다. 예를 들어, “영화 바람과 함께 사라지다의 여자 주인공은 누구였나요?”와 같은 질문에서 사용자는 ‘바람과 함께 사라지다’를 위해 특별한 괄호를 표시하지 않고 질문을 할 것이다 여기서, 상기 “작품명”이라 함은 연극, 영화, 소설, 음악, 드라마 등의 다양한 장르에서 널리 사용되는 제목을 통칭한다. 이때, 검색 단계에서 ‘바람’, ‘사라지다’ 등을 개별적인 키워드로 하여 문서 검색을 수행하면 원하지 않는 답을 얻게 된다. 이에 작품명처리단계(10)에서는 도 5에서와 같이 미리 구축한 작품명 사전과 고유코드를 이용하여, 질문을 작품명으로 변환한다. 예를 들어, “영화 ET의 장르는 무엇인가요?”에서, ‘ET’와 ‘장르’는 작품명 사전에 있으며, 이를 “영화 햇햇24191의 햇햇49126는 무엇인가요?”와 같이 자동 변환한다. ‘장르’는 실제 작품명에 있을 수 있지만, 질문의 문맥 상황에서는 작품명이 아니며, 도 6 및 도 7에서와 같이 구축된 작품명 좌/우 문맥 정보를 이용하여 필터링 된다. 따라서, 최종적으로는 “영화 햇햇24191의 장르는 무엇인가요?”와 같은 결과를 만들어 낸다. 작품명 및 인식문맥 DB(11)은 작품명 사전을 이용하여, 웹으로부터 반자동 구축하여 이용할 수 있다.

- 질문 언어분석 단계(S20)

질문을 언어분석하여 질문분류를 하는데 이용한다. 도 8은 본 발명의 질문에 대한 언어분석 과정을 나타낸 도면이다. 도 8에 도시된 바와 같이, 형태소분석 단계(S201)에서는 형태소 사전(2011)을 이용하여 각 형태소의 품사를 결정하며, 형태소가 의문사일 경우, 이에 대한 정보를 부여한다. 개체명 인식단계(S202)에서는 미리 정의한 160 여개의 의미적 분류를 개체명으로 정의하고, 이에 대한 인식을 수행한다. 도 4에서 보는 바와 같이, 개체명은 인명, 학술분야명, 이론, 인공물, 조직명, 지명, 문화/문명, 날짜, 시간, 수량, 사건, 동물, 식물, 물질, 전문용어에 대 해 상세히 분류하였다. 개체명 사전(2021)은 160여 개체 분류에 대한 사전을 구축한 것이다. 어휘의미태깅 단계(S203)에서는 명사 어휘 개념망(2031)을 이용하여 각 명사에 개념을 할당한다. 어휘의미 분별단계(S204)에서는 어휘의미태깅 단계(S203)에서 부착한 정보중 유일한 하나의 어휘 의미를 결정한다. 이를 위해, 대용량 코퍼스로부터 한 문장에 공기하는 어휘들간의 상호정보(2041)를 얻어 활용한다. 예를 들어 질문 “사찰에서 대문 역할을 하는 문은?”에서 ‘문’은 ‘#모양’, ‘#시설물’, ‘#단위’ 등의 의미로 이용되며, 이 질문에서는 ‘#시설물’의 의미로 분별되어야 한다.

- 규칙기반 질문분류 단계(S30)

규칙기반의 질문분류를 위하여 LSP(Lexico-Semantic Pattern) 형태의 질문 분류 규칙을 이용한다. 질문에 포함된 각각의 어휘는 언어분석 단계에서 어휘의 특성에 따라 LSP 형태로 코드화된다. LSP 형태는, 질문에 포함된 단어를 품사, 어휘, 개체명, 의문사, 의미코드 등으로 변환하는 과정을 말한다. 즉, 질문을 LSP로 변환하고, 미리 정의한 LSP 규칙과 비교하여, 질문의 유형을 분류하는 것이다. 이를 위해 여러 연산자를 정의하였으며, 사용된 연산자는 다음과 같다. 아래 연산자를 사용하여 규칙을 작성하고, 질문을 아래 연산자를 바탕으로 구성한다.

- ^어휘: 실제 어휘 정보

* 예) 식물 --> ^식물, 직업 --> ^직업

* 질문에 나타난 실제 어휘를 일치시킴.

- !품사: 어휘의 형태소 품사 정보

* 예) 용어 --> !nc, 다르 --> !pa, 가 --> !jc, 았 --> !ep

* 질문에 나타난 어휘의 품사를 일치시킴.

- @의문사: 어휘의 의문사 여부

* 예) 무슨 --> @무슨, 언제 --> @언제

- &개체명: 어휘가 개체유형중 하나임

* 예) 영국 --> &LC_COUNTRY, 종달새 --> &AM_BIRD

* 질문에 나타난 어휘가 속하는 개체형을 일치시킴.

- #의미: 어휘의 의미표현

* 예) 문 --> #시설물, 긴축 --> #감소

* 질문에 나타난 어휘의 의미표현을 일치시킴

- %어휘: 어휘 포함관계

* 예) 대학교 --> %학교, 초등학교 --> %학교

* 질문에 나타난 어휘의 부분포함관계를 일치시킴

- ^$: 질문의 끝을 나타내는 특수 기호

- 각 연산자는 아래와 같은 선택 및 포함 연산자에 의해 결합될 수 있다.

* [@무엇] : ‘[’와 ‘]’안의 정보는 생략 가능

* {@무엇} : ‘{’와 ‘}’안의 정보는 질문분류에 중요한 정보

* <@무엇>: ‘<’와 ‘>’안의 정보는 나와서는 안됨

* ‘|’: 선택 가능

위의 표현 방식에 따른 LSP 규칙의 예는 도 9와 같다. 언어분석단계를 통해, 질문을 LSP 형태로 변환하고, 구축된 LSP 규칙과 비교하여 질문이 요구하는 정답의 유형을 분류한다. 예를 들어, “헤밍웨이는 어떤 소설을 썼나?” 는 언어분석 단계를 거쳐 “&PS_NAME !jx @어떤 #책 !jc !pv !ep !ef”와 같은 열로 변환되고, LSP규칙과 비교하여, “@어떤 #책”이 부분적으로 일치하므로, “AF_WORKS”를 찾는 질문으로 분류하게 된다. 한 질문은 여러 규칙과 부분적으로 일치할 수 있으며, 개개의 규칙은 LSP의 의미에 따라 가중치를 부여하며, 가중치의 합에 따른 결과를 정렬하여 질문의 최종적인 분류로 간주한다.

- 통계기반 질문분류(S40)

질문을 분류할 때, LSP 기반으로 분류할 수 없는 경우가 있다. 예를 들어, “관상용 열대어 중 가장 작은 종은?”와 같은 질문은 정답유형을 분류하는데 중요한 정보가 다른 단어에 의해 분리되어 있다. 이러한 경우는 패턴으로 분류하기 어려우며, 질문에 포함된 자질을 벡터 형태로 간주하는 통계기반 질문 분류를 수행한다. q를 질문, at를 질문의 정답유형, t를 질문에 포함된 여러 정보(개체명, 의미태깅, 품사, 의문사, 어휘 등), n을 전체 학습 질문의 크기라고 할 때, P(at|q)는 주어진 질문 q에 대한 질문의 정답유형 at를 찾는다. 이를 위해 질문에 질문이 요구하는 정답유형을 부착한 학습문서(도 8)를 이용하여, 각 q에서 t가 at와 가지는 통계적 정보를 학습하고, 이를 바탕으로 Naive Bayesian 모델을 이용하여 P(at|q)의 값을 구한다.

--- 식(1)

이때, 직접적으로 계산할 수 없고, 확률이 0인 경우를 고려하여, 위의 식을 다음과 같은 식으로 변형하여 질문에 대한 정답유형을 분류한다.

--- 식(2)

- 질문의 정답유형 결정(S50)

규칙기반의 질문분류를 통해 임계값(threshold) 이상의 가중치를 가지면 규칙기반의 질문분류 값을 이용하지만, 임계값 이하일 경우, 통계기반의 질문분류 결과를 이용한다. 다만, 통계기반의 질문분류에서도 학습을 통해 얻어진 임계값 이하일 경우, 질문에 대한 분류를 포기하고, 질문의 가장 뒤 어휘에서부터, 그 어휘가 가지는 의미표현을 질문분류의 결과값으로 반환한다.

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.

상술한 바와 같이, 본 발명에 의한 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템 및 방법은, 사용자가 원하는 정답이 포함된 문서를 축소하거나, 실제 문서로부터 개체명 인식과 단락검색 같은 과정을 거쳐 정답을 직접 추출하는데 도움을 줄 수 있어, 정보검색이나 질문응답 시스템의 정확성을 향상시킬 수 있다.

Claims

입력된 질문에 포함된 작품명을 인식하는 질문 작품명 처리부;

질문을 형태소분석, 개체명 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미 있는 코드로 변환하는 질문 언어분석부;

질문의 의미 있는 LSP 형태 코드와 미리 정의된 질문분류 규칙을 이용하여 질문이 요구하는 정답 유형을 분류하는 규칙기반 질문분류부;

질문의 정답유형이 태깅된 학습문서로부터 구축된 통계정보를 이용하여, 질문의 LSP 코드에 대한 분류를 수행하는 통계기반 질문분류부; 및

규칙기반 질문분류와 통계기반 질문분류의 결과를 이용하여 최종적으로 사용자의 질문에 대한 정답의 유형을 판별하는 질문 정답유형 결정부

를 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템.
제 1 항에 있어서, 상기 질문 작품명 처리부는 작품명을 인식하기 위한 작품명 테이블 및 작품명 좌/우 문맥 규칙을 저장한 작품명 및 인식문맥 DB를 더 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템.
제 1 항에 있어서, 상기 질문 언어분석부에는 질문언어분석을 위한 개체명 사전, 개체명 인식문맥, 어휘개념망, 명사 의미분별을 위한 상호정보를 포함하는 언어분석지식 DB를 더 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템.
제 1 항에 있어서, 상기 규칙기반 질문분류부는 규칙기반 질문분류를 위한 LSP(Lexico-Semantic Pattern) 기반의 질문분류규칙 DB(31)를 더 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템.
제 1 항에 있어서, 상기 통계기반 질문분류부는 Naive- Bayesian을 이용한 통계기반 질문분류를 위해 학습문서로부터 자동으로 학습한 질문코퍼스 통계정보 DB를 더 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 시스템.
입력된 질문에 포함된 작품명을 인식하는 질문 작품명 처리 단계;

질문을 형태소분석, 개체명 인식, 어휘 의미태깅 과정을 통해 개개의 어휘를 의미 있는 코드로 변환하는 질문 언어분석 단계;

질문의 의미 있는 LSP 형태 코드와 미리 정의된 질문분류 규칙을 이용하여 질문이 요구하는 정답 유형을 분류하는 규칙기반 질문분류 단계;

질문의 정답유형이 태깅된 학습문서로부터 구축된 통계정보를 이용하여, 질문의 LSP 코드에 대한 분류를 수행하는 통계기반 질문분류 단계; 및

규칙기반 질문분류와 통계기반 질문분류의 결과를 이용하여 최종적으로 사용자의 질문에 대한 정답의 유형을 판별하는 질문 정답유형 결정 단계

를 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.
제 6 항에 있어서, 상기 질문 작품명 처리 단계는,

미리 구축한 작품명 사전과 고유코드를 이용하여 질문을 작품명으로 변환하는 단계;

상기 변환된 질문에 대해 구축된 작품명 좌/우 문맥 정보를 이용하여 작품명 이외의 영역을 필터링하는 단계; 및

상기 필터링된 질문을 출력시키는 단계

를 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.
제 6 항에 있어서, 상기 질문 언어분석 단계는,

형태소 사전을 이용하여 각 형태소의 품사를 결정하는 단계;

미리 정의한 다수개의 의미적 분류를 개체명으로 정의한 개체명 사전을 이용 하여 개체명에 대한 인식을 수행하는 단계;

명사 어휘 개념망을 이용하여 각 명사에 개념을 할당하는 단계; 및

대용량 코퍼스로부터 한 문장에 공기하는 어휘들간의 상호정보를 통해 어휘 의미태깅 과정에서 부착한 정보중 유일한 하나의 어휘 의미를 결정하는 단계

를 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.
제 8 항에 있어서, 상기 개체명은 인명, 학술분야명, 이론, 인공물, 조직명, 지명, 문화/문명, 날짜, 시간, 수량, 사건, 동물, 식물, 물질, 전문용어를 포함하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.
제 6 항에 있어서, 상기 규칙기반 질문분류 단계는,

상기 질문 언어분석 단계에서 질문에 포함된 각 어휘의 특성에 따라 미리 정의한 LSP 규칙과 비교하여 LSP 형태로 코드화하되, 질문의 유형을 분류하기 위해 질문에 연산자를 포함시켜 구성한 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.
제 6 항에 있어서, 상기 통계기반 질문분류 단계는,

질문에 질문이 요구하는 정답유형을 부착한 학습문서를 이용하여, 각 변수가 가지는 통계적 정보를 학습하고, 주어진 질문에 대한 질문의 정답유형을 다음의 식(1)을 이용하여 찾는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.

--- 식(1)

여기서, q는 질문, at는 질문의 정답유형, t는 질문에 포함된 개체명, 의미태깅, 품사, 의문사, 어휘 등의 정보, n은 전체 학습 질문의 크기를 각각 의미한다.
제 6 항 또는 제 11 항에 있어서, 상기 통계기반 질문분류 단계는,

확률이 0인 경우를 고려하여, 다음의 식(2)로 질문에 대한 정답유형을 분류하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.

--- 식(2)
제 6 항에 있어서, 상기 질문 정답유형 결정 단계는,

규칙기반의 질문분류와 통계기반의 질문분류 중에서 임계값을 만족하는 질문분류만을 선택적으로 질문의 정답유형으로 결정하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.
제 6 항 또는 제 13 항에 있어서, 상기 질문 정답유형 결정 단계는,

규칙기반의 질문분류와 통계기반의 질문분류에서 학습을 통해 얻어진 결과값이 임계값 이하일 경우, 질문에 대한 분류를 포기하고, 질문의 가장 뒤 어휘에서부터, 그 어휘가 가지는 의미표현을 질문분류의 결과값으로 반환하는 것을 특징으로 하는 정보검색 및 질문응답시스템에서의 하이브리드 기반 질문 분류 방법.