KR101992399B1

KR101992399B1 - 하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법

Info

Publication number: KR101992399B1
Application number: KR1020160084736A
Authority: KR
Inventors: 이형직; 김현기; 박상규; 배용진; 이충희; 임수종; 임준호; 장명길; 최미란; 허정
Original assignee: 한국전자통신연구원
Priority date: 2016-07-05
Filing date: 2016-07-05
Publication date: 2019-06-24
Also published as: KR20180004960A; US20180011927A1

Abstract

자연어 질의 응답 방법이 제공된다. 이 방법은, 입력된 질문으로부터 질문 공리를 생성하는 단계; 상기 입력된 질문으로부터 정답후보들을 생성하는 단계; 상기 질문 공리와 상기 정답후보들 간의 유사도를 기반으로 상기 정답후보들을 필터링 하는 단계; 귀납적 추론, 연역적 추론 및 귀추적 추론 방식 중 적어도 하나의 추론 방식을 이용하여 상기 정답후보들을 추론하는 단계; 상기 정답후보들의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 정답후보들의 순위를 결정하는 단계; 및 1순위로 결정된 정답후보의 신뢰도와 2순위로 결정된 정답후보의 신뢰도 간의 신뢰도 비율과 임계치를 비교한 비교 결과에 따라 상기 결정된 순위를 재조정하고, 재조정된 1순위의 정답후보를 최종 정답으로 출력하는 단계를 포함한다.

Description

하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법{HYBRID REASONING BASED NATURAL LANGUAGE QUERY AND ANSWER SYSTEM AND METHOD THEREOF}

본 발명은 하이브리드 추론 기반의 자연어 질의 응답 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 사용자의 자연어 질의에 대한 최적의 응답을 제공하는 자연어 질의 응답 시스템 및 그 방법에 관한 것이다.

기존의 질의응답 시스템은 사용자의 자연어 질문을 분석하고, 그 분석 결과를 기반으로 정답 타입과 제약 정보들을 분석하고, 질문 내의 핵심 키워드들 기반의 문서 검색(document retrieval)과 지식베이스(knowledge base)에 액세스하는 쿼리를 이용하여 수많은 정답후보들을 생성한다.

이러한 기존의 질의응답 시스템은 생성된 정답후보들을 대상으로 질문에서 요구하는 정답 타입과 제약 정보, 질문의 문맥과 가장 유사한 정답후보들을 순위화 함으로써 최종 정답을 추론한다.

이와 같은 기존의 질의응답 시스템에서는, 질문을 가장 잘 설명하는 정답후보가 정답이 되는 귀납적 추론 방법(inductive reasoning)이 이용되고 있으며, IBM의 DeepQA 시스템이 그 대표적인 예이다.

DeepQA와 같은 귀납적 추론 기반의 질의 응답 시스템에서는, 확률적으로 가장 높은 정답후보를 정답으로 추론하기 때문에, 소수의 정답 추론에 위배되는 정답후보를 정답으로 추론하는 경우들이 빈번하기 때문에, 정답에 대한 높은 신뢰성을 보장할 수 없다.

따라서, 본 발명의 목적은 귀납적 추론 방법뿐만 아니라 연역적 추론 방법 및 귀추적 추론 방법을 모두 이용한 정답 추론 과정을 기반으로 최적의 정답을 검출하고, 검출된 정답을 한번 더 검증하여 오답의 확률을 줄일 수 있는 하이브리드 추론 기반의 자연어 질의 응답 시스템 및 그 방법을 제공하는 데 있다.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 자연어 질의 응답 방법은, 텍스트 함의 인식 과정을 이용하여, 입력된 질문으로부터 질문 공리를 생성하는 단계; 정형 지식베이스 및 비정형 지식베이스를 기반으로 상기 입력된 질문으로부터 정답후보들을 생성하는 단계; 상기 질문 공리와 상기 정답후보들 간의 유사도를 기반으로 상기 정답후보들을 필터링 하는 단계; 귀납적 추론, 연역적 추론 및 귀추적 추론 방식 중 적어도 하나의 추론 방식을 이용하여 상기 정답후보들을 추론하는 단계; 상기 질문 공리, 상기 필터링된 정답후보들, 상기 추론된 정답후보들을 자질로 이용하여, 상기 정답후보들의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 정답후보들의 순위를 결정하는 단계; 및 1순위로 결정된 정답후보의 신뢰도와 2순위로 결정된 정답후보의 신뢰도 간의 신뢰도 비율과 임계치를 비교한 비교 결과에 따라 상기 결정된 순위를 재조정하고, 재조정된 1순위의 정답후보를 최종 정답으로 출력하는 단계를 포함한다.

본 발명의 다른 일면에 따른 자연어 질의 응답 시스템은, 텍스트 함의 인식 과정을 이용하여, 입력된 질문으로부터 질문 공리를 생성하는 질문 공리 생성 모듈; 정형 지식베이스 및 비정형 지식베이스를 기반으로 상기 입력된 자연어 질문으로부터 정답후보들을 생성하는 정답후보 생성 모듈; 상기 질문 공리와 상기 정답후보들 간의 유사도를 기반으로 상기 정답후보들을 필터링 하는 정답후보 필터링 모듈; 귀납적 추론, 연역적 추론 및 귀추적 추론 방식 중 적어도 하나의 추론 방식을 이용하여 상기 정답후보들을 추론하는 정답 추론 모듈; 상기 질문 공리, 상기 정답후보들, 상기 필터링된 정답후보들, 및 상기 추론된 정답후보들을 자질로 이용하여 상기 정답후보들의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 정답후보들의 순위를 결정하는 신뢰도 추론 유닛; 및 상기 신뢰도 추론 유닛에서 1순위로 결정된 정답후보의 신뢰도와 2순위로 결정된 정답후보의 신뢰도 간의 신뢰도 비율과 임계치를 비교한 비교 결과에 따라 상기 신뢰도 추론 유닛에서 결정된 순위를 재조정하고, 재조정된 1순위의 정답후보를 최종 정답으로 검증하는 정답 검증 모듈을 포함한다.

본 발명에 따르면, 귀추적, 연역적, 귀납적 정답후보 추론 방식을 모두 이용하여 자연어 질문에 대한 정답후보들의 신뢰도를 확률적으로 추론하고, 확률적으로 추론된 신뢰도 기반의 정답후보들과 질문 공리(Axiom) 간의 유사도를 기반으로, 확률적으로 추론된 신뢰도 기반의 정답후보들을 다시 검증함으로써, 질문의 공리에 위배됨에도 불구하고, 확률적으로 신뢰도가 가장 높은 정답후보를 정답후보로 제공하는 종래의 오류를 개선할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 하이브리드 추론 기반의 자연어 질의 응답 시스템의 블록도이다.
도 2는 도 1에 도시된 정답후보 생성 모듈의 내부 구성을 개략적으로 도시한 블록도이다.
도 3은 도 1에 도시된 정답후보 필터링 모듈의 내부 구성을 개략적으로 도시한 블록도이다.
도 4는 도 1에 도시된 정답 추론 모듈의 내부 구성을 개략적으로 도시한 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 자연어 질의 응답 절차를 나타내는 흐름도이다.

본 발명은 기존의 질의 응답 시스템에서 수행되는 자연어 질의에 대한 정답을 확률적으로 추론하는 방식의 문제점을 개선하기 위해, 연역적, 귀납적, 귀추적 추론 방식을 모두 적용하는 하이브리드 추론 방식에 따른 추론 과정을 수행한 후, 상기 상기 하이브리드 추론 방식에 따라 추론된 정답후보에 대해 검증 과정을 한번 더 수행하여, 가설에 위배되는 경우의 수가 가장 적은 정답후보를 정답으로 제공한다.

이하, 본 발명의 다양한 실시 예가 첨부된 도면과 연관되어 기재된다. 본 발명의 다양한 실시 예에서 사용될 수 있는 "포함한다" 또는 "포함할 수 있다" 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시 예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시 예에 따른 하이브리드 추론 기반의 자연어 질의 응답 시스템의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 하이브리드 추론 기반의 자연어 질의응답 시스템(이하, 질의응답 시스템)(100)은 질문 입력부(110), 시스템 관리 모듈(120), 질문 공리 생성 모듈(130), 정답후보 생성 모듈(140), 정답후보 필터링 모듈(150), 정답 추론 모듈(160) 및 정답 검증 모듈(170)을 포함한다.

질문 입력부(110)는 자연어 질문 문장(이하, 질문)을 시스템 관리 모듈(120)로 출력한다.

질문 입력부(110)는 사용자의 핸드폰, 스마트폰, 노트북, 개인용 컴퓨터 등과 같은 외부 장치(도시하지 않음)와 유무선으로 연결되어, 질문을 수신하고, 수신된 질문을 시스템 관리 모듈(120)로 전달할 수 있다.

질문 입력부(110)가 키패드 혹은 터치 스크린 방식으로 구현된 경우에는 사용자가 직접 키패드를 누르거나 터치 스크린을 터치하는 방식으로 질문을 생성할 수도 있다.

질문 입력부(110)는 상기 질문에 대한 응답을 사용자 관리 모듈(120)로부터 전달받을 수 있다. 여기서, 응답은 질문에 대한 정답일 수 있다.

응답은 상기 외부 장치의 표시화면을 통해 사용자에게 시각적인 정보 형태로 제공할 수 있다.

시스템 관리 모듈(120)은 자연어 질의응답 시스템(100)에 포함된 구성들(110, 130, 140, 150, 160, 170)의 전반적인 동작을 제어 및 관리하는 구성으로, 통합 유닛(122)과 신뢰도 추론 유닛(124)를 포함한다.

통합 유닛(122)은 모듈들(140, 150, 160 및 170)에서 처리한 정답후보들 및 각 정답후보들의 자질들(features)을 통합하고, 그 결과를 신뢰도 추론 유닛(124)으로 전달한다.

예를 들면, 통합 유닛(122)이 상기 정답후보 생성 모듈(140)로부터 "윌리엄 셰익스피어"와 "셰익스피어"로 이루어진 2개의 정답후보들을 전달받은 경우, 통합 유닛(122)은 2개의 정답후보들을 동일한 정답후보로 인식하고, 각 정답후보의 자질을 통합한다. 자질은 수치화된 값으로 표현될 수 있으며, 이 경우, 통합한 결과는 수치화된 값들의 평균치 또는 수치화된 값들의 합산치 등일 수 있다.

신뢰도 추론 유닛(124)은 통합 유닛(122)에서 처리한 결과를 이용하여 상기 정답후보 생성 모듈(140)로부터 제공된 정답후보들에 대한 신뢰도를 확률적으로 추론한다. 즉, 신뢰도 추론 유닛(124)은 정답후보 필터링 모듈(150)에서 처리한 자질, 정답 추론 모듈(160)에서 처리한 자질 및 정답 검증 모듈(170)에서 처리한 자질을 이용하여, 상기 정답후보 생성 모듈(140)로부터 입력된 정답후보들 각각에 대한 정답일 확률을 계산한다. 여기서, 정답후보들에 대한 신뢰도를 추론하는 방법은 확률적 알고리즘(probabilistic algorithm)에 기반한 로지스틱 회귀분석(logistic regression analysis) 및 기계 학습(machine learning) 등을 예로 들 수 있다. 여기서, 기계학습으로, 랭킹(Ranking) SVM(Support Vector Machine)을 예로 들 수 있다.

또한, 신뢰도 추론 유닛(124)은 정답후보들 각각에 대해 계산한 확률에 따라 정답후보들의 순위를 결정한다. 즉, 정답후보들 중 계산된 확률에 따라 정답일 확률이 가장 높은 정답후보를 1순위로 결정하고, 1순위로 결정된 정답후보를 최종 정답으로 추론한다.

한편, 신뢰도 추론 유닛(124)은 확률적으로 가장 높은 정답후보를 정답으로 추론하기 때문에, 실제 질문 공리에 위배되는 정답후보를 최종 정답으로 추론할 수 있다. 이를 해결하기 위해, 본 발명에서는 신뢰도 추론 유닛(124)에서 추론한 최종 정답을 다시 검증하는 정답 검증 모듈(170)이 구비된다. 정답 검증 모듈(170)에 대해서는 아래에서 상세히 기술한다.

질문 공리 생성 모듈(130)은 텍스트 함의 인식(Textual Entailment Recognition)을 이용하여, 상기 시스템 관리 모듈(120)로부터 입력된 질문으로부터 이형태의 함의 질문 문장(이하, 함의 질문)을 생성한다.

질문 공리 생성 모듈(130)은 입력된 질문과 생성된 함의 질문에서 어휘 기반의 정답 유형 정보(이하, 어휘 정답 유형 정보), 의미 기반의 정답 유형 정보(이하, 의미 정답 유형 정보), 질문 유형 정보, 질문 제약 정보 등의 필요한 정보를 추출한 후, 추출된 정보로부터 정답을 찾기 위한 다양한 질문 공리(Axiom)들을 생성한다.

질문 공리 생성 모듈(130)에서 질문 공리를 생성하는 과정은 다음과 같다.

먼저, 아래와 같은 질문 입력을 가정한다.

질문	"남아메리카에 위치하며, 수도가 카라카스인 이 나라의 국명은 '작은 베네치아'란 뜻을 가지고 있다."

첫 번째 단계로 텍스트 함의 인식 과정을 통해 위의 질문에서 아래와 같은 함의 질문들을 생성한다. 생성된 함의 질문들은, 예를 들면, 아래와 같다.

함의 질문1	"남미에 위치하고, 카라카스가 수도인 이 국가의 이름은 '작은 베네치아'라는 의미가 있다."
함의 질문2	"남아메리카에 위치하고, 국명이 '작은 베네치아'라는 의미가 있는 이 국가의 수도는 카라카스이다."

두 번째 단계는 질문과 함의 질문에서 어휘 정답 유형 정보, 의미 정답 유형 정보, 질문 유형 정보 및 질문 제약 정보를 추출한다.

어휘 정답 유형 정보는 질문에서 요구하는 정답의 어휘 유형을 나타내는 정보로서, 위의 질문에서 어휘 정답 유형 정보는 '나라'이고, 함의 질문1에서 어휘 정답 유형 정보는 '국가'이고, 함의 질문 2에서 어휘 정답 유형 정보는 '국가'가 될 수 있다.

의미 정답 유형 정보는 질문에서 요구하는 정답의 의미 유형을 나타내는 정보로서, "NAME", "COUNTRY" 등을 예로 들 수 있다. 위의 예시된 질문에서는 "COUNTRY"가 될 수 있다. 이러한 의미 정답 유형 정보를 추출하기 위해, 어휘의 의미를 의미 코드로 사전에 분류한 의미 분류 체계(meaning classification scheme)를 사용할 수 있다.

질문 유형 정보는 질문의 유형을 나타내는 정보로서, 질문의 유형은 용어 요청형, 의미 요청형, 속성값 요청형, 논리 추론형, 연산 추론형 등을 포함할 수 있다. 어휘 유형과 의미 유형이 결정되면, 질문의 유형을 분류하는데, 위의 질문은 속성값 요청형으로 분류된다.

질문 제약 정보는 정답을 제약하는 정보로서, 시간, 공간, 문화재, 작품, 언어, 동격, 수량, 별칭, 소속, 직업 등과 관련된 제약 정보 등을 포함할 수 있으며, 공간과 관련된 제약 정보는, 위의 함의 질문1에서 "남미에 위치하고"와 "카라카스가 수도"이고, 동격과 관련된 제약 정보는, 예를 들면, 위의 함의 질문 2에서 "국명이 작은 베네치아"일 수 있다.

세 번째 단계는 두 번째 단계에서 추출된 정보들을 이용하여 정답을 검증하기 위한 질문 공리들을 생성한다.

위의 질문에서 질문 공리는 "위치(남아메리카)", "수도(카라카스)", "국명(작은 베네치아)", "나라", "COUNTRY" 등일 수 있다.

정답후보 생성 모듈(140)은, 정형 지식베이스(structured knowledge base) 및 비정형 지식베이스(unstructured knowledge base)를 기반으로, 시스템 관리 모듈(120)로부터 입력된 질문으로부터 정답후보들을 생성한다.

구체적으로, 정답후보들을 생성하기 위해, 상기 정답후보 생성 모듈(140)은, 도 2에 도시된 바와 같이, 검색기반 정답후보 생성 유닛(142) 및 지식베이스 기반 정답후보 생성 유닛(144)을 포함한다.

검색기반 정답후보 생성 유닛(142)은 입력된 질문 내의 키워드를 이용하여 오픈 도메인(open domain) 기반의 비정형 지식베이스(144)로부터 비정형 문서(unstructured documents)를 검색하고, 검색된 비정형 문서로부터 제1 정답후보를 생성(또는 추출)한다.

제1 정답후보는 검색된 비정형 문서(unstructured documents)의 제목(title)과 표제어(subtitle), 검색된 비정형 문서(unstructured documents) 내의 개체명(named-entity), 명사(noun), 명사구(noun phrase), 앵커(anchor)(다른 문서로 연결되는 정보) 등일 수 있다. 여기서, 비정형 지식베이스(144)는 위키피디아(wikipedia)와 같은 비정형 문서(unstructured documents)를 제공하는 인터넷 백과사전일 수 있다.

지식베이스 기반 정답후보 생성 유닛(144)은 입력된 질문의 문법 구조를 파싱하여 획득한 엔터티(entity)와 프로퍼티(property) 간의 관계 정보를 기반으로 사전에 구축된 클로우즈 도메인(closed domain) 기반의 정형 지식베이스(148)로부터 제2 정답후보를 생성(또는 추출)한다.

즉, 지식베이스 기반 정답후보 생성 유닛(144)은 입력된 질문으로부터 추출된 엔터티와 프로퍼티의 조합으로 이루어진 쿼리에 대응하는 정형 문서(structured documents)를 검색하고, 검색된 정형 문서(structured documents)로부터 제2 정답후보를 생성(또는 추출)한다. 여기서, 엔터티는 명사 등을 예로 들 수 있으며, 프로퍼티는 형용사, 동사 등을 예로 들 수 있다.

다시 도 1을 참조하면, 상기 정답후보 필터링 모듈(150)은 상기 질문 공리 생성 모듈(130)에서 생성한 질문 공리들과 상기 정답후보 생성 모듈(140)에서 생성한 정답후보들을 상기 시스템 관리 모듈(120)을 통해 입력받는다.

상기 정답후보 필터링 모듈(150)은 상기 입력된 질문 공리들 중에서 어휘 정답 유형 정보, 의미 정답 유형 정보 및 질문 제약 정보에 해당하는 질문 공리들을 이용하여, 상기 입력된 정답후보들을 필터링(또는 검증)한다. 여기서, 정답후보들은 상기 검색기반 정답후보 생성 유닛(도 2의 142)에서 생성한 제1 정답후보들과 지식베이스 기반 정답후보 생성 유닛(도 2의 144)에서 생성한 제2 정답후보들을 포함한다.

상기 정답후보들을 필터링(또는 검증) 하기 위해, 상기 정답후보 필터링 모듈(150)은, 도 3에 도시된 바와 같이, 정답 유형 기반 공리 검증 유닛(152)과 정답 제약 기반 공리 검증 유닛(154)을 포함한다.

상기 정답 유형 기반 공리 검증 유닛(152)은 상기 질문 공리 생성 모듈(140)에서 어휘 정답 유형 정보 및 의미 정답 유형 정보를 이용하여 생성한 질문 공리들과 정답후보 생성 모듈(140)에서 생성한 정답후보들 간의 유사도를 계산하고, 계산한 유사도를 기반으로 상기 정답후보들을 검증한다.

위에 예시한 질문에서 어휘 정답 유형 정보 및 의미 정답 유형 정보를 이용하여 생성된 질문 공리가 각각 "나라"와 "COUNTRY"인 경우, 상기 정답 유형 기반 공리 검증 유닛(152)은 "나라(x)"와 정답후보 간의 유사도 및 "Type(COUNTRY)"과 정답후보 간의 유사도를 계산한다

"나라"와 정답후보와 간의 유사도를 계산하기 위해, 어휘 의미 관계 데이터베이스(database of semantic relations), 어휘망(word network)의 계층정보, 지식베이스 타입의 계층정보, 위키피디아 카테고리의 계층정보 등과 같은 리소스 등이 활용될 수 있고, 정답후보와 "COUNTRY" 간의 유사도를 계산하기 위해, 개체명의 계층정보(hierarchical information of named-entity), 개체명-어휘 매핑 관계를 나타내는 계층정보 등과 같은 리소스가 활용될 수 있다.

정답 제약 기반 공리 검증 유닛(154)은 상기 질문 공리 생성 모듈(140)에서 질문 제약 정보를 이용하여(또는 기반으로) 생성된 질문 공리와 정답후보 생성 모듈(140)에서 생성한 정답후보들 간의 유사도를 계산하고, 계산된 유사도를 기반으로 상기 정답후보들에 대한 검증을 수행한다.

위에 예시된 질문에서, 질문 제약 정보를 이용하여 생성된 질문 공리는 "위치(남아메리카)", "수도(카라카스)", "국명(작은 베네치아)" 등일 수 있다. 즉, 정답 제약 기반 공리 검증 유닛(154)은 정답후보와 "위치(남아메리카)" 간의 유사도, 정답후보와 "수도(카라카스)" 간의 유사도, 정답후보와 "국명(작은 베네치아)" 간의 유사도를 각각 계산한다.

계산된 유사도는 임계치와 비교하는 방식으로 정답후보들 중에서 정답일 확률이 낮은 정답후보들을 필터링 하기 위한 정보로 활용된다.

다시 도 1을 참조하면, 정답 추론 모듈(160)은 시스템 관리 모듈(120)로부터 입력된 질문과 정답 가설 문장(이하, 정답 가설) 간의 유사도를 계산한다.

구체적으로, 상기 정답 추론 모듈(160)은, 도 4에 도시된 바와 같이, 귀납적 추론 유닛(162), 연역적 추론 유닛(164) 및 귀추적 추론 유닛(166)을 포함한다.

귀납적 추론 유닛(162)은 정답 가설에 포함된 어휘와 증거 문장(또는 근거 단락)에 포함된 어휘 간의 유사도를 계산하는 방식으로 정답을 추론한다. 여기서, 정답 가설은 질문에 대한 정답의 어휘 유형을 나타내는 어휘가 포함된 문구 또는 문장을 말한다. 예를 들면, 질문이 "햄릿을 쓴 영국의 작가는 누구인가"일 때, 정답 가설은, 예를 들면, "햄릿을 쓴 영국의 셰익스피어" 또는 "햄릿을 쓴 영국의 작가는 셰익스피어이다"일 수 있다. 증거 문장(근거 단락)은 질문 가설을 기반으로 검색된 문장을 말한다.

귀납적 추론 유닛(162)에서 유사도를 계산하는 방법으로, 어휘 간의 단순 매칭, 순서를 고려한 매칭, 최장 어휘 매칭(longest word match)에 기반한 문자열 매칭(string matching), 튜플 매칭(tuple matching), 트리플 매칭(triples matching) 등의 추론 알고리즘 등이 활용될 수 있다.

연역적 추론 유닛(164)은 지식베이스를 활용하여 유사도를 계산하는 방식으로 정답을 추론한다. 즉, 질문 내의 엔터티-프로퍼티 조합들과 정답 가설 내의 엔터티-프로퍼티 조합들을 지식베이스에 쿼리하여 정답 가설에 대한 유사도를 지식베이스로부터 획득한다.

연역적 추론 유닛(164)은 지식 베이스를 활용하기 때문에, 연역적 추론 유닛(164)에서 계산한 유사도는 귀납적 추론 유닛(162)에서 계산한 유사도에 비해 신뢰도가 높다. 따라서, 최종 정답을 추론할 때 가중치가 높게 반영된다.

귀추적 추론 유닛(166)은 상기 귀납적 추론 유닛(162)과 상기 연역적 추론 유닛(164)에서 처리하지 못하는 의미 레벨의 추론(meaning level inference) 방식으로 질문과 정답 가설 간의 유사도를 계산한다.

앞서 예시된 질문을 이용하여, 귀추적 추론 과정을 설명하면, 정답후보가 베네수엘라인 경우, 앞서 예시된 질문의 정답 가설은 아래와 같다.

질문	"남아메리카에 위치해 있으며, 수도가 카라카스인 이 나라의 국명은 '작은 베네치아'란 뜻을 가지고 있다."
정답 가설	"남아메리카에 위치해 있으며, 수도가 카라카스인 이 베네수엘라의 국명은 '작은 베네치아'란 뜻을 가지고 있다"

귀추적 추론은, 예를 들면, 질문에 '암살된 사람을 찾는'이란 문구가 포함되어 있는 경우, 실제 지식베이스나 인터넷 백과사전 등의 리소스에서는 정확하게 '암살된 사람'이란 문구 대신에 '죽은 사람', '살해된 사람' 등과 같은 문구로 기술되어 있을 가능성이 있기 때문에, '암살된'이라는 어휘를 다른 형태로 확장하거나 유의어(synonyms)로 확장하여, 찾고자 하는 사람이 죽었다는 것을 알아내는 추론이다. 즉, 귀추적 추론 유닛(166)는 이러한 어휘의 의미 확장을 통해 질문과 정답 가설 간의 유사도를 추론하는 기능을 수행한다. 귀추적 추론 방법으로 딥 러닝(deep learning)을 통한 어휘, 문장의 의미 유사도 계산 알고리즘을 예로 들 수 있다.

다시 도 1을 참조하면, 정답 검증 모듈(170)은 상기 신뢰도 추론 유닛(124)의 확률적인 정답 추론의 오류를 보완하기 위해, 상기 신뢰도 추론 유닛(124)에서 추론한 결과를 다시 검증한다.

구체적으로, 정답 검증 모듈(170)은 신뢰도 추론 유닛(124)에서 추론한 1순위(RANK1)에서 5순위(RANK5)까지의 정답후보들 중에서 1순위(RANK1)와 2순위(RANK2)의 신뢰도 비율(RANK1의 신뢰도 값/RANK2의 신뢰도 값)을 계산한다.

정답 검증 모듈(170)은 계산된 신뢰도 비율과 사전에 설정된 임계치를 비교하여, 계산된 신뢰도 비율이 임계치 이상인 경우, 신뢰도 추론 유닛(124)에서 추론한 최종 정답은 질문 공리에 위배되지 않은 것으로 판단하고, 신뢰도 추론 유닛(124)에서 추론한 최종 정답에 대해 재검증을 수행하지 않는다.

반대로, 계산된 신뢰도 비율이 임계치 미만인 경우, 신뢰도 추론 유닛(124)에서 추론한 1순위의 최종 정답의 신뢰도를 확신할 수 없기 때문에, 정답후보들 중에서 질문 공리와의 유사도가 가장 높은 정답후보를 1순위로 다시 결정하는 재검증 절차를 수행한다.

재검증 결과는 시스템 관리 모듈(120)로 입력되고, 시스템 관리 모듈(120)은 재검증 결과에 따라 다시 추론된 최종 정답을 응답으로 검출된다.

도 5는 본 발명의 일 실시 예에 따른 자연어 질의 응답 방법에 대한 절차를 나타내는 흐름도로서, 아래의 각 단계의 설명에서 도 1 내지 도 4를 참조한 설명과 중복된 부분은 간략하게 기술하거나 생략하기로 한다.

도 5를 참조하면, 먼저, 단계 S511에서, 질문이 입력된다.

이어, 단계 S513에서, 입력된 질문으로부터 질문 공리를 생성한다.

구체적으로, 입력된 질문으로부터 이형태의 함의 질문을 생성한다. 이후, 질문과 함의 질문에서 어휘 정답 유형 정보, 의미 정답 유형 정보, 질문 유형 정보, 질문 제약 정보를 추출한 후, 추출된 어휘 정답 유형 정보, 의미 정답 유형 정보, 질문 유형 정보, 질문 제약 정보 등을 기반으로 질문으로부터 질문 공리를 생성한다. 여기서, 이형태의 함의 질문 및 질문 공리를 생성하는 방법으로, 텍스트 함의 인식(Textual Entailment Recognition) 과정이 이용될 수 있다.

이어, 단계 S515에서, 입력된 질문으로부터 정답후보들을 생성한다. 여기서, 생성된 정답후보는 제1 정답후보와 제2 정답후보를 포함하고, 제1 정답후보는 입력된 질문 내의 키워드를 이용하여 비정형 지식베이스(도 2의 144)로부터 검색된 문서로부터 생성된 정답후보고, 제2 정답후보는 질문의 문장 구조를 파싱하여 획득된 엔터티와 프로퍼티의 조합으로 이루어진 쿼리를 이용하여 사전에 구축된 정형 지식베이스(146)로부터 생성된 제2 정답후보를 포함한다.

이어, 단계 S517에서, 상기 단계 S515에서 생성한 정답후보들을 필터링한다.

구체적으로, 질문 공리들 중에서 어휘 정답 유형 정보, 의미 정답 유형 정보 및 질문 제약 정보에 해당하는 질문 공리들을 이용하여, 상기 단계 S515에서 생성한 정답후보들에 대해 검증을 수행하고, 상기 단계 S515에서 생성한 전체 정답후보들 중에서 정답일 확률이 낮은 정답후보들을 필터링한다.

이어, 단계 S519에서, 필터링된 정답후보들 중에서 정답후보를 추론한다.

구체적으로, 입력된 질문과 정답 가설 간의 유사도를 계산하고, 계산된 유사도를 기반으로 정답후보를 추론한다. 여기서, 유사도는 귀납적 추론 방식에 따라 계산된 제1 유사도, 연역적 추론 방식에 따라 계산된 제2 유사도 및 귀추적 추론 방식에 따라 계산된 제3 유사도를 포함하며, 상기 제1 내지 제3 유사도 중 적어도 하나의 유사도를 이용하여 상기 정답후보를 추론한다. 본 실시 예에서는, 제1 내지 제3 유사도를 모두 이용하여 상기 정답후보를 추론한다.

제1 유사도는 어휘 간의 단순 매칭, 순서를 고려한 매칭, 최장 어휘 매칭에 기반한 문자열 매칭, 튜플 매칭, 트리플 매칭 등의 추론 알고리즘 등을 이용하여 계산될 수 있다.

제2 유사도는 질문 내의 엔터티-프로퍼티 조합들과 정답 가설 내의 엔터티-프로퍼티 조합들을 지식베이스에 쿼리하여 질문과 정답 가설 간의 유사도를 지식베이스로부터 획득하는 방식으로 계산될 수 있다.

제3 유사도는 딥 러닝(deep learning)기반의 의미 유사도 계산 알고리즘 등을 이용하여 계산될 수 있다.

이어, 단계 S521에서, 상기 단계 S519에서 추론된 정답후보들의 신뢰도를 추론한다. 구체적으로, 상기 S513에서 생성한 질문 공리, 상기 단계 S517에서 필터링된 정답후보, 상기 단계 S519에서 추론된 유사도를 자질로 이용하여 상기 단계 S515에서 생성한 정답후보들의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 정답후보들의 순위를 결정한다. 상기 신뢰도를 계산하는 방법으로, 로지스틱 회귀분석(logistic regression), 랭킹(Ranking) SVM(Support Vector Machine) 등을 예로 들 수 있다.

이어, 단계 S523에서, 상기 단계 S521에서 추론된 신뢰도에서 1순위로 결정된 정답후보의 신뢰도(R1)와 2순위로 결정된 정답후보의 신뢰도(R2) 간의 신뢰도 비율(R1/R2)을 계산하고, 계산된 신뢰도 비율(R1/R2)과 사전에 설정된 임계치를 비교한다.

신뢰도 비율(R1/R2)이 임계치 이상인 경우, 단계 S525에서, 단계 S521에서 결정된 1순위의 정답후보를 최종 정답으로 출력한다.

신뢰도 비율(R1/R2)이 임계치 미만인 경우, 단계 527에서, 질문 공리를 기반으로, 1순위의 정답후보를 제외한 나머지 정답후보들을 다시 검증한다. 즉, 상기 나머지 정답후보들 중에서 질문 공리와 유사도가 가장 높은 정답후보를 검출한다.

상기 나머지 정답후보들 중에서 질문 공리와 유사도가 가장 높은 정답후보를 검출하면, 단계 S529에서, 상기 나머지 정답후보들 중에서 질문 공리와 유사도가 가장 높은 정답후보를 1순위로 재조정한다. 이후, 1순위로 재조정된 정답후보를 최종 정답으로 검출한다.

이상 설명한 본 발명의 실시예에 따른 질의 응답 방법은 컴퓨팅 장치와 같은 정보 처리 기기에 의해 수행될 수 있는 프로그램 명령 형태로 구현되어 저장 매체에 기록될 수 있다.

저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.

저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

질문 공리 생성 모듈이, 텍스트 함의 인(Textual Entailment Recognition)식 과정을 이용하여, 입력된 질문으로부터 이형태의 함의 질문들을 생성하고, 함의 질문들에서 어휘의 의미를 의미 코드로 사전에 분류한 의미 분류 체계(meaning classification scheme)를 이용하여 정답 유형 정보를 추출하고, 추출된 정답 유형 정보를 이용하여 정답을 검증하기 위한 질문 공리를 생성하는 단계;
정답후보 생성 모듈이, 정형 지식베이스 및 비정형 지식베이스를 기반으로 상기 입력된 질문으로부터 정답후보들을 생성하는 단계;
정답후보 필터링 모듈이, 상기 질문 공리와 상기 정답후보들 간의 유사도를 기반으로 상기 정답후보들을 필터링 하는 단계;
정답 추론 모듈이, 귀납적 추론, 연역적 추론 및 귀추적 추론 방식 각각의 추론 방식에 다라 정담 가설과 상기 입력된 질문 간의 유사도들을 계산하고, 계사된 유사도들을 모두 이용하여 상기 정답후보들을 추론하는 단계;
신뢰도 추론 유닛이, 상기 질문 공리, 상기 필터링된 정답후보들, 상기 추론된 정답후보들을 로지스틱 회귀분석에 따라 분석하여 상기 정답후보들의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 정답후보들의 순위를 결정하는 단계; 및
정답 검증 모듈이, 1순위로 결정된 정답후보의 신뢰도와 2순위로 결정된 정답후보의 신뢰도 간의 신뢰도 비율과 임계치를 비교한 비교 결과에 따라 상기 결정된 순위를 재조정하고, 재조정된 1순위의 정답후보를 최종 정답으로 검출하는 단계를 포함하는 자연어 질의 응답 방법.
제1항에서, 상기 질문 공리를 생성하는 단계는,
상기 텍스트 함의 인식 과정을 이용하여, 상기 질문과 상기 함의 질문들로부터, 상기 질문에서 요구하는 정답의 어휘 유형을 나타내는 어휘 정답 유형 정보, 상기 질문에서 요구하는 정답의 의미 유형을 나타내는 의미 정답 유형 정보, 정답을 제약하는 질문 제약 정보를 추출하는 단계; 및
상기 어휘 정답 유형 정보, 상기 의미 정답 유형 정보 및 상기 질문 제약 정보를 기반으로 상기 질문 공리를 생성하는 단계
를 포함함을 특징으로 하는 자연어 질의 응답 방법.
제2항에서, 상기 정답후보들을 필터링 하는 단계는,
상기 정답후보들과 상기 어휘 정답 유형 정보 및 상기 의미 정답 유형 정보를 기반으로 생성된 상기 질문 공리 간의 유사도를 기반으로 상기 정답후보들을 필터링 하는 단계; 및
상기 정답후보들과 상기 질문 제약 정보를 기반으로 생성된 상기 질문 공리 간의 유사도를 기반으로 상기 정답후보들을 필터링 하는 단계;
를 포함함을 특징으로 하는 자연어 질의 응답 방법.
제1항에서, 상기 정답후보들을 생성하는 단계는,
상기 입력된 질문 내의 키워드를 이용하여 오픈 도메인(open domain) 기반의 상기 비정형 지식베이스로부터 검색된 비정형 문서로부터 제1 정답후보를 생성하는 단계; 및
상기 입력된 질문의 문법 구조를 파싱하여 획득한 엔터티(entity)와 프로퍼티(property) 간의 관계 정보를 바탕으로 사전에 구축된 클로우즈 도메인(closed domain) 기반의 상기 정형 지식베이스로부터 제2 정답후보를 생성하는 단계
를 포함함을 특징으로 하는 자연어 질의 응답 방법.
제1항에서, 상기 정답후보들을 추론하는 단계는,
상기 귀납적 추론 방식에 따라, 정답 가설과 상기 입력된 질문 간의 제1 유사도를 계산하는 단계;
상기 연역적 추론 방식에 따라, 정답 가설과 상기 입력된 질문 간의 제2 유사도를 계산하는 단계;
상기 귀추적 추론 방식에 따라, 정답 가설과 상기 입력된 질문 간의 제3 유사도를 계산하는 단계; 및
상기 제1 내지 제3 유사도를 모두 이용하여, 상기 정답후보들을 추론하는 단계;
를 포함함을 특징으로 하는 자연어 질의 응답 방법.
제5항에서, 상기 제1 유사도를 계산하는 단계는,
어휘 간의 단순 매칭, 순서를 고려한 매칭, 최장 어휘 매칭에 기반한 문자열 매칭, 튜플 매칭 및 트리플 매칭 중 어느 하나의 연역적 추론 알고리즘을 기반으로 상기 제1 유사도를 계산함을 특징으로 하는 자연어 질의 응답 방법.
제5항에서, 상기 제2 유사도를 계산하는 단계는,
상기 질문 내의 엔터티-프로퍼티 조합과 상기 정답 가설 내의 엔터티-프로퍼티 조합을 지식베이스에 쿼리하여 상기 지식베이스로부터 상기 제2 유사도를 획득하는 방식으로 계산됨을 특징으로 하는 자연어 질의 응답 방법.
제5항에서, 상기 제3 유사도를 계산하는 단계는,
딥 러닝(deep learning)기반의 의미 유사도 계산 알고리즘을 이용하여 상기 제3 유사도를 계산함을 특징으로 하는 자연어 질의 응답 방법.
삭제
제1항에서, 상기 재조정된 1순위의 정답후보를 최종 정답으로 출력하는 단계는,
상기 1순위로 결정된 정답후보의 신뢰도와 2순위로 결정된 정답후보의 신뢰도 간의 신뢰도 비율을 계산하는 단계;
임계치와 상기 신뢰도 비율을 비교하는 단계;
비교 결과, 상기 신뢰도 비율이 상기 임계치 미만인 경우, 상기 정답후보들의 순위를 결정하는 단계에서 결정된 1순위의 정답후보를 제외한 나머지 정답후보들 중에서 상기 질문 공리와 가장 유사한 정답후보를 1순위의 정답후보로 재조정하는 단계
를 포함함을 특징으로 하는 자연어 질의 응답 방법.
텍스트 함의 인식(Textual Entailment Recognition) 과정을 이용하여, 입력된 질문으로부터 이형태의 함의 질문들을 생성하고, 함의 질문들에서 어휘의 의미를 의미 코드로 사전에 분류한 의미 분류 체계(meaning classification scheme)를 이용하여 정답 유형 정보를 추출하고, 추출된 정답 유형 정보를 이용하여 정답을 검증하기 위한 질문 공리를 생성하는 질문 공리 생성 모듈;
정형 지식베이스 및 비정형 지식베이스를 기반으로 상기 입력된 자연어 질문으로부터 정답후보들을 생성하는 정답후보 생성 모듈;
상기 질문 공리와 상기 정답후보들 간의 유사도를 기반으로 상기 정답후보들을 필터링 하는 정답후보 필터링 모듈;
귀납적 추론, 연역적 추론 및 귀추적 추론 방식 각각의 추론 방식에 따라 정담가설과 상기 입력된 질문 간의 유사도들을 계산하고, 계산된 유사도들을 모두 이용하여 상기 정답후보들을 추론하는 정답 추론 모듈;
상기 질문 공리, 상기 정답후보들, 상기 필터링된 정답후보들, 및 상기 추론된 정답후보들을 로지스틱 회귀분석에 따라 분석하여 상기 정답후보들의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 정답후보들의 순위를 결정하는 신뢰도 추론 유닛; 및
상기 신뢰도 추론 유닛에서 1순위로 결정된 정답후보의 신뢰도와 2순위로 결정된 정답후보의 신뢰도 간의 신뢰도 비율과 임계치를 비교한 비교 결과에 따라 상기 신뢰도 추론 유닛에서 결정된 순위를 재조정하고, 재조정된 1순위의 정답후보를 최종 정답으로 검증하는 정답 검증 모듈
을 포함하는 자연어 질의 응답 시스템.
삭제
제11항에서, 상기 정답 검증 모듈은,
상기 신뢰도 비율이 상기 임계치 미만인 경우, 상기 신뢰도 추론 유닛에서 결정된 1순위의 정답후보를 제외한 나머지 정답후보들 중에서 상기 질문 공리와 가장 유사한 정답후보를 1순위의 정답후보로 재조정함을 특징으로 하는 자연어 질의 응답 시스템.
제11항에서, 상기 정답 검증 모듈은,
상기 신뢰도 비율이 상기 임계치 이상인 경우, 상기 신뢰도 추론 유닛에서 결정된 1순위의 정답후보를 최종 정답으로 검증함을 특징으로 하는 자연어 질의 응답 시스템.
제11항에서, 상기 정답 추론 모듈은,
상기 귀납적 추론 방식에 따라, 정답 가설과 상기 입력된 질문 간의 제1 유사도를 계산하는 귀납적 추론 유닛;
상기 연역적 추론 방식에 따라, 정답 가설과 상기 입력된 질문 간의 제2 유사도를 계산하는 연역적 추론 유닛; 및
상기 귀추적 추론 방식에 따라, 정답 가설과 상기 입력된 질문 간의 제3 유사도를 계산하는 귀추적 추론 유닛
을 포함함을 특징으로 하는 자연어 질의 응답 시스템.
제15항에서, 상기 귀납적 추론 유닛은,
어휘 간의 단순 매칭, 순서를 고려한 매칭, 최장 어휘 매칭에 기반한 문자열 매칭, 튜플 매칭 및 트리플 매칭 중 어느 하나의 연역적 추론 알고리즘을 기반으로 상기 제1 유사도를 계산함을 특징으로 하는 자연어 질의 응답 시스템.
제15항에서, 상기 연역적 추론 유닛은,
상기 질문 내의 엔터티-프로퍼티 조합과 상기 정답 가설 내의 엔터티-프로퍼티 조합을 지식베이스에 쿼리하여 상기 지식베이스로부터 상기 제2 유사도를 계산함을 특징으로 하는 자연어 질의 응답 시스템.
제15항에서, 상기 귀추적 추론 유닛은,
딥 러닝(deep learning)기반의 의미 유사도 계산 알고리즘을 이용하여 상기 제3 유사도를 계산함을 특징으로 하는 자연어 질의 응답 시스템.