KR20150041908A

KR20150041908A - 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템

Info

Publication number: KR20150041908A
Application number: KR20130120452A
Authority: KR
Inventors: 이근배; 박선영; 이동현; 최준휘; 김용희; 류성한; 구상준
Original assignee: 포항공과대학교 산학협력단
Priority date: 2013-10-10
Filing date: 2013-10-10
Publication date: 2015-04-20
Also published as: KR101545050B1

Abstract

정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템이 개시된다. 정답 유형 자동 분류 방법은 수신된 사용자 질의에 포함된 자질을 추출하는 단계, 추출한 자질을 클러스터링하여 적어도 하나의 자질로 구성되는 클러스터를 생성하는 단계 및 클러스터에 대한 식별 정보를 할당하고 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형을 자동으로 분류하는 단계를 포함한다. 따라서, 대량의 사용자 질의에 대하여 신속하게 사용자 질의에 상응하는 정답 유형을 분류할 수 있으며 보다 경제적인 질의 응답 시스템을 구축할 수 있다.

Description

정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템{METHOD FOR AUTOMATICALLY CLASSIFYING ANSWER TYPE AND APPARATUS, QUESTION-ANSWERING SYSTEM FOR USING THE SAME}

본 발명은 질의 응답 시스템에 관한 것으로, 더욱 상세하게는, 사용자로부터 입력받은 질의에 상응하는 정답의 유형을 자동으로 분류하기 위한 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템에 관한 것이다.

최근 스마트폰, 태블릿 PC와 같은 이동 통신 장치가 발전하고 모바일 인터넷 서비스가 활성화됨에 따라 빅데이터(Big data)에 대한 활용이 각광받고 있는 추세이다.

특히, 빅데이터는 인간의 자연어 발화에 기반한 자동 번역, 차세대 인터페이스, 질의 정답 시스템과 같은 다양한 대화 처리 기술 분야에서 거대한 말뭉치(corpus)로 활용될 수 있다는 점에서 질의 응답 시스템의 성능을 개선할 것으로 기대하고 있다.

반면, 기하급수적으로 생산되어 유통되는 빅데이터 사이에서 사용자의 의도에 부합하는 정확한 정보를 사용자에게 제공하기 위해서는 빅데이터 시대에 적합한 질의 응답 시스템(Question-Answering System)의 구축이 필요할 것이다.

일반적으로, 질의 응답 시스템(Question-Answering System)은 사용자로부터 입력받은 임의의 질의에 대한 문맥 해석을 통해 사용자의 질의를 분석하고 분석된 사용자 질의에 상응하는 정답 후보를 문서 내에서 추출한 후 정답 후보들 간의 순위를 매겨 사용자 질의의 의도와 가장 부합하는 단답형 수준의 구체적인 정답을 제공한다.

특히, 질의 응답 시스템에서 사용자 질의의 분석을 통해 사용자가 얻고자 하는 정답의 유형을 분류하는 것은 사용자의 질의에 부합하는 정답을 도출하기 위해 중요한 역할을 수행한다.

그리하여, 기존의 질의 응답 시스템에서는 사용자 질의의 집합인 사용자 질의 말뭉치를 분석하여 정답 유형 분류 체계를 설계하고 설계된 정답 유형 분류 체계를 기반으로 사용자 질의에 해당하는 적합한 정답 유형을 레이블링하여 훈련 데이터를 구축한 후, 구축된 훈련 데이터에서 추출된 자질을 기초로 정답 유형 분류 모델을 생성하는 정답 유형 분류 방법을 이용하였다.

그러나, 이와 같은 정답 유형 분류 방법은 정답 유형 분류 체계를 기반으로 사용자 질의에 해당하는 정답 유형을 수동으로 레이블링(labeling)하기 때문에 많은 시간과 비용이 든다는 점에서 비효율적이며 사용자 질의에 대하여 어떠한 정답 유형을 레이블링할 것인가에 대한 기준이 모호하여 훈련 데이터로서의 일관성이 결여될 수 있다는 문제가 있다.

또한, 분류될 수 있는 정답 유형의 정답 수가 제한되어 있어 정답 유형 분류 체계 내에 포함되지 않는 정답 유형을 요구하는 사용자 질의에 대해서는 정확한 정답을 제공할 수 없다는 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 대량의 사용자 질의에 대하여 사용자 질의에 상응하는 정답 유형을 자동으로 분류할 수 있는 정답 유형 자동 분류 방법을 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 다양한 사용자 질의에 대하여 일관적이고 새로운 사용자 질의에 강인하게 대처할 수 있는 정답 유형 자동 분류 장치를 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 사용자의 질의에 대하여 자동으로 정답 유형을 분류하는 방법을 이용함으로써 사용자 질의에 상응하는 정답을 추출함에 있어 시간적, 인적 비용을 줄일 수 있는 질의 응답 시스템을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 정답 유형 자동 분류 방법은, 수신된 사용자 질의에 포함된 자질(feature)을 추출하는 단계, 추출한 자질을 클러스터링하여 적어도 하나의 자질로 구성되는 클러스터를 생성하는 단계 및 클러스터에 대한 식별 정보를 할당하고 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형을 분류하는 단계를 포함한다.

여기서, 사용자 질의에 포함된 자질은 사용자 질의를 구성하는 단어의 품사 정보를 기반으로 사용자 질의를 분석하여 사용자의 의도를 표현하는 키워드(keyword) 또는 사용자가 사용자 질의를 통해 검색하고자 하는 대상(focus)을 나타내는 단어를 포함할 수 있다.

여기서, 클러스터를 생성하는 단계는 비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 기반으로 사용자 질의에 상응하는 정답 유형인 클러스터를 생성할 수 있다.

여기서, 클러스터는 사용자 질의에 상응하는 정답 유형을 은닉 상태(Hidden state) 또는 사용자 질의에서 추출된 자질의 관측 값으로 표현될 수 있다.

여기서, 클러스터를 생성하는 단계는 비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 이용함으로써 미리 정답 유형의 개수를 한정하여 사용자 질의에 대하여 수동으로 정답 유형을 분류하거나 사용자 질의에 대한 정답 유형의 분류에 이용되는 훈련 데이터를 생성하는 과정을 생략하고도 사용자 질의에 상응하는 정답 유형인 클러스터를 생성할 수 있다.

여기서, 사용자 질의에 상응하는 정답 유형을 분류하는 단계는 반지도 학습(Semi-Supervised learning)을 기반으로 미리 구조화된 언어 체계 데이터베이스에서 클러스터에 대한 식별 정보와 매핑되는 특정 단어로 구성된 정답 유형 분류 체계를 이용함으로써 사용자 질의에 상응하는 정답 유형이 자동으로 분류될 수 있다.

여기서, 미리 구조화된 언어 체계 데이터베이스는 워드넷(WordNet)을 기반으로 추출된 온톨로지(Ontology)를 의미할 수 있다.

또한, 상기 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 정답 유형 자동 분류 장치는, 수신된 사용자 질의에 포함된 자질을 추출하는 자질 추출부, 추출한 자질을 클러스터링하여 적어도 하나의 자질로 구성되는 클러스터를 생성하는 클러스터 생성부 및 클러스터에 대한 식별 정보를 할당하고 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형을 분류하는 정답 유형 대응부를 포함한다.

또한, 상기 다른 목적을 달성하기 위한 일 측면에 따른 질의 응답 시스템은, 적어도 하나의 사용자 단말의 사용자로부터 사용자 질의를 수신하고, 적어도 하나의 사용자 단말에 사용자 질의에 상응하는 정답을 제공하는 통신 장치, 수신한 사용자 질의에 포함된 자질을 추출하여 클러스터를 생성하고 클러스터에 대한 식별 정보를 할당하여 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형을 분류하는 정답 유형 자동 분류 장치 및 검색 대상 데이터베이스에서 분류된 정답 유형이 포함된 데이터를 검색하고 검색된 데이터에서 사용자 질의에 상응하는 정답을 추출하는 정답 추출 장치를 포함한다.

상술한 바와 같은 본 발명의 일 실시예에 따른 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템에 따르면, 대량의 사용자 질의에 대하여 사용자 질의에 상응하는 정답 유형을 자동으로 분류할 수 있다.

또한, 다양한 사용자 질의에 대하여 일관적이고 새로운 사용자 질의에 강인하게 대처할 수 있다.

또한, 사용자의 질의에 대하여 자동으로 정답 유형을 분류하는 방법을 이용하여 사용자 질의에 상응하는 정답을 추출함에 있어 시간적, 인적 비용을 효과적으로 줄일 수 있는 질의 응답 시스템을 제공할 수 있다.

도 1은 기존의 정답 유형을 분류하기 위한 모델을 훈련하는 방법을 설명하는 예시도이다.
도 2는 본 발명의 일 실시예에 따른 정답 유형 자동 분류 방법을 설명하는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 클러스터를 설명하는 예시도이다.
도 4는 본 발명의 일 실시예에 따른 계층적 디리쉴레 프로세스(Hierarchical Dirichlet Process, HDP)를 이용하여 정답 유형을 클러스터링하는 것을 설명하는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 정답 유형을 자동으로 분류하는 방법을 이용하는 질의 응답 시스템을 나타내는 블록도이다.
도 6은 본 발명의 일 실시예에 따른 정답 유형 자동 분류 장치를 나타내는 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 기존의 정답 유형을 분류하기 위한 모델을 훈련하는 방법을 설명하는 예시도이다.

도 1을 참조하면, 기존의 질의 응답 시스템에서는 사용자 질의(10)에 상응하는 정답 유형으로 분류하기 위하여 지도 학습(Supervised learning)을 기반으로 정답 유형 분류 모델을 생성하였다.

정답 유형이란 사용자가 사용자 질의를 통해 검색하고자 하는 정답의 종류 또는 유형을 의미할 수 있다. 따라서, 정답 유형은 질의 응답 시스템에서 최종적으로 정답 여부를 판단할 수 있는 기준으로써 활용될 수 있다.

기존의 정답 유형 분류 방법에서는 서포트 벡터 기계 학습(Support Vector Machine, SVM), 의사 결정 트리(Decision Tree)와 같은 지도 학습(Supervised learning) 기반의 알고리즘을 이용하여 주어진 데이터가 어떠한 분류 항목에 속하는지를 분류하였다.

이 때, 지도 학습 방법을 이용하기 위해서는 사용자 질의(10)가 어떠한 정답 유형에 속하는지를 미리 분류한 학습 데이터(40)가 필수적으로 구축되어야 한다. 따라서, 사용자 질의 말뭉치(20)를 분석하여 사용자 질의(10)에 상응하는 정답 유형을 미리 설정하는 과정이 선행되었다.

즉, 사용자 질의 말뭉치(20)를 분석하여 정답 유형의 개수를 미리 설정하고, 설정된 수만큼의 정답 유형을 미리 정의한 후, 정의된 정답 유형 간의 관계를 분석하여 계층 구조로 나타날 수 있도록 정답 유형 분류 체계(Taxonomy)를 설계한다(21).

정답 유형 분류 체계(22)가 설계된 후, 정답 유형 분류 체계(22)에서 사용자 질의(10)에 상응하는 적절한 정답 유형을 찾아 레이블링함(30)으로써 학습 데이터(40)를 구축한다. 여기서, 사용자 질의(10)에 상응하는 정답 유형은 질의 응답 시스템을 구축하는 개발자에 의해 수동으로 레이블링된다.

그리하여, 구축된 학습 데이터(40)로부터 자질(feature)을 추출하고(50), 추출된 자질을 기반으로 일련의 훈련 과정을 거침으로써 정답 유형 분류 모델이 생성된다(60).

상술한 바와 같이 지도 학습 방법을 기반으로 생성된 정답 유형 분류 모델을 이용하는 정답 유형 분류 방법은, 사용자 질의 말뭉치(20)에 포함된 사용자 질의(10)에 대한 정답 유형 분류 체계(22)를 설계하는 작업과 설계된 정답 유형 분류 체계(22)를 이용하여 사용자 질의(10)에 해당하는 정답 유형을 레이블링(30)하는 작업이 질의 응답 시스템을 구축하는 개발자에 의해 수동으로 수행된다.

따라서, 질의 응답 시스템의 구축에 있어 많은 시간과 노력이 요구될 수 있다. 또한, 사용자 질의(10)에 해당하는 정답 유형을 레이블링(30)하는 작업을 사람이 수행하기 때문에 레이블링 작업을 담당하는 사람의 주관적인 판단에 의해 명확한 기준 없이 학습 데이터(40)가 구축될 수 있다는 점에서 학습 데이터(40)로서의 일관성이 결여될 수 있다.

뿐만 아니라 정답 유형 분류 체계(22)를 설계함에 있어 미리 설정된 수만큼의 정답 유형만을 정의하기 때문에, 정답 유형 분류 체계(22)에 포함되지 않는 정답 유형을 가지는 새로운 사용자 질의(10)가 입력되었을 경우 이에 부합하는 적절한 정답 유형으로 분류할 수 없다는 문제가 있다.

이와 같은 문제를 해결할 수 있는 정답 유형 분류 방법은 이하, 본 발명에 따른 도 2 내지 도 6을 참조하여 상세하게 설명한다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 2는 본 발명의 일 실시예에 따른 정답 유형 자동 분류 방법을 설명하는 흐름도이다.

도 2를 참조하면, 정답 유형 자동 분류 방법은 사용자 질의에 포함된 자질을 추출하는 단계(S100), 추출된 자질을 클러스터링하여 클러스터를 생성하는 단계(S200) 및 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형을 분류하는 단계(S300)를 포함할 수 있다.

여기서, 정답 유형 자동 분류 방법은 사용자 질의에 상응하는 정답을 제공하는 질의 응답 시스템(100)에서 수행될 수 있다.

일반적으로, 질의 응답 시스템(100)은 사용자 질의를 입력받아 분석하는 과정, 검색 대상 데이터베이스에서 분석된 사용자 질의에 상응하는 정답이 포함된 데이터를 검색하는 과정, 검색된 데이터에서 정답 후보를 추출한 후 정답 후보들 간의 순위를 매겨 사용자 질의의 의도와 가장 부합하는 정답을 추출하는 과정 및 추출된 정답을 사용자에게 제공하는 과정을 수행함으로써 자연어로 된 사용자 질의에 대하여 보다 구체적인 정답을 제시한다.

그리하여, 질의 응답 시스템은 사용자 질의를 수신하고 추출된 정답을 사용자에게 제공할 수 있는 통신 장치, 수신한 사용자 질의를 분석하여 이에 상응하는 정답을 추출할 수 있는 정보 처리 장치를 구비한 서버, 컴퓨터, 노트북, 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등과 같은 정보 처리 단말에서 구현될 수 있으나 이에 한정되는 것은 아니다.

정답 유형을 자동으로 분류하기 위하여 먼저, 사용자 질의에 포함된 자질(feature)을 추출할 수 있다(S100).

구체적으로, 사용자 질의를 구성하는 단어의 품사 정보를 기반으로 사용자 질의를 분석하여 사용자의 의도를 표현하는 키워드(keyword) 또는 사용자가 사용자 질의를 통해 검색하고자 하는 대상(focus)을 나타내는 단어를 자질로써 추출할 수 있다.

예컨대, 사용자 질의를 구성하는 단어 중 정답의 종류를 표현하는 의문사(Question type), 주어 또는 목적어 자리에 위치하여 사용자가 검색하고자 하는 대상(focus)을 나타내는 명사, 사용자가 검색하고자 하는 대상의 수 또는 시제 정보를 나타내는 동사가 자질로써 추출될 수 있다.

추출한 자질을 클러스터링(clustering)하여 적어도 하나의 자질로 구성되는 클러스터를 생성할 수 있다(S200).

여기서, 추출한 자질로부터 클러스터를 생성하기 위하여 클러스터링을 이용하는데, 이를 통해 자질에 내재된 특성에 따라 추출한 자질을 자동으로 분류하여 정답 유형인 클러스터로 생성할 수 있다.

클러스터링(clustering)이란 기존의 정답 유형 분류 방법에서 주어진 데이터가 어떠한 분류 항목에 속하는지를 분류하는 지도 학습(supervised learning)과는 달리 주어진 데이터에 대하여 물리적 또는 추상적 특성을 기반으로 비슷한 속성을 가지는 데이터를 그룹화하는 비지도 학습(unsupervised learning)에 해당될 수 있다.

이 때, 특정 자질이 임의의 클러스터에 포함되어 있는 경우, 동일 클러스터 안의 자질들은 유사한 속성을 가지는 반면, 다른 클러스터에 포함되어 있는 자질들은 상이한 속성을 가진다.

즉, 복수의 사용자 질의로부터 추출된 자질이 비슷한 속성을 가지면, 복수의 사용자 질의들이 동일한 정답 유형을 가지는 클러스터로 클러스터링 될 수 있다.

특히, 본 발명에서는 클러스터를 생성하는데 있어 비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 이용할 수 있다.

따라서, 클러스터는 은닉 상태(Hidden state)의 정답 유형으로써 사용자 질의에서 추출된 복수의 자질에 대한 관측 값으로 표현될 수 있다.

이를 통해, 기존의 정답 유형 분류 방법에서 미리 정답 유형의 개수를 한정하여 한정된 개수만큼의 정답 유형을 정의하고 사용자 질의에 대하여 수동으로 정답 유형을 레이블링함으로써 사용자 질의에 대한 정답 유형의 분류에 이용되는 학습 데이터(40)를 생성하는 일련의 과정을 생략하고, 비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 이용함으로써 사용자 질의에 상응하는 정답 유형을 자동으로 생성할 수 있다.

이와 같이, 사용자 질의에 상응하는 정답 유형으로 자동 분류될 수 있으므로 빅데이터 시대에 따른 대량의 사용자 질의에 대하여 신속하게 정답 유형을 분류할 수 있고 일관적인 정답 유형을 제공할 수 있으며, 새로운 사용자 질의에 강인하게 대처할 수 있다.

클러스터링을 통해 생성된 클러스터에 식별 정보를 할당할 수 있다. 즉, 클러스터에 포함된 자질들의 속성을 표현할 수 있는 키워드(keyword) 또는 생성되는 클러스터의 순서에 따른 식별 번호와 같은 식별 정보(Identification)를 클러스터에 레이블링할 수 있다.

다만, 클러스터에 대한 식별 정보는 질의 응답 시스템이 구축된 정보 처리 단말에 의해 자동으로 결정되어 할당되기 때문에 클러스터에 대한 식별 정보를 통해서 직관적으로 어떤 정답 유형인지 파악하는 것은 어렵다.

따라서, 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형으로 분류할 수 있다(S300).

보다 구체적으로, 미리 구조화된 언어 체계 데이터베이스에서 클러스터에 대한 식별 정보와 매핑되는 일부 단어들로 정답 유형 분류 체계를 구성하여 사용자 질의에 상응하는 정답 유형을 분류할 수 있다. 이를 통해, 기존의 정답 유형 분류 방법에서 정답 유형 분류 체계를 미리 구축하는 것에 비해 많은 정답 유형이 구성될 수 있어 다양한 사용자 질의에 대하여 강인하게 대처할 수 있다.

여기서, 미리 구조화된 언어 체계 데이터베이스란 워드넷(WordNet)을 기반으로 추출된 온톨로지(Ontology)를 의미할 수 있다. 구체적으로 예를 들어, 위키피디아의 DBpedia 또는 위키피디아와 워드넷의 YAGO와 같이 미리 구조화된 언어 체계 데이터베이스가 활용될 수 있으나 이에 한정되지 않고 언어 체계를 구조화한 다양한 데이터베이스가 활용될 수 있다.

만약, "What is Madonna’s profession?"과 같은 사용자 질의가 입력되었을 경우, 'What', 'Madonna', 'profession', 'is'와 같은 자질이 추출될 수 있다. 또한, 추출된 자질을 클러스터링하여 생성된 클러스터에 식별 정보 1이 레이블될 수 있다.

다만, 클러스터 ID = 1만으로 직관적으로 사용자 질의 "What is Madonna’s profession?"이 어떤 정답 유형인지 파악하는 것은 한계가 있기 때문에 미리 구조화된 언어 체계 데이터베이스에서 클러스터 ID = 1에 상응하는 정답 유형을 매핑(mapping)함으로써 사용자 질의에 상응하는 정답 유형으로 분류될 수 있다.

보다 구체적으로, 워드넷(WordNet)을 기반으로 추출된 온톨로지(Ontology)와 같은 언어 체계 데이터베이스에서 사용자 질의 "What is Madonna’s profession?"에 상응하는 클러스터 ID와 매핑되는 PERFORMER, SINGER, PERSON과 같은 일부 단어들로 정답 유형 분류 체계를 구성하여 사용자 질의 "What is Madonna’s profession?"에 상응하는 정답 유형을 분류할 수 있으나, 이에 한정되는 것은 아니다.

여기서, 사용자 질의에 상응하는 정답 유형이 자동으로 분류되도록 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑하는 과정은 반지도 학습(Semi-Supervised learning)을 이용할 수 있다.

이 때, 반지도 학습(Semi-Supervised learning)이란 레이블이 있는 데이터와 레이블이 없는 데이터를 함께 사용할 수 있는 방법으로써, 기존의 지도 학습에서는 레이블이 있는 데이터만을 사용하고 비지도 학습에서는 레이블이 없는 데이터만을 사용하던 방식을 중용한 방법을 의미할 수 있다.

즉, 본 발명이 반지도 학습(Semi-Supervised learning)을 이용함에 따라 레이블이 있는 데이터인 언어 체계 데이터베이스에서 발생되는 편기(bias) 또는 과소적합(Over-fitting) 등의 오류 문제를 레이블이 없는 데이터인 클러스터를 통해 해결함으로써 보다 명확하게 정답 유형을 분류할 수 있다.

예를 들어, 반지도 학습의 다양한 알고리즘 중에서 그래프에 기반한 반지도 학습 알고리즘(Graph based Semi-Supervised learning)을 이용할 수 있으나 이에 한정되는 것은 아니다.

여기서, 그래프에 기반한 반지도 학습 알고리즘은 주어진 데이터를 노드(node)와 엣지(edge)로 표현하며, 이 때 노드(node)는 각각의 데이터를 나타내고 데이터 간의 연결선인 엣지(edge)는 데이터 간의 유사도(similarity)를 나타낼 수 있다. 이 때, 데이터 간의 유사도가 클수록 노드 간의 거리는 가깝게 표현되고 데이터 간의 유사도가 작을수록 노드 간의 거리는 멀게 표현될 수 있다.

만약, n개의 데이터 중 레이블이 있는 데이터를 x개, 레이블이 없는 데이터를 n-x개로 주어졌을 경우, 유사도를 반영하는 엣지의 성질을 이용하여 레이블이 없는 노드는 레이블이 있는 유사한 노드를 통해 레이블을 전달받을 수 있다.

이를 본 발명에 적용하면 노드는 각각의 클러스터, 레이블은 정답 유형을 나타낼 수 있다. 여기서, 각각의 클러스터 간의 유사도는 클러스터를 이루는 자질들로 이루어진 벡터를 통해 계산될 수 있다. 이 때, 유사도는 다양한 방법으로 계산될 수 있는데, 전체 자질을 동일하게 고려하여 유사도를 계산하는 방법, 전체 자질들 중 정답 유형에 특히 관련된 자질에 가중치(weight)를 주어 계산하는 방법을 이용할 수 있다.

또한, 본 발명에서 생성되는 클러스터는 레이블이 없는 노드를 의미하고, 미리 구조화된 언어 체계 데이터베이스는 레이블이 있는 노드를 의미할 수 있다. 따라서, 유사도를 반영하는 엣지의 성질을 이용하여 클러스터는 가까운 거리에 있는 언어 체계를 통해 정답 유형으로 매핑될 수 있다.

이와 같이, 기존의 정답 유형 분류 방법과는 달리 질의 응답 시스템을 구축하는 개발자에 의해 레이블링되는 과정 없이 정답 유형을 자동으로 분류하기 때문에 질의 응답 시스템을 구축함에 있어 인적, 시간적 비용을 감소시킬 수 있다.

도 3은 본 발명의 일 실시예에 따른 클러스터를 설명하는 예시도이고, 도 4는 본 발명의 일 실시예에 따른 계층적 디리쉴레 프로세스(Hierarchical Dirichlet Process, HDP)를 이용하여 정답 유형을 클러스터링하는 것을 설명하는 예시도이다.

도 3을 참조하면, 생성 모델(Generative Model)인 베이지안 모델(Bayesian Model)을 이용하여 사용자 질의에 상응하는 클러스터(301)를 표현할 수 있다.

도 3 (a)에 도시된 바와 같이 클러스터(301)는 은닉 상태(Hidden state)의 정답 유형으로써 사용자 질의에서 추출된 복수의 자질(302)에 대한 관측 값으로 표현될 수 있다. 이로써, 정답 유형으로부터 복수의 자질들로 표현되는 질의가 생성될 수 있다.

여기서, 자질(feature)은 사용자 질의를 구성하는 단어의 품사 정보를 기반으로 사용자의 의도를 표현하는 키워드(keyword) 또는 사용자가 사용자 질의를 통해 검색하고자 하는 대상(focus)을 나타내는 단어를 포함할 수 있다.

예를 들어, "Where is the largest city in the U.S.A?"와 같은 사용자 질의가 입력되었을 때, 의문사(Question type)인 'Where', 사용자가 질의를 통해 궁극적으로 제공받고자 하는 정답을 나타내는 'largest city', 정답을 한정하는 'U.S.A' 또는 본동사 'is'가 사용자 질의에 대한 자질로써 추출될 수 있다.

이 때, 추출된 자질들은 사용자 질의로부터 직접적으로 관찰될 수 있고, 사용자 질의에 따라 구별될 수 있음에 따라 도 3의 (b)에 도시된 바와 같이 하나의 사용자 질의에 해당하는 자질들의 집합(303)으로 표현될 수 있다.

그리하여, 도 4에 도시된 바와 같이 계층적 디리쉴레 프로세스(Hierarchical Dirichlet Process, HDP)를 이용하여 하나의 사용자 질의에 해당하는 자질들의 집합(303)을 클러스터에 대한 식별 정보로 레이블할 수 있다.

보다 구체적으로, 계층적 디리쉴레 프로세스에서 α와 α′는 매개 변수를 구별하는데 이용되는 하이퍼 매개 변수(hyperparameter)를 의미하며, β는 하이퍼 매개 변수인 α의 GEM 분포(distribution)를 통해 생성된 베이스 분포(base distribution)를 의미할 수 있다.

이 때, θ는 베이스 분포 β와 하이퍼 매개 변수 α′의 드리슐레 프로세스(DP, Dirichlet Process)를 통해 생성됨으로써 추출된 자질의 분포 형태를 표현할 수 있다.

즉, 클러스터(301)는 θ의 다항 분포(multinomial distribution)에 따르며 클러스터(301)와 매개 변수인 Φ_k에 의해 자질의 집합(303)이 생성될 수 있다. 이를 통해 자질의 집합(303)을 하나의 정답 유형으로써 클러스터링 할 수 있다.

여기서, Φ_k는 클러스터의 상태가 총 k가지가 될 수 있는 경우에, 자질들은 총 k개의 분포를 따를 수 있으므로 각각의 분포에 따른 매개 변수도 k개 만큼 생성될 수 있다.

따라서, 계층적 디리쉴레 프로세스(Hierarchical Dirichlet Process, HDP)를 이용하면 기존의 정답 유형 분류 방법에서와 같이 정답 유형의 개수를 미리 한정하지 않기 때문에 새로운 사용자 질의에 강인하게 대처할 수 있는 질의 응답 시스템을 구축할 수 있다.

도 5는 본 발명의 일 실시예에 따른 정답 유형을 자동으로 분류하는 방법을 이용한 질의 응답 시스템을 나타내는 블록도이고, 도 6은 본 발명의 일 실시예에 따른 정답 유형 자동 분류 장치를 나타내는 블록도이다.

도 5을 참조하면, 정답 유형을 자동으로 분류하는 방법을 이용한 질의 응답 시스템(100)은 통신 장치(110), 정답 유형 자동 분류 장치(120) 및 정답 추출 장치(130)를 포함할 수 있다.

여기서, 질의 응답 시스템(100)은 적어도 하나의 사용자 단말과 USB(Unniversal Serial Bus)또는 케이블을 이용하여 직접적으로 연결될 수도 있고, 근거리 무선 통신, 와이파이, 3G(3Generation), LTE(Long Term Evolution)과 같은 유무선 네트워크로 연결되어 정보를 주고받을 수 있다.

이 때, 질의 응답 시스템(100)은 통신 장치 및 정보 처리 장치를 구비한 서버, 컴퓨터, 노트북, 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등과 같은 정보 처리 단말에서 구현될 수 있으나 이에 한정되는 것은 아니다.

또한, 적어도 하나의 사용자 단말은 사용자에 의해 발화된 사용자 질의를 인식할 수 있는 음성 인식 센서, 질의 응답 시스템(100)에 사용자 질의를 송신하여 이에 상응하는 정답을 수신할 수 있는 통신 장치, 수신한 정답을 사용자에게 표시하는 디스플레이 장치를 구비하는 스마트폰, 태블릿 PC, 노트북, 컴퓨터, 스마트 가전 기기 및 시스템 로봇과 같은 단말을 의미할 수 있으나 이에 한정되는 것은 아니다.

통신 장치(110)는 적어도 하나의 사용자 단말의 사용자로부터 사용자 질의를 수신하고 적어도 하나의 사용자 단말에 사용자 질의에 상응하는 정답을 제공할 수 있다.

그리하여, 정답 유형 자동 분류 장치(120)는 통신 장치(110)로부터 수신한 사용자 질의에 포함된 자질을 추출하여 클러스터를 생성하고, 클러스터에 대한 식별 정보를 할당하여 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형으로 분류할 수 있다.

보다 구체적으로, 도 6에 도시된 바와 같이 정답 유형 자동 분류 장치(120)는 자질 추출부(121), 클러스터 생성부(123) 및 정답 유형 대응부(125)를 포함할 수 있다.

자질 추출부(121)는 사용자 질의에 포함된 자질(feature)을 추출할 수 있다. 구체적으로 사용자 질의를 구성하는 단어의 품사 정보를 기반으로 사용자 질의를 분석하여 사용자의 의도를 표현하는 키워드(keyword) 또는 사용자가 사용자 질의를 통해 검색하고자 하는 대상(focus)을 나타내는 단어를 자질로써 추출할 수 있다.

클러스터 생성부(123)는 추출한 자질을 클러스터링(clustering)하여 적어도 하나의 자질로 구성되는 클러스터를 생성할 수 있다. 이 때, 추출한 자질을 의미 있는 데이터의 집단으로 분류하기 위해 클러스터링(clustering) 기법을 이용하는데, 클러스터링(clustering)을 통해 자질에 내재된 특성에 따라 자동으로 분류함으로써 사용자 질의에 상응하는 정답 유형인 클러스터로 생성될 수 있다.

여기서, 클러스터링(clustering)이란 기존의 정답 유형 분류 방법에서 주어진 데이터가 어떠한 분류 항목에 속하는지를 분류하는 지도 학습(supervised learning)과는 달리 주어진 데이터에 대하여 물리적 또는 추상적 특성을 기반으로 비슷한 속성을 가지는 데이터를 그룹화하는 비지도 학습(unsupervised learning)에 해당될 수 있다.

즉, 복수의 사용자 질의들이 동일한 정답 유형을 가지면 복수의 사용자 질의로부터 추출된 자질 역시 비슷한 속성을 가질 수 있으며, 비슷한 속성을 가진 자질을 클러스터링함으로써 사용자 질의에 상응하는 정답 유형인 클러스터가 생성될 수 있다.

이를 통해, 기존의 정답 유형 분류 방법에서 미리 정답 유형의 개수를 한정하여 한정된 개수만큼의 정답 유형을 정의하고 사용자 질의에 대하여 수동으로 정답 유형을 레이블링함으로써 사용자 질의에 대한 정답 유형의 분류에 이용되는 학습 데이터를 생성하는 일련의 과정을 생략하고, 비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 이용함으로써 사용자 질의에 상응하는 정답 유형을 자동으로 생성할 수 있다.

정답 유형 대응부(125)는 클러스터에 대한 식별 정보를 할당하고, 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형으로 분류할 수 있다.

여기서, 클러스터에 할당되는 식별 정보는 클러스터에 포함된 자질들의 속성을 표현할 수 있는 키워드(keyword) 또는 생성되는 클러스터의 순서에 따른 식별 번호와 같은 식별 정보(Identification)를 클러스터에 할당될 수 있다.

다만, 클러스터에 대한 식별 정보는 질의 응답 시스템이 구축된 정보 처리 단말에 의해 자동으로 결정되어 할당되기 때문에 클러스터에 대한 식별 정보만으로는 직관적으로 어떤 정답 유형인지 파악하는 것은 어렵다.

따라서, 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 사용자 질의에 상응하는 정답 유형을 분류할 수 있다.

특히, 사용자 질의에 상응하는 정답 유형이 자동으로 분류되도록 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑하는 과정은 반지도 학습(Semi-Supervised learning)을 이용할 수 있다.

이 때, 반지도 학습(Semi-Supervised learning)이란 레이블이 있는 데이터와 레이블이 없는 데이터를 함께 사용할 수 있는 방법으로써, 기존의 지도 학습에서는 레이블이 있는 데이터만을 사용하고 비지도 학습에서는 레이블이 없는 데이터만을 사용하던 방식을 중요한 방법을 의미할 수 있다.

즉, 본 발명이 반지도 학습(Semi-Supervised learning)을 이용함에 따라 레이블이 있는 데이터인 언어 체계 데이터베이스에서 발생되는 편기(bias) 또는 과소적합(Over-fitting) 등의 오류 문제를 레이블이 없는 데이터인 클러스터를 정답 유형 분류 과정에 포함함으로써 보다 명확하게 정답 유형을 분류할 수 있다.

정답 추출 장치(130)는 검색 대상 데이터베이스에서 정답 유형 자동 분류 장치(120)를 통해 분류된 정답 유형이 포함된 데이터를 검색하고 검색된 데이터에서 사용자 질의에 상응하는 정답을 추출할 수 있다.

상술한 바와 같은 본 발명의 실시예에 따른 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템에 따르면, 대량의 사용자 질의에 대하여 사용자 질의에 상응하는 정답 유형을 자동으로 분류할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 사용자 질의 20: 사용자 질의 말뭉치
21: 정답 유형 분류 체계 설계 22: 정답 유형 분류 체계
30: 정답 유형 레이블링 40: 학습 데이터
50: 자질 추출 60: 정답 유형 모델 생성
100: 질의 응답 시스템 110: 통신 장치
120: 정답 유형 자동 분류 장치 121: 자질 추출부
123: 클러스터 생성부 125: 정답 유형 대응부
130: 정답 추출 장치 301: 클러스터
302: 추출된 자질 303: 자질들의 집합

Claims

질의 응답 시스템을 통하여 사용자 질의에 상응하는 정답을 제공하는데 있어서,
수신된 사용자 질의에 포함된 자질(feature)을 추출하는 단계;
상기 추출한 자질을 클러스터링(clustering)하여 적어도 하나의 자질로 구성되는 클러스터를 생성하는 단계; 및
상기 클러스터에 대한 식별 정보를 할당하고, 상기 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 상기 사용자 질의에 상응하는 정답 유형을 분류하는 단계를 포함하는 정답 유형 자동 분류 방법.
청구항 1에 있어서,
상기 사용자 질의에 포함된 자질은,
상기 사용자 질의를 구성하는 단어의 품사 정보를 기반으로 상기 사용자 질의를 분석하여 사용자의 의도를 표현하는 키워드(keyword) 또는 상기 사용자가 상기 사용자 질의를 통해 검색하고자 하는 대상(focus)을 나타내는 단어를 포함하는 것을 특징으로 하는 정답 유형 자동 분류 방법.
청구항 2에 있어서,
상기 클러스터를 생성하는 단계는,
비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 기반으로 상기 사용자 질의에 상응하는 정답 유형인 클러스터를 생성하는 것을 특징으로 하는 정답 유형 자동 분류 방법.
청구항 3에 있어서,
상기 클러스터는,
상기 사용자 질의에 상응하는 정답 유형을 은닉 상태(Hidden state) 또는 상기 사용자 질의에서 추출된 자질의 관측 값으로 표현되는 것을 특징으로 하는 정답 유형 자동 분류 방법.
청구항 3에 있어서,
상기 클러스터를 생성하는 단계는,
상기 비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 이용함으로써 미리 정답 유형의 개수를 한정하여 사용자 질의에 대하여 수동으로 정답 유형을 분류하거나 상기 사용자 질의에 대한 정답 유형의 분류에 이용되는 훈련 데이터를 생성하는 과정을 생략하고도 상기 사용자 질의에 상응하는 정답 유형인 클러스터를 생성하는 것을 특징으로 하는 정답 유형 자동 분류 방법.
청구항 1에 있어서,
상기 사용자 질의에 상응하는 정답 유형을 분류하는 단계는,
반지도 학습(Semi-Supervised learning)을 기반으로 상기 미리 구조화된 언어 체계 데이터베이스에서 상기 클러스터에 대한 식별 정보와 매핑되는 특정 단어로 구성된 정답 유형 분류 체계를 이용함으로써 상기 사용자 질의에 상응하는 정답 유형이 자동으로 분류되도록 하는 것을 특징으로 하는 정답 유형 자동 분류 방법.
청구항 6에 있어서,
상기 미리 구조화된 언어 체계 데이터베이스는,
워드넷(WordNet)을 기반으로 추출된 온톨로지(Ontology)인 것을 특징으로 하는 정답 유형 자동 분류 방법.
질의 응답 시스템을 통하여 사용자 질의에 상응하는 정답 유형을 자동으로 분류하는 장치에 있어서,
수신된 사용자 질의에 포함된 자질(feature)을 추출하는 자질 추출부;
상기 추출한 자질을 클러스터링(clustering)하여 적어도 하나의 자질로 구성되는 클러스터를 생성하는 클러스터 생성부; 및
상기 클러스터에 대한 식별 정보를 할당하고, 상기 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 상기 사용자 질의에 상응하는 정답 유형을 분류하는 정답 유형 대응부를 포함하는 정답 유형 자동 분류 장치.
청구항 8에 있어서,
상기 자질 추출부는,
상기 사용자 질의를 구성하는 단어의 품사 정보를 기반으로 상기 사용자 질의를 분석하여 사용자의 의도를 표현하는 키워드(keyword) 또는 상기 사용자가 상기 사용자 질의를 통해 검색하고자 하는 대상(focus)을 나타내는 단어를 포함하는 자질을 추출하는 것을 특징으로 하는 정답 유형 자동 분류 장치.
청구항 9에 있어서,
상기 클러스터 생성부는,
비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 기반으로 상기 사용자 질의에 대한 정답 유형인 클러스터를 생성하는 것을 특징으로 하는 정답 유형 자동 분류 장치.
청구항 10에 있어서,
상기 클러스터는,
상기 사용자 질의에 상응하는 정답 유형을 은닉 상태(Hidden state) 또는 상기 사용자 질의에서 추출된 자질의 관측 값으로 표현되는 것을 특징으로 하는 정답 유형 자동 분류 장치.
청구항 10에 있어서,
상기 클러스터 생성부는,
상기 비모수 비지도 학습(Nonparametric Unsupervised learning)인 HDP(Hierarchical Dirichlet Process)를 이용함으로써 미리 정답 유형의 개수를 한정하여 사용자 질의에 대하여 수동으로 정답 유형을 분류하거나 상기 사용자 질의에 대한 정답 유형의 분류에 이용되는 훈련 데이터를 생성하는 과정을 생략하고도 상기 사용자 질의에 상응하는 정답 유형인 클러스터를 생성하는 것을 특징으로 하는 정답 유형 자동 분류 장치.
청구항 8에 있어서,
상기 정답 유형 대응부는,
반지도 학습(Semi-Supervised learning)을 기반으로 상기 미리 구조화된 언어 체계 데이터베이스에서 상기 클러스터에 대한 식별 정보와 매핑되는 특정 단어로 구성된 정답 유형 분류 체계를 이용함으로써 상기 사용자 질의에 상응하는 정답 유형이 자동으로 분류되도록 하는 것을 특징으로 하는 정답 유형 자동 분류 장치.
청구항 13에 있어서,
상기 미리 구조화된 언어 체계 데이터베이스는,
워드넷(WordNet)을 기반으로 추출된 온톨로지(Ontology)인 것을 특징으로 하는 정답 유형 자동 분류 장치.
적어도 하나의 사용자 단말의 사용자로부터 사용자 질의를 수신하고, 상기 적어도 하나의 사용자 단말에 상기 사용자 질의에 상응하는 정답을 제공하는 통신 장치;
상기 수신한 사용자 질의에 포함된 자질을 추출하여 클러스터를 생성하고 상기 클러스터에 대한 식별 정보를 할당하여 상기 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 상기 사용자 질의에 상응하는 정답 유형을 분류하는 정답 유형 자동 분류 장치; 및
검색 대상 데이터베이스에서 상기 분류된 정답 유형이 포함된 데이터를 검색하고 상기 검색된 데이터에서 상기 사용자 질의에 상응하는 정답을 추출하는 정답 추출 장치를 포함하는 질의 응답 시스템.
청구항 15에 있어서,
상기 정답 유형 자동 분류 장치는,
수신된 사용자 질의에 포함된 자질(feature)을 추출하는 자질 추출부;
상기 추출한 자질을 클러스터링(clustering)하여 적어도 하나의 자질로 구성되는 클러스터를 생성하는 클러스터 생성부; 및
상기 클러스터에 대한 식별 정보를 할당하고, 상기 클러스터에 대한 식별 정보와 미리 구조화된 언어 체계 데이터베이스를 매핑함으로써 상기 사용자 질의에 상응하는 정답 유형을 분류하는 정답 유형 대응부를 포함하는 것을 특징으로 하는 질의 응답 시스템.