KR20190061460A - 신뢰도 기반 질의응답 시스템 및 방법 - Google Patents

신뢰도 기반 질의응답 시스템 및 방법 Download PDF

Info

Publication number
KR20190061460A
KR20190061460A KR1020170159871A KR20170159871A KR20190061460A KR 20190061460 A KR20190061460 A KR 20190061460A KR 1020170159871 A KR1020170159871 A KR 1020170159871A KR 20170159871 A KR20170159871 A KR 20170159871A KR 20190061460 A KR20190061460 A KR 20190061460A
Authority
KR
South Korea
Prior art keywords
query
type
correct answer
type recognition
performance
Prior art date
Application number
KR1020170159871A
Other languages
English (en)
Other versions
KR102072238B1 (ko
Inventor
이형직
김현기
김민호
류지희
배경만
배용진
왕지현
임수종
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170159871A priority Critical patent/KR102072238B1/ko
Publication of KR20190061460A publication Critical patent/KR20190061460A/ko
Application granted granted Critical
Publication of KR102072238B1 publication Critical patent/KR102072238B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 신뢰도 기반 질의응답 기술에 관한 것으로, 본 발명의 실시 예에 따른 신뢰도 기반 질의응답 시스템은, 입력되는 실제 질의에 대해, 상기 실제 질의에 대한 유형 인식에 이용되는 제 1 질의 유형 인식 기준을 바탕으로 상기 실제 질의에 대한 유형을 인식하여, 상기 실제 질의에 대한 제 1 질의 유형 인식 결과를 생성하는 질의 유형 인식기; 상기 제 1 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고, 선택된 정답 추론 모델을 이용하여 정답을 추론하는 질의 응답 엔진; 및 상기 제 1 질의 유형 인식 기준을 설정하는 성능 비교기를 포함한다.

Description

신뢰도 기반 질의응답 시스템 및 방법{question answering system and method based on reliability}
본 발명은 신뢰도 기반 질의응답 기술에 관한 것으로, 상세하게는 정답을 추론할 때, 성능을 최대한 높일 수 있도록, 정답 추론 신뢰도가 높은 질의 유형별로 구분하여, 질의에 대한 정답을 추론하여 제공하도록 구현된 시스템 및 방법에 관한 것입니다.
질의응답 시스템은 일반적으로 질의 분석, 검색, 정답 후보 생성, 정답 후보 타입 및 제약 추론, 근거 검색 및 검증의 과정을 거쳐 가장 신뢰도가 높은 정답 후보를 최종 정답으로 제시한다. 신뢰도는 질의응답에서 사용된 알고리즘의 결과값들을 입력으로 사용하여 기계학습 기반으로 계산된다.
기존의 질의응답 시스템의 신뢰도 계산은 주로, 일정 스코어 이상의 검색 문서를 대상으로 정답 후보들을 추출하고, 각 정답 후보들에 대해 질의에서 인식한 정답유형에 대해 타입 스코어를 계산한 후, 근거를 재 검색한 후 질의와 근거 검색 문장들 사이의 유사도를 계산하여 모든 유사도 점수를 입력으로 활용하여 기계학습 기반으로 수행된다.
이와 같은 신뢰도 계산 방법은 모든 입력의 값이 용이하게 계산되는 경우에는 정답 후보의 신뢰도가 높게 나올 수 있으나, 질의에 따라서 특정한 입력이 계산되지 않는 경우에는 정답이라 하더라도 신뢰도가 낮게 나올 수도 있다.
물론, 기계학습기의 종류에 따라 해당 문제에 대한 자질의 가중치가 조절될 수도 있지만 한계가 있다.
따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 제안된 것으로, 본 발명의 목적은, 질의응답 시스템에서 정답을 추론할 때, 성능을 최대한 높일 수 있도록, 신뢰도가 높은 질의 유형을 학습 기반으로 설정하고, 설정된 질의 유형별로 적합한 정답 추론 모델을 이용하여 질의에 대한 정답을 추론하여 제공하도록 구현된 신뢰도 기반 질의응답 시스템 및 방법을 제공함에 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 신뢰도 기반 질의응답 시스템은, 입력되는 실제 질의에 대해, 상기 실제 질의에 대한 유형 인식에 이용되는 제 1 질의 유형 인식 기준을 바탕으로 상기 실제 질의에 대한 유형을 인식하여, 상기 실제 질의에 대한 제 1 질의 유형 인식 결과를 생성하는 질의 유형 인식기; 상기 제 1 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고, 선택된 정답 추론 모델을 이용하여 정답을 추론하는 질의 응답 엔진; 및 상기 제 1 질의 유형 인식 기준을 설정하는 성능 비교기를 포함한다.
상기 질의 응답 엔진은 입력되는 학습용 질의에 대한 정답을 추론하고, 추론하는 과정에서의 기준 성능을 상기 성능 비교기로 제공한다.
상기 질의 유형 인식기는 상기 학습용 질의에 대해 제 2 질의 유형 인식 기준을 바탕으로 상기 학습용 질의에 대한 유형을 인식하여, 상기 학습용 질의에 대한 제 2 질의 유형 인식 결과를 생성한다.
상기 질의 응답 엔진은 상기 제 2 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고, 선택된 정답 추론 모델을 이용하여 정답을 추론하고, 추론하는 과정에서의 비교 성능을 상기 성능 비교기로 제공한다.
상기 성능 비교기는 상기 기준 성능과 상기 비교 성능을 비교하고, 비교 결과, 상기 기준 성능 대비 상기 비교 성능이 큰 경우에 있어서의 질의 유형 인식 시에 이용된 기준을 상기 제 1 질의 유형 인식 기준으로 설정한다.
상기 제 1 질의 유형 인식 기준은 질의 내용 분야, 질의 구조, 정답 형태, 정답 유형 및 정답 제약 정보 중 적어도 하나 이상을 포함한다.
본 발명의 실시 예에 따른 신뢰도 기반 질의응답 방법은, 실제 질의에 대한 질의 유형 인식에 이용할 제 1 질의 유형 인식 기준을 설정하는 단계; 입력되는 실제 질의에 대해, 상기 제 1 질의 유형 인식 기준을 이용하여 실제 질의에 대한 유형을 인식하여 제 1 질의 유형 인식 결과를 생성하는 단계; 상기 제 1 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고, 선택된 정답 추론 모델을 이용하여 정답을 추론하는 단계를 포함한다.
상기 제 1 질의 유형 인식 기준을 설정하는 단계는, 입력되는 학습용 질의 셋에 대해, 학습용 질의별로 정답을 추론하고, 추론하는 과정에서의 기준 성능을 생성하는 단계; 학습용 질의별 질의 유형 인식 결과를 바탕으로 선택되는 정답 추론 모델을 이용하여 학습용 질의별로 정답을 추론하고, 추론하는 과정에서의 비교 성능을 생성하는 단계; 상기 기준 성능과 상기 비교 성능을 비교하는 단계; 및 비교 결과, 상기 기준 성능 대비 상기 비교 성능이 큰 경우에 있어서의 질의 유형 인식 시에 이용된 기준을 실제 질의에 대해 이용될 질의 유형 인식 기준으로 선택하는 단계를 포함한다.
상기 제 1 질의 유형 인식 기준은 질의 내용 분야, 질의 구조, 정답 형태, 정답 유형 및 정답 제약 정보 중 적어도 하나 이상을 포함한다.
상기와 같은 본 발명의 실시 예에 따르면, 질의응답 시스템의 신뢰도 학습 데이터를 질의의 유형을 기반으로 분류하고 학습함으로써 질의응답 시스템의 성능을 극대화할 수 있다.
또한, 본 발명의 실시 예에 따르면, 질의 유형 인식기를 이용하여 질의의 유형을 세분화하고, 세분화된 기준으로 질의응답 학습셋 구축을 통하여 질의 유형별 학습을 수행한다.
따라서, 특성이 비슷한 질의 별로 신뢰도 학습이 수행되므로, 그렇지 않은 시스템에 비해 질의응답 추론 과정에서 특정 자질의 가중치가 높아지는 효과가 있으므로, 질의응답 시스템의 성능이 극대화되는 효과가 있다.
도 1은 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 일례의 구성으로 도시한 도면이다.
도 2는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템이 질의에 대한 답을 추론하여 제공하는 상태를 도시한 도면이다.
도 3은 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템이 학습을 통해 실제 질의에 대한 유형 인식에 이용되는 기준을 설정하는 상태를 도시한 도면이다.
도 4는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 질의응답 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 질의응답 방법에 있어서 질의 유형 인식 기준 과정을 설명하기 위한 순서도이다.
도 6은 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의 응답 방법이 실행될 수 있는 컴퓨터 장치의 일 구성을 도시한 도면이다.
본문에 개시되어 있는 본 발명의 실시 예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시 예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시 예들에 한정되는 것으로 해석되어서는 안 된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 “~사이에”와 “바로 ~사이에” 또는 “~에 이웃하는”과 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함하다” 또는 “가지다” 등의 용어는 개시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
한편, 어떤 실시 예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.
이하, 본 발명에서 제안하는 신뢰도 기반 질의응답 시스템 및 방법에 대해서 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 일례의 구성으로 도시한 도면이고, 도 2는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템이 질의에 대한 답을 추론하여 제공하는 상태를 도시한 도면이고, 도 3은 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템이 학습을 통해 실제 질의에 대한 유형 인식에 이용되는 기준을 설정하는 상태를 도시한 도면이다.
도 1을 참조하면, 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템(100)은 최종 정답을 추론할 때 성능을 최대한 높일 수 있도록, 정답 신뢰도가 높은 질의 유형을 학습 기반으로 설정하고, 설정된 질의 유형별로 적합한 추론 모델을 이용하여 질의에 대한 정답을 추론하여 제공할 수 있도록 구현된다.
특히, 본 발명의 실시 예에 따른 질의응답 시스템(100)은 학습 과정과 정답 추론 과정의 두 과정을 통해 신뢰도가 높은 정답을 추론할 수 있도록 구현된다.
이를 위해, 상기 신뢰도 기반 질의응답 시스템(100)은 기능 수행을 위한 적어도 하나 이상의 프로세서, 기능 수행에 필요한 알고리즘(혹은 프로그램) 및 동작 수행 결과를 저장하는 적어도 하나 이상의 메모리, 외부 기기와의 통신을 위한 적어도 하나 이상의 통신 모듈 등을 포함할 수 있다.
상기 메모리는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
구체적으로, 상기 질의응답 시스템(100)은 질의 유형 인식기(110), 질의응답 엔진(120) 및 성능 비교기(130)를 포함하여 구성될 수 있으나, 질의응답 시스템(100)의 구성이 본 실시 예에 한정되는 것은 아니다.
상기 질의 유형 인식기(110)는 입력되는 질의를 분석하여 질의의 유형을 인식하는 구성으로서, 다양한 기준에 따라 질의의 유형을 인식할 수 있다.
예를 들어, 상기 질의 유형 인식기(110)는 질의 내용 분야, 질의 구조, 정답 형태, 정답 유형 및 정답 제약 정보를 인식하고, 인식된 결과(‘질의 유형 인식 결과’)를 질의 응답 엔진(120)으로 제공한다.
또한, 상기 질의 유형 인식기(110)는 질의 유형 인식 결과에 따라, 질의 응답 엔진(120)이 질의에 대한 정답을 추론하는 데에 이용되는 정답 추론 모델에 대한 정보(‘정답 추론 모델 정보’)를 질의 응답 엔진(120)으로 제공할 수도 있다.
이를 위해, 상기 질의 유형 인식기(110)는 질의 유형별 정답 추론 모델 정보를 테이블 형태로 저장하고 있을 수 있다.
따라서, 상기 질의 유형 인식기(110)는 질의 유형을 인식한 후, 인식된 질의 유형과 매칭하는 정답 추론 모델을 확인할 수 있다.
그리고, 상기 질의 유형 인식기(110)는 질의와 함께 질의 유형 인식 결과(혹은 정답 추론 모델 정보)를 질의 응답 엔진(120)으로 제공할 수 있다.
이때, 상기 질의 유형 인식기(110)는 도 2에 도시된 바와 같이 실제 질의에 대해서 질의 유형 인식 결과를 질의 응답 엔진(120)으로 제공할 수 있고, 도 3에 도시된 바와 같이 학습용 질의에 대해서 질의 유형 인식 결과를 질의 응답 엔진(120)으로 제공할 수 있다.
본 발명의 실시 예에 따라 제공되는 질의 유형 인식 기준은 다음과 같이 정리될 수 있다.
질의 내용 분야 설명
건축 건축물과 관련된 질의
스포츠 게임 스포츠나 게임과 관련된 질의
과학 물리, 화학, 지구과학, 생물, 기술 등과 관련된 질의
법과 관련된 질의
사회문화 사회문화, 전통과 관련된 질의
언어 언어적 지식에 대한 질의
역사 역사적 사실 및 사건과 관련된 질의
예술 예술(미술, 음악 등)과 관련된 질의(작품을 제외한 악기, 사조, 장르, 방식 등)
인물 인물에 대한 질의
작품 예술 작품과 관련된 질의
종교 종교와 관련된 질의
지리 지리와 관련된 질의
상식 시사와 관련된 상식 질의
Unknown 설정된 질의 내용 분야에 포함되지 되지 않은 유형의 질의
기준 분류
질의 구조 일반형, 괄호채우기형, 다지선다형
정답 형태 단답형, 서술형, 나열형
정답 유형 사람, 학문, 이론, 인공물, 작품, 기관, 장소, 문화, 날짜, 수량, 사건, 동물, 식물, 물질, 용어, 기타
정답 제약 정보 시간, 공간, 별칭, 작품, 공칭, 수치, 언어, 정의
상기 표 1 및 표 2에 나열된 질의 유형 인식 기준에 따르면, 질의 유형 인식기(110)는 질의 내용 분야를 기준으로 한 경우, 14개 중 하나로 질의 유형을 인식하고, 질의 구조를 기준으로 한 경우, 3개 중 하나로 질의 유형을 인식할 수 있다.
그리고, 상기 질의 유형 인식기(110)는 정답 형태를 기준으로 한 경우, 3개 중 하나의 질의 유형을 인식하고, 정답 유형을 기준으로 한 경우, 17개 중 하나의 질의 유형을 인식하고, 정답 제약 정보를 기준으로 한 경우, 8개 중 하나의 질의 유형을 인식할 수 있다.
이때, 상기 질의 유형 인식기(110)는 다양한 종류의 질의 유형 인식 기준을 복합적으로 이용하여 질의 유형을 인식할 수 있다.
물론, 상기 질의 인식기(110)의 질의 유형 인식을 위한 기준은 본 실시 예에서 언급된 기준에 한정되는 것은 아니다.
특히, 상기 질의 인식기(110)는 다양한 종류의 질의 유형 인식 기준 중 성능 비교기(130)에 의해 성능 개선에 적합한 것으로 선택된 질의 유형 인식 기준에 따라 질의의 유형을 인식할 수 있다.
그리고, 상기 질의 인식기(110)는 다양한 종류의 기준을 순차적으로 적용하여 질의 유형을 인식할 수 있다.
예를 들어, 상기 질의 인식기(110)는, 입력되는 질의에 대한 유형을 인식함에 있어서, 순차적으로 질의가 어느 질의 내용 분야에 해당하는지를 인식하고, 어느 질의 구조에 해당하는지를 인식하고, 어느 정답 형태에 해당하는지를 인식하고, 어느 정답 유형에 해당하는지를 인식하고, 어느 정답 제약 정보에 해당하는지를 인식하는 과정을 통해 최종적으로 질의 유형을 인식할 수 있다.
이와 같은 과정에 따라 질의 유형을 인식하는 경우, 표 1 및 표 2에 나열된 기준을 이용하는 질의 인식기(110)는 총 17,136(=14×3×3×17×8)개의 유형 중 어느 하나의 유형으로 질의를 인식할 수 있다.
본 발명의 실시 예에 있어서, 질의 유형 인식 기준으로서 질의 내용 분야를 이용하는 이유는 백과사전의 지식 구성이 분야별로 어느 정도 차별성을 가지면서 구성될 확률이 높기 때문이다.
본 발명의 실시 예에 있어서, 질의 유형 인식 기준으로서 질의 구조를 이용하는 이유는 질의 구조에 따라서 검색 및 정답후보 생성하는 방법이 달라질 확률이 높기 때문이다.
본 발명의 실시 예에 있어서, 질의 유형 인식 기준으로서 정답 형태를 이용하는 이유는 정답 형태에 따라 검색, 정답후보 생성, 근거 검색 및 추론을 하는 방법이 달라지기 때문이다.
본 발명의 실시 예에 있어서, 질의 유형 인식 기준으로서 정답 유형을 이용하는 이유는 위키피디아 등의 백과 사전류의 지식 구축 형태가 정답 유형에 따라 비슷한 구조를 가질 확률이 높기 때문이다.
상기 질의 응답 엔진(120)은 질의 유형 인식기(110)로부터의 질의 유형 인식 결과 혹은 정답 추론 모델 정보를 기초로 하여, 질의에 대한 정답을 추론하는 데에 이용되는 정답 추론 모델을 선택하여 답을 추론하여 제공한다.
이를 위해, 상기 질의 응답 엔진(120)은 질의 유형별 정답 추론 모델 정보를 테이블 형태로 저장하고 있을 수 있다.
따라서, 상기 질의 응답 엔진(120)은 질의 유형을 인식한 후, 인식된 질의 유형과 매칭하는 정답 추론 모델을 확인할 수 있다.
상기 성능 비교기(130)는 다양한 종류의 질의 유형 인식 기준 중 질의 유형 인식기(110)의 질의 유형 인식에 이용될 질의 유형 기준을 선택할 수 있다.
이때, 상기 성능 비교기(130)는 질의 응답 엔진(120)과의 연동을 통해, 질의 유형 인식기(110)의 질의 유형 인식에 이용될 질의 유형 기준을 선택할 수 있다.
이하, 상기 질의 응답 엔진(120) 및 상기 성능 비교기(130)에 의해 질의 유형 인식 기준이 선택되는 과정에 대해서 도 3을 참조하여 구체적으로 설명한다.
도 3에 도시된 바와 같이, 다양한 종류의 학습용 질의가 질의 유형 인식기(110) 및 질의 응답 엔진(120)으로 입력되며, 질의 유형 인식(110) 및 질의 응답 엔진(120)으로 입력되는 학습용 질의 셋(set)은 동일하다.
상기 질의 응답 엔진(120)으로 학습용 질의를 직접 입력시키는 이유는 질의 유형에 따른 분류를 하지 않은 상태에서의 질의 응답 엔진(120)의 성능을 추출하기 위해서이다.
그리고, 상기 질의 유형 인식기(110)로 학습용 질의를 입력시키는 이유는 질의 유형을 분류한 상태에서의 질의 응답 엔진(120)의 성능을 추출하기 위해서이다.
구체적으로, 상기 질의 응답 엔진(120)은 입력되는 학습용 질의에 대한 정답을 추론하는 과정에서의 성능(‘기준 성능’)을 성능 비교기(130)로 제공한다.
그리고, 상기 질의 유형 인식기(110)는 예를 들어, 표 1 및 표 2에 나열된 바와 같은 기준을 바탕으로, 입력되는 학습용 질의에 대한 질의 유형을 인식하고, 질의 유형 인식 결과를 질의 응답 엔진(120)으로 제공한다.
혹은, 상기 질의 유형 인식기(110)는 질의 유형 인식 결과를 바탕으로 정답 추론 모델 정보를 결정하여 질의 응답 엔진(120)으로 제공할 수도 있다.
이때, 상기 질의 유형 인식기(110)는 질의 유형 인식 결과 혹은 정답 추론 모델 정보를 질의 응답 엔진(120)으로 제공하면서, 학습용 질의도 함께 질의 응답 엔진(120)으로 제공한다.
그리면, 상기 질의 응답 엔진(120)은 질의 유형 인식기(110)로부터의 학습용 질의에 대한 정답을 추론하는 과정에서의 성능을 성능 비교기(130)로 제공한다.
이때, 상기 질의 응답 엔진(120)은 질의 유형 인식기(110)로부터 학습용 질의와 함께 질의 유형 인식 결과를 제공받은 경우, 질의 유형 인식 결과에 적합한 정답 추론 모델을 결정 및 이용하여 정답을 추론한다.
한편, 상기 질의 응답 엔진(120)은 질의 유형 인식기(110)로부터 학습용 질의와 함께 정답 추론 모델 정보를 제공받은 경우, 다양한 종류의 정답 추론 모델 중 정답 추론 모델 정보에 해당하는 정답 추론 모델을 이용하여 정답을 추론한다.
그리고, 상기 질의 응답 엔진(120)은 학습용 질의에 대한 정답을 추론하는 과정에서의 성능(‘비교 성능’)을 성능 비교기(130)로 제공한다.
상기 성능 비교기(110)는 질의 응답 엔진(120)으로부터의 기준 성능 및 비교 성능을 비교하여, 기준 성능 대비 비교 성능이 큰 경우에 있어서의 질의 유형 인식 시에 이용된 기준을 선택한다.
본 발명의 실시 예에 있어서, 하나의 학습용 질의에 대해서 기준 성능 및 비교 성능이 성능 비교기(110)로 제공되기 때문에, 성능 비교기(110)는 학습용 질의의 개수에 해당하는 회수만큼 기준 성능과 비교 성능을 비교한다.
이상에서는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 구성 및 구성별 기능에 대해서 살펴보았다. 이하에서는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 질의응답 과정에 대해서 구체적으로 설명한다.
도 4는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 질의응답 방법을 설명하기 위한 순서도이다.
도 4에 도시된 단계별 동작은 도 1 내지 3을 참조하여 설명된 신뢰도 기반 질의응답 시스템(100)에 의해 수행될 수 있는 것으로서, 질의응답 시스템(100)은 질의 유형 인식에 이용할 질의 유형 인식 기준을 설정한다(S400).
상기 단계 S400에 있어서의 질의 유형 인식 기준을 설정하는 과정에 대해서는 도 5를 참조하여 후술한다.
상기 단계 S400 이후, 질의응답 시스템(100)은 입력되는 질의를 분석하여 질의의 유형을 인식하고, 질의 유형 인식 결과를 생성한다(S410).
이때, 상기 단계 S410에서 질의응답 시스템(100)은 단계 S410에서 설정된 질의 유형 인식 기준을 이용하여 질의 유형 인식 결과를 생성한다.
그리고, 상기 단계 S410에서 질의응답 시스템(100)은 질의 유형 인식 결과에 따라, 정답 추론 모델 정보를 생성할 수 있다.
상기 단계 S410 이후, 질의응답 시스템(100)은 단계 S410에서의 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고(S420), 선택된 정답 추론 모델을 이용하여 정답을 추론하여 제공한다(S430).
한편, 상기 단계 S420에서 질의응답 시스템(100)은 단계 S410에서의 정답 추론 모델 정보를 기초로 하여 정답 추론 모델을 선택할 수 있다.
이하, 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 질의응답 방법 중 질의 유형 인식 기준 과정을 도 5를 참조하여 설명한다.
도 5는 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의응답 시스템의 질의응답 방법에 있어서 질의 유형 인식 기준 과정을 설명하기 위한 순서도이다.
도 5를 참조하면, 학습용 질의 셋(set)이 입력되면(S500), 질의응답 시스템(100)은 학습용 질의별로 정답을 추론하고, 추론하는 과정에서의 성능(‘기준 성능’)을 생성한다(S510).
그리고, 상기 단계 S500에서의 학습용 질의 셋에 대해서, 질의응답 시스템(100)은 질의 유형 인식 기준을 이용하여 학습용 질의별로 유형을 인식하고, 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하여 정답을 추론하고, 추론하는 과정에서의 성능(‘비교 성능’)을 생성한다(S520).
따라서, 상기 단계 S510에서 생성되는 기준 성능 및 단계 S520에서 생성되는 비교 성능은 학습용 질의의 개수만큼 생성된다.
이후, 상기 질의응답 시스템(100)은 학습용 질의별 기준 성능 및 비교 성능을 비교한다(S530).
상기 단계 S530에서, 질의응답 시스템(100)은 임의의 하나의 학습용 질의에 대해 생성되는 2가지의 성능, 즉 기준 성능과 비교 성능을 비교한다.
따라서, 상기 단계 S530에서의 성능 비교는 학습용 질의의 개수만큼 반복되고, 학습용 질의의 개수만큼 비교 결과가 생성된다.
상기 단계 S530에서의 비교 결과에 따라, 질의응답 시스템(100)은 학습용 질의에 대한 유형 인식에 이용된 기준 중 실제 질의에 대해 이용될 질의 유형 인식 기준을 선택한다(S540).
상기 단계 S540에서 질의응답 시스템(100)은 비교 결과, 기준 성능 대비 비교 성능이 큰 경우에 있어서의 질의 유형 인식 시에 이용된 기준을 실제 질의에 대해 이용될 질의 유형 인식 기준으로 선택한다.
도 6은 본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의 응답 방법이 실행될 수 있는 컴퓨터 장치의 일 구성을 도시한 도면이다.
본 발명의 바람직한 실시 예에 따른 신뢰도 기반 질의 응답 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다.
도 6에 도시된 바와 같이, 컴퓨터 시스템(600)은 적어도 하나 이상의 프로세서(610)와, 메모리(620)와, 사용자 입력 장치(630)와, 데이터 통신 버스(640)와, 사용자 출력 장치(650)와, 저장소(660)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(640)를 통해 데이터 통신을 한다.
상기 프로세서(610)는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리(620) 및/또는 저장소(660)에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
상기 메모리(620) 및 상기 저장소(660)는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리(620)는 ROM(621) 및 RAM(622)을 포함할 수 있다.
이상에서 설명한 본 발명의 실시 예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 기능 혹은 모든 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
이상에서와 같이, 본 발명에 따른 신뢰도 기반 질의응답 시스템 및 방법을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.
따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 질의응답 시스템
110 : 질의 유형 인식기
120 : 질의 응답 엔진
130 : 성능 비교기

Claims (8)

  1. 입력되는 실제 질의에 대해, 상기 실제 질의에 대한 유형 인식에 이용되는 제 1 질의 유형 인식 기준을 바탕으로 상기 실제 질의에 대한 유형을 인식하여, 상기 실제 질의에 대한 제 1 질의 유형 인식 결과를 생성하는 질의 유형 인식기;
    상기 제 1 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고, 선택된 정답 추론 모델을 이용하여 정답을 추론하는 질의 응답 엔진; 및
    상기 제 1 질의 유형 인식 기준을 설정하는 성능 비교기를 포함하는
    신뢰도 기반 질의응답 시스템.
  2. 제 1 항에 있어서,
    상기 질의 응답 엔진은 입력되는 학습용 질의에 대한 정답을 추론하고, 추론하는 과정에서의 기준 성능을 상기 성능 비교기로 제공하는
    신뢰도 기반 질의응답 시스템.
  3. 제 2 항에 있어서,
    상기 질의 유형 인식기는 상기 학습용 질의에 대해 제 2 질의 유형 인식 기준을 바탕으로 상기 학습용 질의에 대한 유형을 인식하여, 상기 학습용 질의에 대한 제 2 질의 유형 인식 결과를 생성하고,
    상기 질의 응답 엔진은 상기 제 2 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고, 선택된 정답 추론 모델을 이용하여 정답을 추론하고, 추론하는 과정에서의 비교 성능을 상기 성능 비교기로 제공하는
    신뢰도 기반 질의응답 시스템.
  4. 제 3 항에 있어서,
    상기 성능 비교기는 상기 기준 성능과 상기 비교 성능을 비교하고, 비교 결과, 상기 기준 성능 대비 상기 비교 성능이 큰 경우에 있어서의 질의 유형 인식 시에 이용된 기준을 상기 제 1 질의 유형 인식 기준으로 설정하는
    신뢰도 기반 질의응답 시스템.
  5. 제 1 항에 있어서,
    상기 제 1 질의 유형 인식 기준은 질의 내용 분야, 질의 구조, 정답 형태, 정답 유형 및 정답 제약 정보 중 적어도 하나 이상을 포함하는
    신뢰도 기반 질의응답 시스템.
  6. 실제 질의에 대한 질의 유형 인식에 이용할 제 1 질의 유형 인식 기준을 설정하는 단계;
    입력되는 실제 질의에 대해, 상기 제 1 질의 유형 인식 기준을 이용하여 실제 질의에 대한 유형을 인식하여 제 1 질의 유형 인식 결과를 생성하는 단계;
    상기 제 1 질의 유형 인식 결과를 기초로 하여 정답 추론 모델을 선택하고, 선택된 정답 추론 모델을 이용하여 정답을 추론하는 단계를 포함하는
    신뢰도 기반 질의응답 방법.
  7. 제 6 항에 있어서,
    상기 제 1 질의 유형 인식 기준을 설정하는 단계는,
    입력되는 학습용 질의 셋에 대해, 학습용 질의별로 정답을 추론하고, 추론하는 과정에서의 기준 성능을 생성하는 단계;
    학습용 질의별 질의 유형 인식 결과를 바탕으로 선택되는 정답 추론 모델을 이용하여 학습용 질의별로 정답을 추론하고, 추론하는 과정에서의 비교 성능을 생성하는 단계;
    상기 기준 성능과 상기 비교 성능을 비교하는 단계; 및
    비교 결과, 상기 기준 성능 대비 상기 비교 성능이 큰 경우에 있어서의 질의 유형 인식 시에 이용된 기준을 실제 질의에 대해 이용될 질의 유형 인식 기준으로 선택하는 단계를 포함하는
    신뢰도 기반 질의응답 방법.
  8. 제 6 항에 있어서,
    상기 제 1 질의 유형 인식 기준은 질의 내용 분야, 질의 구조, 정답 형태, 정답 유형 및 정답 제약 정보 중 적어도 하나 이상을 포함하는
    신뢰도 기반 질의응답 방법.
KR1020170159871A 2017-11-28 2017-11-28 신뢰도 기반 질의응답 시스템 및 방법 KR102072238B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170159871A KR102072238B1 (ko) 2017-11-28 2017-11-28 신뢰도 기반 질의응답 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170159871A KR102072238B1 (ko) 2017-11-28 2017-11-28 신뢰도 기반 질의응답 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190061460A true KR20190061460A (ko) 2019-06-05
KR102072238B1 KR102072238B1 (ko) 2020-02-03

Family

ID=66845074

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170159871A KR102072238B1 (ko) 2017-11-28 2017-11-28 신뢰도 기반 질의응답 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102072238B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022097909A1 (ko) * 2020-11-09 2022-05-12 한국과학기술원 비지도 기반 질의 생성 모델의 학습 방법 및 장치
KR20220075714A (ko) * 2020-11-30 2022-06-08 주식회사 리노스 챗봇에서의 사용자 질의 분류 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김현기 외 4인, 엑소브레인 한국어 분석 및 질의응답 기술의 개발 현황 및 고도화 계획, 정보과학회지 제35권 제8호 (통권 제339호), (2017.8.공개)* *
김현기 외 5인, 한국전자통신연구원, WiseQA: 하이브리드 추론 기반 자연어 질의응답 기술 (2015.08.21.공개)* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022097909A1 (ko) * 2020-11-09 2022-05-12 한국과학기술원 비지도 기반 질의 생성 모델의 학습 방법 및 장치
KR20220062986A (ko) * 2020-11-09 2022-05-17 한국과학기술원 비지도 기반 질의 생성 모델의 학습 방법 및 장치
KR20220075714A (ko) * 2020-11-30 2022-06-08 주식회사 리노스 챗봇에서의 사용자 질의 분류 방법

Also Published As

Publication number Publication date
KR102072238B1 (ko) 2020-02-03

Similar Documents

Publication Publication Date Title
US11062179B2 (en) Method and device for generative adversarial network training
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
US20050114377A1 (en) Computerized method, system and program product for generating a data mining model
US20130262086A1 (en) Generation of a semantic model from textual listings
Sun et al. Ensemble softmax regression model for speech emotion recognition
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
CN106649739B (zh) 多轮交互信息继承识别方法、装置以及交互系统
JP2015529901A (ja) 製品認識に基づく情報分類
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
KR102271361B1 (ko) 자동 질의응답 장치
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
Li et al. From easy to hard: Two-stage selector and reader for multi-hop question answering
JP6936014B2 (ja) 教師データ収集装置、教師データ収集方法、及びプログラム
Noroozi et al. Seven: deep semi-supervised verification networks
CN112581327A (zh) 基于知识图谱的法律推荐方法、装置和电子设备
KR20190061460A (ko) 신뢰도 기반 질의응답 시스템 및 방법
Stoyanchev et al. Action state update approach to dialogue management
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
EP4030355A1 (en) Neural reasoning path retrieval for multi-hop text comprehension
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质
US20230062127A1 (en) Method for collaborative knowledge base development
KR20210050130A (ko) 음성 인식기의 인식률 개선을 위한 학습용 단어 수집 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right