KR20150129134A - 질의 응답 시스템 및 그 방법 - Google Patents

질의 응답 시스템 및 그 방법 Download PDF

Info

Publication number
KR20150129134A
KR20150129134A KR1020140054769A KR20140054769A KR20150129134A KR 20150129134 A KR20150129134 A KR 20150129134A KR 1020140054769 A KR1020140054769 A KR 1020140054769A KR 20140054769 A KR20140054769 A KR 20140054769A KR 20150129134 A KR20150129134 A KR 20150129134A
Authority
KR
South Korea
Prior art keywords
natural language
list
correct answer
generating
query
Prior art date
Application number
KR1020140054769A
Other languages
English (en)
Inventor
김영래
이형직
문진영
배창석
김현기
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140054769A priority Critical patent/KR20150129134A/ko
Priority to US14/602,904 priority patent/US10025849B2/en
Publication of KR20150129134A publication Critical patent/KR20150129134A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

자연어 질의에 대한 응답 시스템 및 그 방법을 개시한다. 입력되는 자연어 질의에 매핑되는 문서를 추출하고, 추출된 문서에서 상기 자연어 질의어에 대한 정답 후보들을 생성하는 정답 후보 생성부, 상기 생성된 정답 후보들을 각각 포함하는 다수의 증거 문장과 상기 자연어 질의 간에 연관 정도를 나타내는 함의 인식 결과를 생성하는 텍스트 함의 인식부, 상기 함의 인식 결과를 근거로, 상기 다수의 증거 문장을 상기 연관 정도가 높은 순으로 나열한 정답 후보 리스트를 생성하는 리스트 생성부; 및 상기 생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 출력부를 포함한다.

Description

질의 응답 시스템 및 그 방법 {System for Answering and the Method thereof}
본 발명은 질의 응답 시스템 및 그 방법에 관한 것으로서, 구체적으로 자연어 질의에 대한 응답을 제공하는 질의 응답 시스템 및 그 방법에 관한 것이다.
스마트 기기의 보급으로 언제 어디서나 웹상의 각종 문서에 존재하는 정보를 쉽고 빠르게 획득할 수 있다. 일반적으로 사용자는 질의 응답 시스템을 이용하기 위해서, 질문의 키워드를 입력한다.
종래의 질의 응답 시스템은 입력된 키워드를 바탕으로 질문에 대한 답이 포함된 문서들의 나열을 보여준다. 예컨대, 종래의 질의 응답 시스템은 빈도수, n-gram, 문서 신뢰도 및 Page Rank와 같은 순위화 알고리즘을 통하여 문서들을 순위화하고, 순위화된 문서들의 나열을 보여 준다. 사용자는 자신의 질문에 대한 정답을 문서 내에서 찾아야 한다.
종래의 또 다른 질의 응답 시스템으로 키워드들의 단어 빈도수와 역문서 빈도수의 곱을 가중치로 사용하는 TF-IDF(Term Frequency ? Inverse Document Frequency) 기술이 있다. 예컨대, TF-IDF는 문서 내에 특정 단어의 가중치를 획득한다. 이후, 사용자는 사용자에게 기설정된 가중치 이상의 단어가 포함된 문서를 검색 결과로서 제공받는다. 이를 통해 문서 내에서 키워드 기반 검색을 가능하게 한다.
N-gram은 음절 단위의 색인어를 생성하고, 생성된 색인어를 검색어에 매칭 시키는 방법이다. 예컨대, N-gram 은 입력된 키워드의 나열 순서와 검색된 문서에 포함된 키워드의 나열 순서 간의 동일 여부를 파악한다. N-gram 은 주로 정확한 키워드들이 들어간 문서를 찾기 위해 사용된다.
N-gram과 유사하게 longest matching 기법이 있다. Longest matching 이란 문서와 키워드 간의 동일화 되는 부분이 가장 긴 문서에 신뢰도를 더하는 기법이다. Longest matching은 주로 긴 키워드로 검색을 하거나 동일한 문장을 포함하는 문서를 찾기 위해 사용한다.
Page Rank는 문서를 순위화 할 때 문서 신뢰도를 나타내는 기법이다. 예컨대, Page Rank는 하이퍼링크를 걸은 타 사이트의 개수만큼 신뢰도가 올라가는 방식의 계산법이다.
전술한 종래의 검색 방법들은 키워드 기반 검색 방법으로, 과도하게 많은 정보를 보여준다. 사용자는 자신이 원하는 답을 찾기 위해, 키워드 기반으로 검색된 과도한 정보를 이해하는데 노력이 필요하다. 이로 인해, 검색에 따른 사용자 피로도가 증가한다.
아울러, 종래에는 자연어로 입력을 받더라도 자연어에서 키워드를 추출하여 검색하는 방식을 택하기 때문에, 자연어의 의미나 뜻을 반영하지 않는다.
본 발명의 목적은 자연어 질의와 정답 후보에 대한 텍스트 함의 인지 수행 결과에 따라, 증거 문장을 합성하여 정답 후보 리스트를 생성함으로써, 사용자에게 정답 기반 출력을 제공하는 응답 시스템 및 그 방법을 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일면에 따른 질의 응답 시스템은 사운드 및 텍스트 형태 중 적어도 하나의 형태를 갖는 자연어 질의를 입력받는 입력부, 입력되는 자연어 질의에 매핑되는 문서를 추출하고, 추출된 문서에서 상기 자연어 질의어에 대한 정답 후보들을 생성하는 정답 후보 생성부, 생성된 정답 후보들을 각각 포함하는 다수의 증거 문장과 상기 자연어 질의 간에 연관 정도를 나타내는 함의 인식 결과를 생성하는 텍스트 함의 인식부, 함의 인식 결과를 근거로, 상기 다수의 증거 문장을 상기 연관 정도가 높은 순으로 나열한 정답 후보 리스트를 생성하는 리스트 생성부 및 생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 출력부를 포함한다.
텍스트 함의 인식부는 어휘 망 사이의 거리 및 단어 유사도 중 적어도 하나를 이용하여 증거 문장과 상기 자연어 질의 간의 함의를 인식하는 단어 함의 인식부, 구문 구조의 유사도와 패턴 유사도를 기반으로 상기 증거 문장과 자연어 질의간 함의를 인식하는 문장 함의 인식부 및 격틀을 이용하여 증거 문장과 상기 자연어 질의간 함의를 인식하는 문맥 함의 인식부를 포함한다.
리스트 생성부는 단어들의 유사도를 기반으로 정답 후보와 증거 문장을 합성하여 단어 타입의 기본형 정답 후보 리스트를 생성하는 기본형 리스트 생성부, 구문구조의 유사도, 패턴 유사도, 격틀 중 적어도 어느 하나를 기반으로 정답 후보와 증거문장을 합성하여 문장 타입의 정의형 정답 후보 리스트를 생성하는 정의형 리스트 생성부 및 정답 후보와 증거문장을 합성하여 단어 나열 타입의 나열형 정답 후보 리스트를 생성하는 나열형 리스트 생성부를 포함한다.
정의형 리스트 생성부는 텍스트 리스트의 함의 인지를 통해 상기 텍스트 리스트의 공통된 순서를 통계적 및 의미적으로 추출하여 상기 추출된 텍스트 리스트를 합성한다.
출력부는 정답 후보 리스트 중 사용자에 의해 선택된 정답 후보에 대응하는 증거문장을 출력한다.
정답 후보 리스트의 수는, 디스플레이 화면의 크기에 따라 결정한다.
본 발명의 다른 일면에 따른 질의 응답 방법은, 자연어 질의에 대한 정답 후보들을 생성하는 단계, 생성된 정답 후보들을 각각 포함하는 다수의 증거 문장과 상기 자연어 질의간에 상관관계를 나타내는 함의 인식 결과를 생성하는 단계, 상기 함의 인식 결과를 근거로, 상기 다수의 증거 문장을 상기 연관 정도가 높은 순으로 나열한 정답 후보 리스트를 생성하는 단계 및 상기 생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 단계를 포함한다.
자연어 질의어에 대한 정답 후보들을 생성하는 단계는 자연어 질의를 입력 받는 단계, 입력된 자연어 질의의 함의 인식을 수행하는 단계, 함의 인식 결과를 통해 상기 자연어 질의의 의미를 확장하는 단계, 확장된 상기 자연어 질의에 매핑되는 문서를 추출하는 단계 및 추출된 문서에서 상기 자연어 질의에 대한 정답 후보를 생성하는 단계를 포함한다.
함의 인식 결과를 생성하는 단계는 어휘 망 사이의 거리 및 단어 유사도 중 적어도 하나를 이용하여 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 단계, 구문 구조의 유사도 및 패턴 유사도 중 적어도 하나를 기반으로 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 문장 함의 인식 단계 및 격틀을 이용하여 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 문맥 함의 인식 단계를 포함한다.
정답 후보 리스트를 생성하는 단계는 단어들의 유사도를 기반으로 정답 후보와 증거문장을 합성하여 단어 타입의 기본형 정답 후보 리스트를 생성하는 단계, 구문구조의 유사도, 패턴 유사도, 격틀 중 적어도 어느 하나를 기반으로 정답 후보와 증거문장을 합성하여 문장 타입의 정의형 정답 후보 리스트를 생성하는 단계 및 정답후보와 증거문장을 합성하여 단어 나열 타입의 나열형 정답 후보 리스트를 생성하는 단계를 포함한다.
정의형 정답 후보 리스트를 생성하는 단계는 생성된 정답 후보가 텍스트 리스트 형태인 정의형 정답 후보 리스트를 생성하는 경우, 상기 텍스트 리스트의 함의 인지를 통해 상기 텍스트 리스트의 공통된 순서를 통계적으로 추출하여 상기 추출된 텍스트 리스트를 나열한다.
생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 단계는 정답 후보 리스트 중 임의의 답이 선택되면, 상기 선택된 임의의 답에 대응하는 증거문장을 출력하는 단계를 포함한다.
생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 단계는 생성된 정답 후보 리스트 중 하나를 선택 받는 단계를 포함한다.
자연어 질의에 대한 정답 후보를 생성하는 단계는 정답 후보 리스트의 수를 디스플레이 화면의 크기에 따라 조정하는 단계를 포함한다.
본 발명에 따르면 질의에 대한 응답으로 사용자에게 정답 후보 리스트를 제공한다. 사용자는 질의에 대한 정답을 문서들 중 찾는 것이 아닌, 정답 후보와 증거 문장이 합성된 형태의 정답 후보 리스트 중 질의에 대한 정답을 선택하게 됨으로써, 보다 편리하게 사용자가 원하는 검색 응답을 획득할 수 있다. 아울러 텍스트 함의 인지를 통한 자연어 기반 검색이 가능하다.
도 1은 본 발명의 일실시예에 따른 응답 시스템을 나타낸 블록도이다.
도 2는 본 발명의 일실시예에 따른 응답 시스템의 세부 구성을 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 응답 시스템의 출력 흐름을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 질의 응답 방법을 나타낸 순서도이다.
도 5는 본 발명의 일실시예에 따른 자연어 질의에 대한 정답 후보들을 생성하는 단계를 보다 상세하게 나타낸 순서도이다.
도 6은 본 발명의 일실시예에 따른 함의인식 결과를 생성하는 단계를 보다 상세하게 나타낸 순서도이다.
도 7은 본 발명의 일실시예에 따른 정답 후보 리스트를 생성하는 단계를 보다 상세하게 나타낸 순서도이다.
도 8은 본 발명의 일실시예에 따른 정답 후보 리스트의 출력예를 나타낸 도면이다.
도 9는 본 발명의 일실시예에 따른 디스플레이 화면 크기에 따른 출력의 차이를 보여주기 위한 도면이다.
본 발명에서는 자연어 질의에 대한 정답 후보와 정답 후보를 포함하는 증거문장을 텍스트 함의 인지를 통해 합성하여, 자연어 질의에 대한 정답 후보 리스트를 사용자에게 제공한다. 이로써, 사용자는 검색된 문서들 내에서 질의 대한 정답을 찾는 것이 아니라, 검색된 정답 후보 리스트 내에서 질의에 대한 정답을 선택한다. 이렇게 함으로써, 사용자는 편리하게 질의에 대한 응답을 제공받을 수 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 용이하게 이해할 수 있도록 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 용어의 설명은 본 명세서의 이해를 돕기 위한 것으로서 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.
- 텍스트 함의 인식( Textual Entailment )
텍스트 함의 인식은 두 텍스트 간의 의미적 연관성(Semantic Association) 측정을 토대로 이들 간의 논리적 관계를 파악하는 기술이다. 여기서, 두 텍스트 간의 논리적 관계는 T와 H 사이의 방향성이 있다고 가정하면, 텍스트 함의 인식을 통해 파악된다. 즉, 텍스트 함의 인식은 두 텍스트 T(Text)와 H(Hypothesis)에 대해서, T 를 기반으로 H 를 유추할 수 있는지를 판단한다.
- 자연어 ( Natural Language )
자연어는 인공어와 구분되는 개념이다. 인공어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어이다. 예컨대, 검색 엔진에 입력하는 자연어 질의는, '김치찌개 끓이는 방법을 추천해줘' 등 일상적으로 쓰는 형식의 질의 형태이다.
이하 전술하는 본 발명의 실시예에 따른, 질의 응답 시스템 및 그 방법은 컴퓨터 또는 이와 동일한 컴퓨팅 자원에서 구현 가능하다.
컴퓨팅 자원에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, 디지털 TV, 데스크탑 컴퓨터 등과 같은 고정 단말기, 오직 음성을 지원하는 기기 등을 포함할 수 있다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 응답 시스템을 나타낸 블록도이다.
도 1을 참조하면, 정답 후보 리스트를 제공하기 위한 응답 시스템은 정답 후보 생성부(110), 텍스트 함의 인식부(120), 리스트 생성부(130) 및 출력부(140)를 포함한다.
정답 후보 생성부(110)는 입력되는 자연어 질의에 매핑되는 문서를 추출하고, 추출된 문서에서 자연어 질의어에 대한 정답 후보들을 생성한다. 이후, 정답 후보 생성부(110)는 생성한 정답 후보 정보(I4)를 리스트 생성부(130)로 전달한다. 아울러, 정답 후보 생성부(110)는 생성한 정답 후보 정보(I1)를 텍스트 함의 인식부(120)로 전달한다.
텍스트 함의 인식부(120)는 정답 후보 정보(I1)를 전달 받아, 정답 후보들을 각각 포함하는 다수의 증거 문장과 자연어 질의 간에 함의 인식을 수행한다. 함의 인식의 결과로서 다수의 증거 문장과 자연어 질의 간 연관도가 획득될 수 있다. 이후, 텍스트 함의 인식부(120)는 다수의 증거 문장과 자연어 질의 간 연관도 정보(I3)를 리스트 생성부(130)로 전달한다.
리스트 생성부(130)는 다수의 증거 문장과 자연어 질의 간 연관도 정보(I3)와 정답 후보 정보(I4)를 전달받는다. 여기서, 정답 후보 정보에는 정답 후보를 포함하는 증거 문장 정보가 포함된다. 리스트 생성부(130)는 연관도 정보에 따라, 다수의 증거문장을 연관도가 높은 순으로 나열한 정답 후보 리스트를 생성한다. 이후, 리스트 생성부(130)는 생성한 정답 후보 리스트(I5)를 출력부(140)로 전달한다.
출력부(140)는 전달받은 정답 후보 리스트를 자연어 질의에 대한 검색 결과로서 출력한다. 여기서, 정답 후보 리스트의 수는 정답 후보 리스트가 디스플레이 되는 화면의 크기에 따라 결정된다.
일실시예에 따라, 사용자는 자연어 질의에 대한 정답을 문서들 중 찾는 것이 아닌, 정답 후보 리스트에 포함된 정답 후보 중 필요한 정답 정보를 선택할 수 있다.
도 2는 본 발명의 일실시예에 따른 응답 시스템의 세부 구성을 나타낸 블록도이다.
도 2를 참조하면, 정답 후보 리스트 생성을 위한 질의 응답 시스템은 입력부(100), 정답 후보 생성부(110), 텍스트 함의 인식부(120), 리스트 생성부(130), 출력부(140), 어휘 데이터 베이스(DB)(150) 및 함의 인식 데이터 베이스(DB)(160)를 포함한다.
입력부(100)는 음향 입력부(112) 및 텍스트 입력부(114)를 포함한다. 음향 입력부(112)는 음향 형태로 사용자로부터 자연어 질의를 입력 받는다. 텍스트 입력부(114)는 디스플레이 인터페이스를 통해 텍스트 형태로 사용자로부터 자연어 질의를 입력 받는다. 입력 받은 자연어 질의 정보(I11)는 정답 후보 생성부(110)로 전달된다.
정답 후보 생성부(110)는 입력되는 자연어 질의에 매핑되는 문서를 추출하고, 추출된 문서에서 자연어 질의에 대한 적어도 하나의 정답 후보를 생성한다. 이를 위한, 정답 후보 생성부(110)는 전처리부(113) 및 생성부(115)를 포함한다.
전처리부(113) 전달받은 자연어 질의 정보(I11)를 이용하여 텍스트 함의 인식을 수행함으로써, 자연어 질의의 의미를 확장시킨다. 예컨대, 전처리부(113)는 격틀(case-frame) 및 격틀간의 상관관계를 이용하여 자연어 질의의 의미를 확장시킨다.
구체적으로, 전처리부(113)는 기본 격틀을 피동 및 사동 관계에 있는 격틀로 확장하여 자연어 질의의 의미를 확장한다. 예컨대, 기본 격틀이"나는 너를 좋아한다” (A, B, ~는 ~를 좋아한다)인 자연어 질의를 입력 받으면, 이 자연어 질의는 전처리부(113)에 의해 피동 관계인 "너는 나에게 좋아함을 당한다."(C, D, ~는 ~에게 좋아함을 당한다) 의 격틀로 확장될 수 있다.
아울러, 전처리부(113)는 유의어를 이용하여 자연어 질의의 의미를 확장한다. 또한, 전처리부(113)는 일반화 작업을 통해 자연어 질의의 의미를 확장한다. 여기서, 일반화 작업은 단위 통일화 작업(영문 표기 가능?) 등을 포함한다. 예컨대, 2014.02.17, 2014년 2월 17일, 14.02.17 등은 2014-2-17와 같은, 년 월 일 단위로 통일하는 작업을 통해 자연어 질의의 의미가 확장될 수 있다.
이후, 전처리부(113)는 확장된 자연어 질의 정보(I13)를 생성부(115)로 전달한다.
생성부(115)는 전달받은 확장된 자연어 질의 정보(I13)에 매핑되는 문서를 추출한다. 생성부(115)는 추출된 문서로부터 자연어 질의에 대한 적어도 하나의 정답 후보를 생성한다. 이후, 생성부(115)는 정답 후보 정보(I14)를 리스트 생성부(130)로 전달한다. 아울러, 생성부(115)는 정답 후보 정보(I15)를 텍스트 함의 인식부(120)로 전달한다.
텍스트 함의 인식부는(120) 정답 후보 정보(I15)를 포함하는 다수의 증거 문장과 자연어 질의간 연관 정도를 나타내는 함의 인식을 수행한다. 이를 위한 텍스트 함의 인식부(120)는 단어 함의 인식부(121), 문장 함의 인식부(123) 및 문맥 함의 인식부(125)를 포함한다.
단어 함의 인식부(121)는 증거 문장과 자연어 질의간 단어 단위의 함의 인식을 수행한다. 예컨대, 단어 함의 인식부(121)는 어휘 데이터 베이스(150) 및 함의 인식 데이터 베이스(160)로부터 증거 문장과 자연어 질의에 포함된 어휘들의 어휘 망 사이의 거리 데이터, 단어 유사도 데이터 등을 추출한다. 여기서, 단어 유사도는 어휘 데이터 베이스(150)에 저장된 유의어 사전, 어휘 사전 등의 자료로부터 추출될 수 있다. 이후, 단어 함의 인식부(121)는 추출된 데이터를 기반으로 단어 간의 상관관계와 연관성을 획득한다. 예컨대, 단어 함의 인식부(121)는 획득된 유사도를 통해 단어간 상관관계를 획득할 수 있다.
어휘 데이터 베이스(150)에는 어휘 인터페이스, 어휘사전, 유의어 사전, 한국어 어휘망(Korlex), 반의어 사전, 동사사전 및 한국어 의미체계 (UOU-Word Intelligent Network, UWIN)가 저장된다.
함의 인식 데이터 베이스(300)에는 격틀 관계 데이터 베이스(162) 및 위키 함의 인식 데이터 베이스(WiKi Textual Entailment Database)(164)가 저장된다. 도면에 도시되지는 않았으나, 함의 인식 데이터 베이스(300)에는 웹텍스트 데이터 베이스, DOM 데이터 베이스, 테이블형 데이터 베이스 및 리스트형 데이터 베이스 등이 더 저장될 수 있다.
문장 함의 인식부(123)는 증거 문장과 자연어 질의 간 문장 단위의 함의 인식을 수행한다. 예컨대, 문장 함의 인식부(123)는 증거 문장과 자연어 질의의 형태소 분석을 통해 구문 구조의 유사도와 패턴 유사도를 추출한다. 이후, 문장 함의 인식부(123)는 추출된 증거 문장과 자연어 질의 간 구문 구조의 유사도와 패턴 유사도를 이용하여(비교하여) 문장 단위의 함의 인식을 수행한다. 여기서, 증거 문장 및 자연어 질의에 포함된 구문 구조는 의존 파싱(Dependency-based Parsing) 또는 컨텍스트 프리 파싱(Context-free Parsing)을 통하여 파악 될 수 있다.
문맥 함의 인식부(125)는 증거 문장과 자연어 질의 간 문맥 단위의 함의 인식을 수행한다. 예컨대, 문맥 함의 인식부(125)는 기존 격틀과 기존 격틀을 기반으로 확장한 격틀간의 관계를 이용하여 텍스트 함의 인식을 수행한다.
텍스트 함의 인식부(120)는 다수의 증거 문장과 자연어 질의 간 텍스트 함의 인식 결과 정보(I17)를 리스트 생성부(130)로 전달한다.
리스트 생성부(130)는 정답 후보 정보(I15)와 함의 인식 결과 정보(I17)를 전달받아, 다수의 증거 문장을 연관도가 높은 순으로 나열한 정답 후보 리스트를 생성한다. 여기서, 정답 후보 정보(I14)는 정답 후보가 포함된 증거 문장 정보를 포함한다. 이를 위한 리스트 생성부(130)는 기본형 리스트 생성부(131), 정의형 리스트 생성부(133) 및 나열형 리스트 생성부(135)를 포함한다.
기본형 리스트 생성부(131)는 함의 인식 결과인 단어들의 연관정도를 기반으로, 정답 후보와 증거문장을 합성하여 단어 타입의 기본형 정답 후보 리스트를 생성한다. 여기서, 기본형 정답 후보 리스트는 단순 질의에 대한 응답으로서, 하나의 단어가 답이 되는 형식의 리스트이다.
정의형 리스트 생성부(133)는 함의 인식 결과인 구문구조의 유사도, 패턴 유사도, 격틀 중 적어도 어느 하나를 기반으로 정답 후보와 증거문장을 합성하여 적어도 하나의 문장을 답으로 하는 정의형 정답 후보 리스트를 생성한다. 여기서, 정의형 정답 후보 리스트는 문장 타입의 정답 후보 리스트이다.
실시예에서, 정의형 리스트 생성부(133)는 생성된 정답 후보가 텍스트 리스트 형태인 정의형 정답 후보 리스트를 생성하는 경우, 텍스트 리스트의 함의 인지를 통해 텍스트 리스트의 공통된 순서를 통계적으로 추출한다. 이후, 정의형 리스트 생성부(133)는 통계적으로 추출된 텍스트 리스트를 나열한다. 예컨대, “김치찌개 끓이는 방법은?”의 질의에 대한 응답으로 List A, List B, List C 가 있다.
List A
1. In a shallow pot, put some chopped kimchi and juice.
2. Add sliced onion, hot pepper paste, hot pepper flakes, sugar, and green onions, and pork belly (or tuna).
3. Pour water over top until all the ingredients are submerged.
4. Close the lid of the pot and boil it 25 or 30 minutes. (first 10 minutes will be high heat and then turn down the heat over medium heat)
5. Add some tofu and boil it 5 minutes more and put some sesame oil right before serving.
List B.
1. Cook bacon (and/or oil drained from a tuna can) in a saucepan.
2. When the bacon is completely cooked, add kimchi, green onion, and a spoon of red pepper powder and stir-fry for about 3 minutes.
3. Add a cup of water, 1/3 cup of kimchi liquid, 1/2 spoon of crushed garlic, and jalapeno. Add the rest of the tuna in this step if you poured the oil in tuna can in Step 1.
4. Add tofu and stir until completely cooked.
List C.
1. Chop vegetables and pork belly
2. Start by adding the sesame oil and minced garlic
3. Add pork belly and keep cooking until the pink color is gone
4. If you like a thick and sweet stew, add onions and/or gochujang (both optional)
5. Add Kimchi and cook for about 10 mins. Add water and on low heat, cook for approximately 20+ mins. Longer the better
6. Add tofu and green onions last and cook for 5 more minutes. Add sugar as needed for sweeter flavor.
김치찌개 끓이는 방법에 대한 리스트(List A, List B, ListC)를 살펴보면, List C의 3번 문장과 List B의 1번 문장이 함의적으로 같은 의미를 나타냄을 알 수 있다. 아울러, List A의 4번 문장과 List B의 3번 문장 및 List C의 5번 문장은 다른 방식으로 쓰였으나 김치를 끓이라는 의미를 공통적으로 나타냄을 알 수 있다. 마찬가지로, List A의 5번 문장, List B의 4번 문장 및 List C의 6번 문장은 모두 두부를 넣고 5분간 끓이라는 의미를 나타낸다. 정의형 리스트 생성부(133)는 텍스트 리스트(List A, List B, List C)들을 텍스트 함의 인지를 통하여 통계적으로 합성한다. 정의형 리스트 생성부(133)에서 합성 결과에 따라 각 리스트에 포함된 공통된 순서가 통계적으로 추출되고, 통계적으로 추출된 공통된 순서는 정답 후보 목록의 형태로 합성된다.
이와 같이, 본 실시예에서는 통계적으로 합성된 정답 후보 목록 외에도 의미적으로 합성된 정답 후보 목록이 제시될 수 있다. 여기서, “의미적 합성”이란 엔진 사용자가 각 증거 별로 부여된 신뢰도와 진리(truth)로 설정된 하나의 데이터베이스에 기반하여 합성하는 방식을 의미한다.
나열형 리스트 생성부(135)는 자연어 질의에 대해 여러 문서에서 답을 추출한다. 이후, 나열형 리스트 생성부(135)는 추출된 답의 순서와 답의 조합(combination)을 고려하여 정답 후보 리스트를 생성한다. 예컨대, 나열형 리스트 생성부(135)는 "국보 1호, 2호, 3호의 정식 명칭은?"의 질의에 대한 답으로 "서울 숭례문, 원각사지십층석탑, 신라 진흥왕 순수비"의 나열 형태의 정답 후보 리스트를 생성한다. 아울러, 나열형 리스트 생성부(135)는 수를 포함하는 질의에 대해 정답의 개수를 고려하여 정답 후보 리스트를 생성한다. 예컨대,'3대 화가는?'이라는 질의에 대해 나열형 리스트 생성부(135)는 화가 3명을 답으로 하는 정답 후보 리스트를 생성한다.
리스트 생성부(130) 기본형, 정의형, 나열형의 정답 후보 리스트 정보(I19)를 출력부(140)로 전달한다.
출력부(140)는 전달받은 정답 후보 리스트와 상기 정답 후보 리스트 중 사용자에 의해 선택된 정답 후보에 대응하는 증거문장을 출력한다. 이를 위한 출력부(140)는 디스플레이부(141) 및 음향 출력부(143)를 포함한다.
디스플레이부(141)는 정답 후보 리스트와 사용자에 의해 선택된 정답 후보에 대응하는 증거문장을 디스플레이 한다. 이때, 정답 후보 리스트의 수는 디스플레이 화면의 크기에 따라 결정된다. 디스플레이부(141)는 이동 단말기에서 처리되는 정보를 표시한다. 디스플레이부(141)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다.
음향 출력부(143)는 정답 후보 리스트와 상기 정답 후보 리스트 중 사용자에 의해 선택된 정답 후보에 대응하는 증거문장을 음성으로 출력한다.
도 3은 본 발명의 일실시예에 따른 응답 시스템의 출력 흐름을 나타낸 도면이다.
도 3을 참조하면, 출력부(140)는 자연어 질의(31)에 대한 응답으로 기본형 정답 후보 리스트(32), 정의형 정답 후보 리스트(34) 및 나열형 정답 후보 리스트(36)를 출력한다.
기본형 정답 후보 리스트(32)는 단어를 답으로 하는 정답 후보 리스트이다. 실시예에서, 사용자가 단어로 구성된 기본형 정답 후보 리스트(32) 중 하나의 정답 후보를 선택하면, 출력부(140)는 선택한 정답 후보가 포함된 증거 문서 정보(33)를 출력한다. 출력되는 증거 문서 정보(33)는 증거문장, 증거문서 및 문서 신뢰도 등을 포함한다.
정의형 정답 후보 리스트(34)는 문장 또는 문장들의 순서를 답으로 하는 정답 후보 리스트이다. 실시예에서, 사용자가 답 문장 리스트 중 하나의 정답 후보를 선택하면, 출력부(140)는 선택한 정답 후보가 포함된 증거 문서 정보(35)를 출력한다. 여기서, 증거 문서 정보(35)에는 문서의 본문, 문서의 텍스트와 질의 사이에 함의 인지가 된 부분, 정보 출처, 문서들의 요약, 문서의 통계적 의미 등이 포함될 수 있다.
나열형 정답 후보 리스트(36)는 여러 문서에서 답을 추출하여, 답의 순서와 답의 조합을 고려하여 생성된 정답 후보 리스트이다. 실시예에서, 사용자가 정답 후보 리스트 중 하나를 선택하면 출력부(140)는 선택한 정답 후보가 포함된 증거 문서 정보(37)를 출력한다.
전술한 본 발명의 실시예에 따른 질의 응답 시스템은 자연어 질의에 대한 정답 후보와 증거문장을 텍스트 함의 인지를 통해 합성하여, 자연어 질의에 대한 정답 후보 리스트를 사용자에게 제공한다. 여기서 합성이란, 함의 인지 결과에 따라, 정답 후보 및 증거 문장을 추가하여 리스트화 하는 과정을 의미할 수 있다. 이로써, 사용자는 질의에 대한 정답을 문서들 중 찾는 것이 아닌, 정답 후보 리스트 중 질의에 대한 정답을 선택할 수 있다.
도 4는 본 발명의 일실시예에 따른 질의 응답 방법을 나타낸 순서도이다.
단계 S100에서는 정답 후보 생성부(110)에서 자연어 질의에 대한 정답 후보들을 생성하는 과정이 수행된다. 정답 후보 생성부(110)에서는 입력되는 자연어 질의에 매핑되는 문서를 추출하고, 추출된 문서에서 상기 자연어 질의어에 대한 정답 후보들을 생성하는 과정이 수행된다.
단계 S200에서는 텍스트 함의 인식부(120)에서 함의 인식 결과를 생성하는 과정이 수행된다. 텍스트 함의 인식부(120)에서는 생성된 정답 후보들을 각각 포함하는 다수의 증거 문장과 자연어 질의간에 상관관계를 나타내는 함의 인식 결과를 생성한다.
단계 S300에서는 리스트 생성부(130)에서 함의 인식 결과를 근거로, 정답 후보 리스트를 생성하는 과정이 수행된다. 예컨대, 리스트 생성부(130)에서는 다수의 증거 문장을 연관 정도가 높은 순으로 나열한 정답 후보 리스트를 생성한다.
단계 S400에서는 출력부(140)에서 생성된 정답 후보 리스트를 자연어 질의에 대한 검색 결과로서 출력하는 과정이 수행된다.
도 5는 본 발명의 일실시예에 따른, 자연어 질의에 대한 정답 후보들을 생성하는 단계를 보다 상세하게 나타낸 순서도이다.
단계 S110에서는 질의 입력부(111)에서 사용자로부터 자연어 질의를 입력 받는 과정이 수행된다.
단계 S120에서는 전처리부(113)에서 입력된 자연어 질의의 함의 인식하는 과정이 수행된다.
단계 S130에서는 전처리부(113)에서 함의 인식 결과를 통해 자연어 질의의 의미를 확장하는 과정이 수행된다.
단계 S140에서는 전처리부(113)에서 확장된 자연어 질의에 매핑되는 문서를 추출하는 과정이 수행된다.
단계 S150에서는 생성부(115)에서 추출된 문서에서 자연어 질의에 대한 정답 후보를 생성하는 과정이 수행된다.
도 6은 본 발명의 일실시예에 따른 함의인식 결과를 생성하는 단계를 보다 상세하게 나타낸 순서도이다.
단계 S210에서는 단어 함의 인식부(121)에서 증거문장과 자연어 질의간 텍스트 함의 인식 과정이 수행된다. 예컨대, 단어 함의 인식부(121)에서는 어휘 데이터 베이스(150) 및 함의 인식 데이터 베이스(160)로부터 증거 문장과 자연어 질의에 포함된 어휘들의 어휘 망 사이의 거리 데이터, 단어 유사도 데이터 등을 추출한다. 이후, 단어 함의 인식부(121)에서는 추출된 데이터를 이용하여 단어 간의 상관관계와 연관도 등의 데이터를 획득한다.
단계 S220에서는 문장 함의 인식부(123)에서 증거 문장과 자연어 질의간 문장 단위의 함의를 인식하는 과정이 수행된다. 문장 함의 인식부(123)는 구문 구조의 유사도 및 패턴 유사도 중 적어도 하나를 기반으로 증거 문장과 자연어 질의간 함의를 인식한다.
단계 S230에서는 문맥 함의 인식부(125)에서 증거 문장과 자연어 질의간 문맥 단위의 함의 인식 과정이 수행된다. 문맥 함의 인식부(125)는 격틀을 이용하여 증거문장과 자연어 질의간 함의를 인식한다.
도 7은 본 발명의 일실시예에 따른 정답 후보 리스트를 생성하는 단계를 보다 상세하게 나타낸 순서도이다.
단계 S310에서는 기본형 리스트 생성부(131)에서 정답 후보와 증거문장을 합성하여, 단어를 답으로 하는 기본형 정답 후보 리스트를 생성하는 과정이 수행된다. 예컨대, 기본형 리스트 생성부(131)에서는 단어들의 유사도를 기반으로 정답 후보 리스트와 증거 문장을 합성한다. 여기서, 합성이란 증거 문장과 정답 후보를 추가하여 나열하는 과정을 의미할 수 있다. 예컨대, 기본형 리스트 생성부(131)는 함의 인식 결과를 통해 얻은 단어간 유사도가 기 설정된 수치 이상인 정답 후보를 리스트화 하여 정답 후보 리스트를 생성한다.
단계 S320에서는 정의형 리스트 생성부(133)에서 정의형 정답 후보 리스트를 생성하는 과정이 수행된다. 예컨대, 정의형 리스트 생성부(133)는 구문구조의 유사도, 패턴 유사도, 격틀 중 적어도 어느 하나를 기반으로 정답 후보와 증거문장을 합성한다. 여기서, 합성이란 증거 문장과 정답 후보를 추가하여 나열하는 과정을 의미할 수 있다. 이후, 정의형 리스트 생성부(133)은 문장을 답으로 하는 정의형 정답 후보 리스트를 생성한다.
단계 S330에서는 나열형 리스트 생성부(135)에서 나열형 정답 후보 리스트를 생성하는 과정이 수행된다. 나열형 리스트 생성부(135)는 정답후보와 증거문장을 합성하여, 단어의 나열을 답으로 하는 나열형 정답 후보 리스트를 생성한다. 여기서, 합성이란 증거 문장과 정답 후보를 추가하여 나열하는 과정을 의미할 수 있다. 예컨대, 나열형 리스트 생성부(135)에서는 자연어 질의에 대해 여러 문서에서 답을 가져와 답의 순서와 답의 조합(combination)을 고려하여 정답 후보 리스트를 생성한다.
도 8은 본 발명의 일실시예에 따른 정답 후보 리스트의 출력예를 나타낸 도면이다.
도 8을 참조하면, 기본형의 경우, ‘미국의 대통령은?’ 의 질의(a)가 입력되면, 함의인식 결과 생성된 정답 후보 리스트(b)가 출력된다. 예컨대, 상기 질의에 대한 정답 후보 리스트는 1. 버락 후세인 오바마 90%, 2. 빌 클린턴 40% 등이다. 실시예에서, 사용자는 질의에 대한 적어도 하나 이상의 정답 후보 리스트와, 정답 후보에 대한 정보(c)를 함께 제공 받을 수 있다. 여기서, 정답 후보에 대한 정보는 텍스트 함의 인식 기법 등을 통한 신뢰도, 문서개수, 문서의 간략한 요약, 문서의 일부분 등을 포함한다. 다른 실시예로서, 사용자는 출력으로 문서의 리스트가 아닌 답의 리스트 정보 또는 답의 가장 높은 신뢰도를 가진 하나의 답의 정보를 얻을 수 있다. 아울러, 사용자는 증거 문장의 출처(d)도 제공 받을 수 있다.
정의형의 경우, “김치찌개 끓이는 방법?”의 질의(e)가 입력되면 질의에 대한 응답으로 김치찌개를 끓이는 방법을 나열하는 리스트(f)가 추출된다. 실시예에서는, 텍스트 리스트들을 텍스트 함의 인지를 통하여 합성하고, 공통된 순서를 통계적으로 추출한다. 이후, 추출된 공통된 순서를 리스트 형태로 나열하여 제공한다. 이때, 사용자가 정답 후보 리스트 중 하나를 선택하면, 상기 정답 후보에 대응하는 증거 문장(g)이 출력된다. 아울러, 증거 문장의 출처(h)도 출력 가능하다.
나열형의 경우, '국보 1호 2호 3호의 정식 이름은?'(i)의 질의가 입력되면, 나열형 리스트 생성부(135)는 나열형의 경우 여러 문서에서 답을 추출한다. 이후, 나열형 리스트 생성부(135)는 답의 순서와 답의 조합(combination)을 고려하여 정답 후보 리스트(j)를 생성한다. 예컨대, 나열형은 "국보 1호, 2호, 3호의 이름은?"(i)의 답으로 "서울 숭례문, 원각사지십층석탑, 신라 진흥왕 순수비"의 나열의 답이 나오는 형식이다.
나열형으로 도시된 정답 후보 리스트의 경우에도, 정답 후보 리스트 중 하나가 선택되면, 선택된 정답 후보에 대응하는 증거 문장(k)이 출력된다. 아울러, 증거 문장의 출처(l)도 출력 가능하다.
도 9는 본 발명의 일실시예에 따른 디스플레이 화면 크기에 따른 출력의 차이를 보여주기 위한 도면이다.
도 9를 참조하면, 출력하는 정답 후보 리스트의 수를 디스플레이 화면의 크기에 따라 조정된다. 예컨대, 디스플레이 화면이 작은 경우, 정답 후보 리스트의 일부(91)가 화면에 출력된다. 아울러, 디스플레이 화면 크기에 따라, 정답 후보에 대응하는 증거 문장의 일부(92)가 출력된다.
도 9에 도시된 바와 같이, 디스플레이 화면이 큰 경우에는 디스플레이 화면이 작은 경우보다 더 많은 수의 정답 후보 리스트(93)가 출력된다. 마찬가지로, 디스플레이 화면의 크기에 따라, 정답 후보에 대응하는 증거 문장(94)의 더 많은 부분이 출력된다.
전술한 바와 같이, 본 발명에서는 자연어 질의에 대한 정답 후보와 정답 후보를 포함하는 증거문장을 텍스트 함의 인지를 통해 합성하여, 자연어 질의에 대한 정답 후보 리스트를 사용자에게 제공한다. 이로써, 사용자는 검색된 문서들 내에서 질의 대한 정답을 찾는 것이 아니라, 검색된 정답 후보 리스트 내에서 질의에 대한 정답을 선택한다. 이렇게 함으로써, 사용자는 편리하게 질의에 대한 응답을 제공받을 수 있다.
이상 바람직한 실시예와 첨부도면을 참조하여 본 발명의 구성에 관해 구체적으로 설명하였으나, 이는 예시에 불과한 것으로 본 발명의 기술적 사상을 벗어나지 않는 범주 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (14)

  1. 질의 응답 시스템으로서,
    사운드 및 텍스트 형태 중 적어도 하나의 형태를 갖는 자연어 질의를 입력받는 입력부;
    상기 입력되는 자연어 질의에 매핑되는 문서를 추출하고, 추출된 문서에서 상기 자연어 질의어에 대한 정답 후보들을 생성하는 정답 후보 생성부;
    상기 생성된 정답 후보들을 각각 포함하는 다수의 증거 문장과 상기 자연어 질의 간에 연관 정도를 나타내는 함의 인식 결과를 생성하는 텍스트 함의 인식부;
    상기 함의 인식 결과를 근거로, 상기 다수의 증거 문장을 상기 연관 정도가 높은 순으로 나열한 정답 후보 리스트를 생성하는 리스트 생성부; 및
    상기 생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 출력부;
    를 포함하는 질의 응답 시스템.
  2. 제 1항에 있어서, 상기 텍스트 함의 인식부는
    어휘 망 사이의 거리 및 단어 유사도 중 적어도 하나를 이용하여 상기 증거 문장과 상기 자연어 질의 간의 함의를 인식하는 단어 함의 인식부;
    구문 구조의 유사도와 패턴 유사도를 기반으로 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 문장 함의 인식부; 및
    격틀을 이용하여 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 문맥 함의 인식부;
    를 포함하는 것인 질의 응답 시스템.
  3. 제 1항에 있어서, 상기 리스트 생성부는
    단어들의 유사도를 기반으로 정답 후보와 증거 문장을 합성하여 단어 타입의 기본형 정답 후보 리스트를 생성하는 기본형 리스트 생성부;
    구문구조의 유사도, 패턴 유사도, 격틀 중 적어도 어느 하나를 기반으로 정답 후보와 증거문장을 합성하여 문장 타입의 정의형 정답 후보 리스트를 생성하는 정의형 리스트 생성부; 및
    정답 후보와 증거문장을 합성하여 단어 나열 타입의 나열형 정답 후보 리스트를 생성하는 나열형 리스트 생성부;
    를 포함하는 것인 질의 응답 시스템.
  4. 제 3항에 있어서, 상기 정의형 리스트 생성부는
    상기 텍스트 리스트의 함의 인지를 통해 상기 텍스트 리스트의 공통된 순서를 통계적 및 의미적으로 추출하여 상기 추출된 텍스트 리스트를 합성하는 질의 응답 시스템.
  5. 제 1항에 있어서, 상기 출력부는
    상기 정답 후보 리스트 중 사용자에 의해 선택된 정답 후보에 대응하는 증거문장을 출력하는 것
    인 질의 응답 시스템.
  6. 제 1항에 있어서, 상기 정답 후보 리스트의 수는,
    디스플레이 화면의 크기에 따라 결정하는 것
    인 질의 응답 시스템.
  7. 질의 응답 방법으로서,
    자연어 질의에 대한 정답 후보들을 생성하는 단계;
    상기 생성된 정답 후보들을 각각 포함하는 다수의 증거 문장과 상기 자연어 질의간에 상관관계를 나타내는 함의 인식 결과를 생성하는 단계;
    상기 함의 인식 결과를 근거로, 상기 다수의 증거 문장을 상기 연관 정도가 높은 순으로 나열한 정답 후보 리스트를 생성하는 단계; 및
    상기 생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 단계;
    를 포함하는 질의 응답 방법.
  8. 제 7항에 있어서, 자연어 질의어에 대한 정답 후보들을 생성하는 단계는
    자연어 질의를 입력받는 단계;
    상기 입력된 자연어 질의의 함의 인식을 수행하는 단계;
    상기 함의 인식 결과를 통해 상기 자연어 질의의 의미를 확장하는 단계;
    상기 확장된 상기 자연어 질의에 매핑되는 문서를 추출하는 단계; 및
    상기 추출된 문서에서 상기 자연어 질의에 대한 정답 후보를 생성하는 단계;
    를 포함하는 것인 질의 응답 방법.
  9. 제 7항에 있어서, 상기 함의 인식 결과를 생성하는 단계는
    어휘 망 사이의 거리 및 단어 유사도 중 적어도 하나를 이용하여 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 단계;
    구문 구조의 유사도 및 패턴 유사도 중 적어도 하나를 기반으로 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 문장 함의 인식 단계; 및
    격틀을 이용하여 상기 증거 문장과 상기 자연어 질의간 함의를 인식하는 문맥 함의 인식 단계;
    를 포함하는 것인 질의 응답 방법.
  10. 제 8항에 있어서, 상기 정답 후보 리스트를 생성하는 단계는
    단어들의 유사도를 기반으로 정답 후보와 증거문장을 합성하여 단어 타입의 기본형 정답 후보 리스트를 생성하는 단계;
    구문구조의 유사도, 패턴 유사도, 격틀 중 적어도 어느 하나를 기반으로 정답 후보와 증거문장을 합성하여 문장 타입의 정의형 정답 후보 리스트를 생성하는 단계; 및
    정답후보와 증거문장을 합성하여 단어 나열 타입의 나열형 정답 후보 리스트를 생성하는 단계;
    를 포함하는 것인 질의 응답 방법.
  11. 제 10항에 있어서, 상기 정의형 정답 후보 리스트를 생성하는 단계는
    상기 생성된 정답 후보가 텍스트 리스트 형태인 정의형 정답 후보 리스트를 생성하는 경우, 상기 텍스트 리스트의 함의 인지를 통해 상기 텍스트 리스트의 공통된 순서를 통계적으로 추출하여 상기 추출된 텍스트 리스트를 나열하는 것
    인 질의 응답 방법.
  12. 제 7항에 있어서, 상기 생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 단계는
    상기 정답 후보 리스트 중 임의의 답이 선택되면, 상기 선택된 임의의 답에 대응하는 증거문장을 출력하는 단계;
    를 포함하는 것인 질의 응답 방법.
  13. 제 7항에 있어서, 상기 생성된 정답 후보 리스트를 상기 자연어 질의에 대한 검색 결과로서 출력하는 단계는
    상기 생성된 정답 후보 리스트 중 하나를 선택받는 단계; 및
    를 포함하는 것인 질의 응답 방법.
  14. 제 8항에 있어서, 상기 자연어 질의에 대한 정답 후보를 생성하는 단계는
    상기 정답 후보 리스트의 수를 디스플레이 화면의 크기에 따라 조정하는 단계;
    를 포함하는 것인 질의 응답 방법.
KR1020140054769A 2014-05-08 2014-05-08 질의 응답 시스템 및 그 방법 KR20150129134A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140054769A KR20150129134A (ko) 2014-05-08 2014-05-08 질의 응답 시스템 및 그 방법
US14/602,904 US10025849B2 (en) 2014-05-08 2015-01-22 Question answering system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140054769A KR20150129134A (ko) 2014-05-08 2014-05-08 질의 응답 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20150129134A true KR20150129134A (ko) 2015-11-19

Family

ID=54368029

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140054769A KR20150129134A (ko) 2014-05-08 2014-05-08 질의 응답 시스템 및 그 방법

Country Status (2)

Country Link
US (1) US10025849B2 (ko)
KR (1) KR20150129134A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017115938A1 (ko) * 2015-12-30 2017-07-06 (주)윕스 멀티바이트 인코딩을 이용한 문헌 검색 방법 및 문헌 색인 방법
KR20170107282A (ko) * 2016-03-15 2017-09-25 한국전자통신연구원 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법
KR20190056184A (ko) * 2017-11-16 2019-05-24 주식회사 마인즈랩 기계 독해를 위한 질의응답 데이터 생성 시스템

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607035B2 (en) * 2014-05-21 2017-03-28 International Business Machines Corporation Extensible validation framework for question and answer systems
JP6614152B2 (ja) * 2014-09-05 2019-12-04 日本電気株式会社 テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム
JP6551968B2 (ja) * 2015-03-06 2019-07-31 国立研究開発法人情報通信研究機構 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
US10503786B2 (en) 2015-06-16 2019-12-10 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
US10216802B2 (en) * 2015-09-28 2019-02-26 International Business Machines Corporation Presenting answers from concept-based representation of a topic oriented pipeline
US10380257B2 (en) * 2015-09-28 2019-08-13 International Business Machines Corporation Generating answers from concept-based representation of a topic oriented pipeline
US10049149B2 (en) * 2015-09-29 2018-08-14 Oath Inc. Computerized system and method for search query auto-completion
KR102018331B1 (ko) 2016-01-08 2019-09-04 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
CN109478204B (zh) * 2016-05-17 2023-09-15 微软技术许可有限责任公司 非结构化文本的机器理解
CN107239560B (zh) * 2017-06-12 2020-07-03 浙江大学 一种基于深度学习的文本蕴含关系识别方法
CN107527619B (zh) * 2017-08-29 2021-01-05 海信集团有限公司 语音控制业务的定位方法及装置
US10803100B2 (en) * 2017-11-30 2020-10-13 International Business Machines Corporation Tagging named entities with source document topic information for deep question answering
CN108108426B (zh) * 2017-12-15 2021-05-07 杭州汇数智通科技有限公司 自然语言提问的理解方法、装置及电子设备
US10915561B2 (en) 2019-01-28 2021-02-09 International Business Machines Corporation Implementing unstructured content utilization from structured sources in system for answering questions
CN109885672B (zh) * 2019-03-04 2020-10-30 中国科学院软件研究所 一种面向在线教育的问答式智能检索系统及方法
CN111324717B (zh) * 2020-02-24 2023-06-27 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN113535144A (zh) * 2021-06-15 2021-10-22 北京彩彻区明科技有限公司 自然语言编程方法、装置、设备及存储介质
US11972212B2 (en) * 2021-11-10 2024-04-30 Woebot Labs, Inc. Open input classifier with entailment

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
KR20020045343A (ko) * 2000-12-08 2002-06-19 오길록 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
US7840893B2 (en) * 2005-04-25 2010-11-23 Kulas Charles J Display and manipulation of web page-based search results
KR101250845B1 (ko) 2008-11-03 2013-04-04 에스케이플래닛 주식회사 자연어에 기반하여 상품을 검색하는 방법, 쇼핑몰 서버 및 쇼핑몰 시스템
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017115938A1 (ko) * 2015-12-30 2017-07-06 (주)윕스 멀티바이트 인코딩을 이용한 문헌 검색 방법 및 문헌 색인 방법
KR20170107282A (ko) * 2016-03-15 2017-09-25 한국전자통신연구원 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법
KR20190056184A (ko) * 2017-11-16 2019-05-24 주식회사 마인즈랩 기계 독해를 위한 질의응답 데이터 생성 시스템

Also Published As

Publication number Publication date
US20150324456A1 (en) 2015-11-12
US10025849B2 (en) 2018-07-17

Similar Documents

Publication Publication Date Title
KR20150129134A (ko) 질의 응답 시스템 및 그 방법
US10628472B2 (en) Answering questions via a persona-based natural language processing (NLP) system
US10832011B2 (en) Question answering system using multilingual information sources
Eisenstein et al. Discovering sociolinguistic associations with structured sparsity
US9020805B2 (en) Context-based disambiguation of acronyms and abbreviations
US20210349949A1 (en) Domain-agnostic structured search query exploration
US20220254507A1 (en) Knowledge graph-based question answering method, computer device, and medium
US10083226B1 (en) Using web ranking to resolve anaphora
AU2018383346A1 (en) Domain-specific natural language understanding of customer intent in self-help
US20100138402A1 (en) Method and system for improving utilization of human searchers
US20150269163A1 (en) Providing search recommendation
US8484014B2 (en) Retrieval using a generalized sentence collocation
US20170270159A1 (en) Determining query results in response to natural language queries
US20080177528A1 (en) Method of enabling any-directional translation of selected languages
KR20160149978A (ko) 검색 엔진 및 그의 구현 방법
CN106874441A (zh) 智能问答方法和装置
US10896377B2 (en) Categorizing concept terms for game-based training in cognitive computing systems
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN105488096B (zh) 动态概要生成器
JP2016081265A (ja) 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
KR20020010226A (ko) 자연어로 입력된 사용자의 질문을 인공지능 시스템이분석하여 인터넷에 존재하는 정보를 효과적으로 제시하는서비스에 대한방법
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
Jorge-Botana et al. The representation of polysemy through vectors: some building blocks for constructing models and applications with LSA
Lelis et al. Nadine-Bot: An Open Domain Migrant Integration Administrative Agent

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid