KR20200136707A - 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램 - Google Patents

다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20200136707A
KR20200136707A KR1020190062612A KR20190062612A KR20200136707A KR 20200136707 A KR20200136707 A KR 20200136707A KR 1020190062612 A KR1020190062612 A KR 1020190062612A KR 20190062612 A KR20190062612 A KR 20190062612A KR 20200136707 A KR20200136707 A KR 20200136707A
Authority
KR
South Korea
Prior art keywords
query
natural language
keyword
subject
target keyword
Prior art date
Application number
KR1020190062612A
Other languages
English (en)
Other versions
KR102411778B1 (ko
Inventor
조대웅
백규태
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020190062612A priority Critical patent/KR102411778B1/ko
Priority to PCT/KR2020/006120 priority patent/WO2020242086A1/ko
Publication of KR20200136707A publication Critical patent/KR20200136707A/ko
Priority to US17/456,604 priority patent/US20220083879A1/en
Application granted granted Critical
Publication of KR102411778B1 publication Critical patent/KR102411778B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24526Internal representations for queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • G06F16/90328Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

자연어 기반 질의에 대한 응답을 제공하는 서버는 자연어로부터 주제 키워드, 목적 키워드 및 자연어에 대한 질의 형태를 추출하고, 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성하는 질의 지식 그래프 생성부, 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하는 질의 지식 그래프 탐색부, 탐색된 복수의 질의 지식 그래프 각각의 상기 주제 키워드에 기반한 맵 데이터로부터 목적 키워드와 관련된 정보를 도출하는 정보 도출부 및 추출된 정보 및 질의 형태에 기초하여 자연어에 대한 질의 결과를 제공하는 검색 결과 제공부를 포함할 수 있다.

Description

다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램{SERVER, METHOD AND COMPUTER PROGRAM FOR INFERING COMPARATIVE ADVANTAGE OF MULTIPLE KNOWLEDGE}
본 발명은 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램에 관한 것이다.
기존의 자연어 기반의 질의 검색 시스템은 자연어의 어의적인 해석을 통해 자연어 그래프를 구조화하고, 구조화된 자연어 그래프와 유사도가 높은 그래프(예컨대, 동일한 형태를 가지면서 의미적으로 유사한 그래프)를 지식 데이터베이스에서 검색하는 방식을 이용했었다.
즉, 기존의 질의 검색 시스템은 지식 데이터베이스에 저장된 그래프와 구조화된 자연어 그래프 간의 비교 연산을 통해 그래프 유사도 값을 계산하는 방식으로 질의 검색을 수행했었다.
이러한 기존의 질의 검색 시스템은 지식 데이터베이스에서 검색된 적어도 하나의 그래프와 구조화된 자연어 그래프 간의 일대일 매핑 또는 문장 형태로의 비교 순환 과정을 수행하기 때문에 상당히 많은 연산이 필요해 검색이 지연된다는 문제점이 있었다.
또한, 기존의 질의 검색 시스템은 그래프 구조에 의존적인 처리 방식(즉, 그래프를 매칭해가며 처리하는 방식)이기 때문에 자연어가 복잡해지거나 지식 데이터베이스 내에 저장된 그래프의 구조가 복잡해지면 질의 검색에 대한 정확도가 떨어지는 문제점이 있었다.
일본등록특허공보 제4698618호 (2011.03.11. 등록)
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 자연어로부터 추출된 주제 키워드, 목적 키워드 및 자연어에 대한 질의 형태를 포함하는 질의 지식 그래프를 생성하고자 한다. 또한, 본 발명은 자연어로부터 추출된 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하고, 탐색된 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 관계 키워드 기반의 맵 데이터로부터 자연어의 목적 키워드와 관련된 정보를 도출하고자 한다. 또한, 본 발명은 도출된 정보 및 자연어의 질의 형태에 기초하여 자연어에 대한 질의 결과를 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 자연어 기반 질의에 대한 응답을 제공하는 서버는 자연어로부터 주제 키워드, 목적 키워드 및 상기 자연어에 대한 질의 형태를 추출하고, 상기 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성하는 질의 지식 그래프 생성부; 상기 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하는 질의 지식 그래프 탐색부; 상기 탐색된 복수의 질의 지식 그래프 각각의 상기 주제 키워드에 기반한 맵 데이터로부터 상기 목적 키워드와 관련된 정보를 도출하는 정보 도출부; 및 상기 도출된 정보 및 상기 질의 형태에 기초하여 상기 자연어에 대한 질의 결과를 제공하는 검색 결과 제공부를 포함할 수 있다.
본 발명의 제 2 측면에 따른 서버에 의해 자연어 기반 질의에 대한 응답을 제공하는 방법은 자연어로부터 주제 키워드, 목적 키워드 및 상기 자연어에 대한 질의 형태를 추출하는 단계; 상기 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성하는 단계; 상기 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하는 단계; 상기 탐색된 복수의 질의 지식 그래프 각각의 상기 주제 키워드에 기반한 맵 데이터로부터 상기 목적 키워드와 관련된 정보를 도출하는 단계 및 상기 도출된 정보 및 상기 질의 형태에 기초하여 상기 자연어에 대한 질의 결과를 제공하는 단계를 포함할 수 있다.
본 발명의 제 3 측면에 따른 자연어 기반 질의에 대한 응답을 제공하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 자연어로부터 주제 키워드, 목적 키워드 및 상기 자연어에 대한 질의 형태를 추출하고, 상기 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성하고, 상기 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하고, 상기 탐색된 복수의 질의 지식 그래프 각각의 상기 주제 키워드에 기반한 맵 데이터로부터 상기 목적 키워드와 관련된 정보를 도출하고, 상기 도출된 정보 및 상기 질의 형태에 기초하여 상기 자연어에 대한 질의 결과를 제공하는 명령어들의 시퀀스를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 자연어로부터 추출된 주제 키워드, 목적 키워드 및 자연어에 대한 질의 형태를 포함하는 질의 지식 그래프를 생성할 수 있다. 또한, 본 발명은 자연어로부터 추출된 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하고, 탐색된 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 관계 키워드 기반의 맵 데이터로부터 자연어의 목적 키워드와 관련된 정보를 도출할 수 있다. 또한, 본 발명은 도출된 정보 및 자연어의 질의 형태에 기초하여 자연어에 대한 질의 결과를 제공할 수 있다.
이와 같이, 본 발명은 종래의 각 지식 그래프의 유사도를 이용하여 질의 검색 결과를 탐색하는 방식과 달리, 자연어에 대응하는 질의 지식 그래프가 생성되면 주제 키워드와 관련된 복수의 질의 지식 그래프를 탐색하고, 탐색된 복수의 질의 지식 그래프 내에서 자연어의 목적 키워드와 연관된 정보를 도출하기 때문에 종래 기술에 있어서의 자연어의 구성 요소 간의 모든 관계를 계산하여 이와 유사한 그래프로 변환해야 하는 처리를 생략할 수 있다.
또한, 자연어에 대한 질의 결과의 검색 시간을 대폭 줄일 수 있을 뿐만 아니라, 질의 결과의 정확도를 높일 수 있다.
또한, 본 발명은 자연어가 복잡하게 구성되어 있더라도 자연어를 동일한 구조의 질의 지식 그래프로 생성하기 때문에 기존의 자연어를 그대로 그래프로 변경해야 하는 종속성의 문제로부터 탈피할 수 있다.
또한, 본 발명은 자연어에 목적 키워드가 포함되어 있지 않더라도 사용자 선호도 기반의 랭킹 데이터를 이용하여 목적 키워드를 예측할 수 있고, 예측된 목적 키워드에 해당하는 값을 도출하여 이를 자연어에 대한 질의 결과로서 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른, 자연어 기반 질의에 대한 응답을 제공하는 서버의 블록도이다.
도 2a 내지 2d는 본 발명의 일 실시예에 따른, 질의 지식 그래프를 생성하는 방법을 설명하기 위한 도면이다.
도 3a 내지 3b는은 본 발명의 일 실시예에 따른, 종래의 자연어 기반 질의 결과 탐색 구조와 본 발명의 자연어 질의 결과 탐색 구조를 비교 설명하기 위한 도면이다.
도 4a 내지 4c는 본 발명의 일 실시예에 따른, 자연어 기반 질의에 대한 응답을 제공하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 사용자 선호도 기반 랭킹 데이터를 구성하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른, 질의 지식 그래프에 대한 중요도를 표현한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 사용자 선호도 기반 랭킹 데이터를 이용하여 추상적 비교 우위 질의에 대한 결과를 도출하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른, 자연어 기반 질의에 대한 응답을 제공하는 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른, 자연어 기반 질의 결과를 제공하는 서버(10)의 블록도이다.
도 1을 참조하면, 자연어 기반 질의 결과 제공 서버(10)는 질의 지식 그래프 생성부(100), 질의 지식 그래프 탐색부(110), 맵 데이터 생성부(120), 정보 도출부(130), 검색 결과 제공부(140), 제 1 데이터베이스(150) 및 제 2 데이터베이스(160)를 포함할 수 있다.
여기서, 질의 지식 그래프 생성부(100)는 질의 형태 결정부(102)를 포함할 수 있다.
다만, 도 1에 도시된 자연어 기반 질의 결과 제공 서버(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.
이하에서는 도 2a 내지 도 7을 참조하여 도 1을 설명하기로 한다.
질의 지식 그래프 생성부(100)는 자연어로부터 주제 키워드, 목적 키워드 및 자연어에 대한 질의 형태를 추출할 수 있다. 이 때, 자연어에 대한 질의 형태는 질의 형태 결정부(102)에 의해 자연어에 포함된 주제 키워드의 개수 및 목적 키워드의 존재 여부에 기초하여 결정될 수 있다.
질의 형태 결정부(102)는 자연어에 단일의 주제 키워드 및 목적 키워드가 포함되는 경우, 자연어에 대한 질의 형태를 단일 질의로 결정할 수 있다.
예를 들어, 도 2b와 같이, 사용자로부터 '김연아 나이는?'이라는 제 1 자연어를 입력받은 경우, 질의 지식 그래프 생성부(100)는 제 1 자연어로부터 '김연아'를 주제 키워드로서 추출하고, 제 1 자연어로부터 '나이'를 목적 키워드로서 추출할 수 있다.
이 때, 질의 형태 결정부(102)는 제 1 자연어에 단일의 주제 키워드가 포함되어 있고, 제 1 자연어에 목적 키워드가 포함되어 있으므로, 제 1 자연어에 대한 질의 형태를 단일 질의로 결정할 수 있다.
질의 형태 결정부(102)는 자연어에 복수의 주제 키워드 및 목적 키워드가 포함되어 있는 경우, 자연어에 대한 질의 형태를 비교 우위 질의로 결정할 수 있다.
예를 들어, 도 2c와 같이, 사용자로부터 '김연아와 박지성의 나이는 누가 더 많지?'라는 제 2 자연어를 입력받은 경우, 질의 지식 그래프 생성부(100)는 제 2 자연어로부터 '김연아'와 '박지성' 각각을 주제 키워드로서 추출하고, 제 2 자연어로부터 '나이'를 목적 키워드로서 추출할 수 있다.
이 때, 질의 형태 결정부(102)는 제 2 자연어에 복수의 주제 키워드('김연아'와 '박지성')가 포함되어 있고, 제 2 자연어에 목적 키워드('나이')가 포함되므로, 제 2 자연어에 대한 질의 형태를 비교 우위 질의로 결정할 수 있다.
질의 형태 결정부(102)는 자연어에 복수의 주제 키워드만 포함되어 있고, 목적 키워드가 포함되어 있지 않는 경우, 자연어에 대한 질의 형태를 추상적 비교 우위 질의로 결정할 수 있다.
예를 들어, 도 2d와 같이, 사용자로부터 '손흥민과 박지성 중 누가 더 뛰어나지?'라는 제 3 자연어를 입력받은 경우, 질의 지식 그래프 생성부(100)는 제 3 자연어로부터 '손흥민'과 '박지성' 각각을 주제 키워드로서 추출하고, 제 3 자연어에는 목적 키워드가 존재하지 않으므로, 목적 키워드를 'null'값으로 추출할 수 있다.
이 때, 질의 형태 결정부(102)는 제 3 자연어에 복수의 주제 키워드('손흥민'과 '박지성')만을 포함하고, 목적 키워드가 존재하지 않으므로, 제 3 자연어에 대한 질의 형태를 추상적 비교 우위 질의로 결정할 수 있다.
질의 지식 그래프 생성부(100)는 자연어의 형태가 다양할지라도 도 2a에 도시된 그래프 비교 레퍼런스 모델(20)과 같이 동일한 구조를 갖는 질의 지식 그래프를 생성할 수 있다. 그래프 비교 레퍼런스 모델(20)은 예를 들어, 주제 키워드(201), 목적 키워드(203) 및 질의 형태(205)를 포함할 수 있다.
즉, 자연어의 복잡도에 상관없이 자연어로부터 생성되는 질의 지식 그래프는 그래프 비교 레퍼런스 모델(20)과 같이 동일한 형태를 이루게 된다.
이때, 자연어가 다중 지식 비교 질의에 해당하는 경우, 다중 지식에 해당하는 주제 키워드의 비교군은 늘어날 수 있으나 다중 지식 비교에 직접적인 목적에 해당하는 목적 키워드는 단일 그래프 흐름으로 처리할 수 있다.
그래프 비교 레퍼런스 모델(20)에서의 적어도 하나의 주제 키워드(201)는 입력된 자연어의 적어도 하나의 주제어에 대응되고, 그래프 비교 레퍼런스 모델(20)에서의 목적 키워드(203)는 입력된 자연어의 목적어에 대응될 수 있다.
질의 지식 그래프 생성부(100)는 그래프 비교 레퍼런스 모델(20)에 기반하여 자연어로부터 추출된 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성할 수 있다.
종래의 질의 검색 시스템은 자연어와 일치하는 그래프 패턴 구조를 탐색하기 위해 자연어에 대한 이해 및 추가적인 어의적 해석(즉, 지식데이터베이스에 질의하기 위한 표준화된 질의 문법 SPARQL 변환 문법의 이해 및 해석)이 필수였으나, 본 발명은 자연어에 대한 이해 및 해석 과정 없이도 자연어로부터 주제 키워드, 목적 키워드 및 질의 형태가 파악되면 주제 키워드, 목적 키워드 및 질의 형태 각각을 그래프 비교 레퍼런스 모델(20)의 각 요소에 삽입함으로써 질의 지식 그래프를 생성할 수 있다.
예를 들어, 도 2b와 같이, 질의 지식 그래프 생성부(100)는 제 1 자연어가 '김연아 나이는?'인 경우, 제 1 자연어로부터 추출된 주제 키워드('김연아'), 목적 키워드('나이') 및 제 1 자연어에 대한 질의 형태('단일 질의')를 포함하는 제 1 질의 지식 그래프(김연아-나이-단일질의)를 생성할 수 있다.
예를 들어, 도 2c와 같이, 질의 지식 그래프 생성부(100)는 제 2 자연어가 '김연아와 박지성의 나이는 누가 더 많지?'인 경우, 제 2 자연어로부터 추출된 제 1 주제 키워드('김연아'), 제 2 주제 키워드('박지성'), 목적 키워드('나이') 및 제 2 자연어에 대한 질의 형태('비교 우위 질의')를 포함하는 제 2 질의 지식 그래프('김연아-나이-비교우위질의' 및 '박지성-나이-비교우위질의')를 생성할 수 있다.
이 때, 질의 지식 그래프 생성부(100)는 제 1 주제 키워드('김연아') 및 제 2 주제 키워드('박지성') 각각에 대하여 제 2 질의 지식 그래프를 생성할 수 있다.
예를 들어, 도 2d와 같이, 질의 지식 그래프 생성부(100)는 제 3 자연어가 '손흥민과 박지성 중 누가 더 뛰어나지?'인 경우, 제 3 자연어로부터 추출된 제 1 주제 키워드('손흥민'), 제 2 주제 키워드('박지성'), 목적 키워드('null') 및 제 3 자연어에 대한 질의 형태('추상적 비교 우위 질의')를 포함하는 제 3 질의 지식 그래프('손흥민-null-추상적비교우위질의' 및 '박지성-null-추상적비교우위질의')를 생성할 수 있다.
이 때, 질의 지식 그래프 생성부(100)는 제 1 주제 키워드('손흥민') 및 제 2 주제 키워드('박지성') 각각에 대하여 제 3 질의 지식 그래프를 생성할 수 있다.
질의 지식 그래프 탐색부(110)는 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색할 수 있다.
잠시 도 3a 내지 3b를 참조하면, 종래의 자연어 기반 질의 결과 탐색 구조(3a)는 지식 데이터베이스(30) 내에서 자연어와 일치하는 그래프 패턴 구조를 그래프 매칭 기술(32)로 탐색하는 방식을 이용하기 때문에 지식 데이터베이스(30) 내의 그래프 구조가 복잡하고, 방대해지면 비효율적이다.
또한, 다중 지식 질의 형태(예컨대, 비교 우위 질의, 추상적 비교 우위 질의 등)의 자연어의 경우 비교군이 늘어나게 되어 그래프 매칭 기술(32)로 결과를 찾는데 많은 시간이 소요된다.
한편, 본 발명의 자연어 질의 결과 탐색 구조(3b)는 복수의 질의 지식 그래프를 저장하는 제 1 데이터베이스(150)로부터 주제 키워드를 포함하는 복수의 질의 지식 그래프(34)를 탐색하고, 탐색된 복수의 질의 지식 그래프(34)의 결과 내에서 관계 키워드 기반의 맵 데이터에 기초하여 목적 키워드와 관련된 정보를 탐색하기 때문에 종래의 자연어 기반 질의 결과 탐색 구조(3a)에 비해 탐색에 소요되는 시간 및 연산량이 상당히 줄어드는 효과가 있다.
맵 데이터 생성부(120)는 제 1 데이터베이스(150)로부터 탐색된 주제 키워드를 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 복수의 관계 키워드 및 복수의 관계 키워드 각각에 해당하는 값을 포함하는 주제 키워드 기반의 맵 데이터를 생성할 수 있다.
여기서, 맵 데이터의 복수의 관계 키워드 각각은 탐색된 복수의 질의 지식 그래프 각각에 포함된 목적 키워드에 대응되고, 복수의 관계 키워드 각각에 해당하는 값은 탐색된 복수의 질의 지식 그래프 각각에 포함된 목적 키워드에 해당하는 값일 수 있다.
예를 들어, 도 4a를 참조하면, 맵 데이터 생성부(120)는 복수의 질의 지식 그래프를 저장하는 제 1 데이터베이스(150)로부터 제 1 자연어의 주제 키워드인 '김연아'를 포함하는 복수의 질의 지식 그래프가 탐색되면, '김연아'를 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 제 1 맵 데이터(401)를 생성할 수 있다.
정보 도출부(130)는 탐색된 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 관계 키워드 기반의 맵 데이터로부터 목적 키워드와 관련된 정보를 도출할 수 있다.
예를 들어, 도 4a를 참조하면, 정보 도출부(130)는 제 1 자연어에 대한 질의 형태가 단일 질의인 경우, 제 1 자연어의 주제 키워드인 '김연아'를 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 제 1 맵 데이터(401)로부터 제 1 자연어의 목적 키워드인 '나이'와 관련된 관계 키워드('출생') 및 해당 관계 키워드('출생')의 값('1990')을 포함하는 데이터(403)를 검출하고, 해당 관계 키워드('출생')의 값('1990')으로부터 목적 키워드인 '나이'에 해당하는 값을 도출할 수 있다.
검색 결과 제공부(140)는 도출된 정보 및 질의 형태에 기초하여 자연어에 대한 질의 결과를 제공할 수 있다. 예를 들어, 도 4a를 참조하면, 정보 도출부(130)는 제 1 자연어의 질의 형태가 단일 질의인 경우, 관계 키워드('출생')의 값('1990')으로부터 도출된 목적 키워드인 '나이'에 해당하는 값(김연아 나이: 30세)을 제 1 자연어에 대한 질의 결과로서 제공할 수 있다.
한편, 질의 지식 그래프 탐색부(110)는 자연어에 제 1 주제 키워드 및 제 2 주제 키워드를 포함하는 복수의 주제 키워드가 포함되어 있는 경우, 제 1 주제 키워드를 포함하는 복수의 제 1 질의 지식 그래프를 탐색하고, 제 2 주제 키워드를 포함하는 복수의 제 2 질의 지식 그래프를 탐색할 수 있다.
예를 들어, 도 4b를 참조하면, 제 2 자연어('김연아와 박지성의 나이는 누가 더 많지?')에 복수의 주제 키워드('김연아'와 '박지성')가 포함되어 있는 경우, 질의 지식 그래프 탐색부(110)는 제 1 데이터베이스(150)로부터 제 2 자연어의 제 1 주제 키워드인 '김연아'을 포함하는 복수의 제 1 질의 지식 그래프를 탐색하고, 제 2 주제 키워드인 '박지성'을 포함하는 복수의 제 2 질의 지식 그래프를 탐색할 수 있다.
한편, 도 4c를 참조하면, 제 3 자연어('손흥민과 박지성 중 누가 더 뛰어나지?')에 복수의 주제 키워드('손흥민'과 '박지성')가 포함되어 있는 경우, 질의 지식 그래프 탐색부(110)는 제 1 데이터베이스(150)로부터 제 3 자연어의 제 1 주제 키워드인 '손흥민'을 포함하는 복수의 제 1 질의 지식 그래프를 탐색하고, 제 2 주제 키워드인 '박지성'을 포함하는 복수의 제 2질의 지식 그래프를 탐색할 수 있다.
맵 데이터 생성부(120)는 탐색된 복수의 제 1 질의 지식 그래프 각각에 매핑된 정보에 기초하여 복수의 관계 키워드 및 복수의 관계 키워드 각각에 해당하는 값을 포함하는 제 1 맵 데이터를 생성하고, 탐색된 복수의 제 2 질의 지식 그래프 각각에 매핑된 정보에 기초하여 복수의 관계 키워드 및 복수의 관계 키워드 각각에 해당하는 값을 포함하는 제 2 맵 데이터를 생성할 수 있다.
예를 들어, 도 4b를 참조하면, 제 1 데이터베이스(150)로부터 제 2 자연어의 복수의 주제 키워드인 '김연아' 및 '박지성' 각각에 대하여 복수의 질의 지식 그래프가 탐색되면, 맵 데이터 생성부(120)는 '김연아'를 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 제 1 맵 데이터(405)를 생성하고, '박지성'을 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 제 2 맵 데이터(407)를 생성할 수 있다.
예를 들어, 도 4c를 참조하면, 제 1 데이터베이스(150)로부터 제 3 자연어의 복수의 주제 키워드인 '손흥민' 및 '박지성' 각각에 대하여 복수의 질의 지식 그래프가 탐색되면, 맵 데이터 생성부(120)는 '손흥민'을 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 제 1 맵 데이터(413)를 생성하고, '박지성'을 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 제 2 맵 데이터(415)를 생성할 수 있다.
정보 도출부(130)는 자연어에 대한 질의 형태가 비교 우위 질의인 경우, 생성된 제 1 맵 데이터로부터 목적 키워드와 관련된 정보를 도출하고, 생성된 제 2 맵 데이터로부터 목적 키워드와 관련된 정보를 도출할 수 있다.
구체적으로, 정보 도출부(130)는 자연어에 대한 질의 형태가 비교 우위 질의인 경우, 제 1 맵 데이터로부터 목적 키워드에 해당하는 제 1 값 및 제 2 맵 데이터로부터 목적 키워드에 해당하는 제 2 값을 도출할 수 있다.
예를 들어, 도 4b를 참조하면, 정보 도출부(130)는 제 2 자연어의 제 1 주제 키워드인 '김연아'를 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 제 1 맵 데이터(405)로부터 제 2 자연어의 목적 키워드인 '나이'와 관련된 관계 키워드('출생') 및 해당 관계 키워드('출생')의 값('1990')을 포함하는 데이터(409)를 검출하고, 해당 관계 키워드('출생')의 값('1990')으로부터 목적 키워드인 '나이'에 해당하는 제 1 값을 도출할 수 있다.
또한, 정보 도출부(130)는 제 2 자연어의 제 2 주제 키워드인 '박지성'을 포함하는 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 제 2 맵 데이터(407)로부터 제 2 자연어의 목적 키워드인 '나이'와 관련된 관계 키워드('출생') 및 해당 관계 키워드('출생')의 값('1981')을 포함하는 데이터(411)를 검출하고, 해당 관계 키워드('출생')의 값('1981')으로부터 목적 키워드인 '나이'에 해당하는 제 2 값을 도출할 수 있다.
검색 결과 제공부(140)는 자연어의 질의 형태가 비교 우위 질의인 경우, 제 1 맵 데이터 및 제 2 맵 데이터 각각으로부터 도출된 자연어의 목적 키워드에 해당하는 제 1 값 및 제 2 값의 우위를 비교하여 자연어에 대한 검색 결과를 제공할 수 있다.
예를 들어, 도 4b를 참조하면, 검색 결과 제공부(140)는 제 2 자연어의 질의 형태가 비교 우위 질의인 경우, 제 1 맵 데이터(405) 및 제 2 맵 데이터(407) 각각으로부터 도출된 제 2 자연어의 목적 키워드('나이')에 해당하는 제 1 값(김연아의 나이: 30세) 및 제 2 값(박지성의 나이: 39세) 간의 수치를 비교하여 제 2 자연어에 대한 검색 결과(예컨대, '박지성의 나이가 김연아의 나이보다 9살 많습니다.')를 제공할 수 있다.
한편, 정보 도출부(130)는 자연어에 대한 질의 형태가 추상적 비교 우위 질의(자연어에 목적 키워드가 명확하게 드러나지 않은 질의)인 경우, 사용자 선호도 기반 랭킹 데이터를 이용하여 자연어에 대한 질의 결과를 추론할 수 있다.
여기서, 사용자 선호도 기반 랭킹 데이터는 제 2 데이터베이스(160)에 저장되어 보관될 수 있다. 사용자 선호도 기반 랭킹 데이터는 자연어 질문에 직접적인 목적 키워드의 언급이 없는 두 지식 간의 비교 우위(즉, 추상적 비교 우위)를 판단하고자 할 때 이용될 수 있다. 사용자 선호도 기반 랭킹 데이터는 주제별로 수집된 복수의 문서에서 출현하는 복수의 키워드에 대하여 랭킹화된 데이터일 수 있다.
예를 들어, 도 5를 참조하면, 사용자 선호도 모델(501)은, 다양한 정형 및 비정형 데이터(503)로부터 주로 언급되는 주요 키워드에 대하여 가중치가 계산되고, 계산된 가중치로부터 주요 키워드 및 주요 키워드에 해당하는 값을 포함하는 속성 데이터를 랭킹화하는데 사용된다.
에를 들어, 주제별로 수집된 다양한 정형 및 비정형 데이터(예컨대, SNS 데이터, 뉴스 데이터, 웹 문서 등)에서 기설정된 횟수 이상으로 출현하는 복수의 주요 키워드에 대한 가중치는 질의어에 포함된 주제 키워드와 관련성이 높은 중요한 속성일 수 있다.
사용자 선호도 기반 랭킹 데이터는 주제별로 수집된 다양한 정형 및 비정형 데이터(503)가 정규화되고, 정규화된 문서의 텍스트 분석을 통해 가중치에 영향을 줄 수 있는 불용어가 정규화된 문서로부터 제거된 후, 사용자 선호도 모델(501)을 통해 계산된 주요 키워드에 대한 가중치에 기초하여 랭킹화되어 제 2 데이터베이스(160)에 저장될 수 있다.
정보 도출부(130)는 자연어에 대한 질의 형태가 추상적 비교 우위 질의인 경우, 사용자 선호도 기반 랭킹 데이터에 기초하여 적어도 하나의 예측 목적 키워드를 도출하고, 제 1 맵 데이터로부터 예측 목적 키워드와 관련된 정보를 도출하고, 제 2 맵 데이터로부터 예측 목적 키워드와 관련된 정보를 도출할 수 있다.
예를 들어, 도 4c를 참조하면, 정보 도출부(130)는 제 2 데이터베이스(160)에 저장된 복수의 사용자 선호도 기반 랭킹 데이터 중 제 3 자연어의 주제 키워드('손흥민', '박지성')와 관계된 사용자 선호도 기반 랭킹 데이터(주제 키워드와 관련하여 랭킹 순위가 높은 데이터)와 매칭되는 맵 데이터(413, 415)에 포함된 적어도 하나의 관계 키워드('클럽', '수상', '월드컵', '골')를 제 3 자연어에 대한 예측 목적 키워드로서 도출할 수 있다.
이 때, 정보 도출부(130)는 도출된 제 3 자연어에 대한 적어도 하나의 예측 목적 키워드('클럽', '수상', '월드컵', '골') 중 수치 우위 비교가 가능한 예측 목적 키워드('수상', '월드컵', '골')를 선정할 수 있다.
이후, 정보 도출부(130)는 선정된 예측 목적 키워드에 해당하는 제 1 값을 제 1 맵 데이터(413)로부터 도출하고, 선정된 예측 목적 키워드에 해당하는 제 2 값을 제 2 맵 데이터(415)로부터 도출할 수 있다.
검색 결과 제공부(140)는 도출된 제 1 값 및 제 2 값의 우위를 비교하여 자연어에 대한 검색 결과를 제공할 수 있다.
예를 들어, 도 4c를 참조하면, 정보 도출부(130)는 수치 우위 비교가 가능한 제 1 예측 목적 키워드('수상')에 해당하는 제 1 값을 제 1 맵 데이터(413)로부터 도출하고, 제 1 예측 목적 키워드('수상')에 해당하는 제 2 값을 제 2 맵 데이터(415) 각각으로부터 도출할 수 있다.
이후, 검색 결과 제공부(140)는 제 1 맵 데이터(413) 및 제 2 맵 데이터(415) 각각으로부터 도출된 제 1 예측 목적 키워드('수상')에 해당하는 제 1 값('손흥민의 수상 횟수: 17회') 및 제 2 값('박지성의 수상 횟수: 25') 간의 수치를 비교하여 제 3 자연어에 대한 검색 결과(예컨대, '박지성의 수상 횟수가 손흥민의 수상 횟수보다 높습니다.')를 제공할 수 있다.
본 발명은 도 4c를 통해 설명한 바와 같이, 제 3 자연어에 목적 키워드가 포함되어 있지 않더라도 다중 지식을 비교하여 지식 데이터베이스 또는 질의 지식 그래프로 구성된 사실 관계로부터 없던 지식을 새롭게 도출 및 추론할 수 있습니다. 예를 들면, 본 발명은 제 3 주제어에 해당하는 '손흥민과 박지성 중 누가 더 뛰어나지?'을 이용하여, '손흥민과 박지성 중 누가 더 나이가 많지?' 또는 '손흥민과 박지성 중 누가 더 골을 많이 넣었지?'와 같은 형태로 비교 우위 지식을 생성하고, 이러한 지식에 대한 답변을 도출할 수 있다. 따라서, 본 발명은 제 3 자연어에 존재하지 않았던 새로운 지식을 추론하고, 생성된 지식에 대한 답변을 도출할 수 있다.
한편, 도 5 및 도 6을 함께 참조하면, 복수의 질의 지식 그래프 내에서 중요하다고 판단되는 노드 및 관계는 다른 색상으로 표시함으로써 서로 다른 지식들의 중요도를 표현할 수 있다. 중요한 노드 및 관계는 서로 다른 지식 간의 가치 우위를 비교할 때 기본 요소가 된다. 각 질의 지식 그래프의 노드 간의 중요도로 산정된 요소가 같다면 같은 요소 내의 값을 우위 비교할 수 있는 근거로 제시될 수 있다.
사용자 선호도 모델(501)에 의해 랭킹화된 사용자 선호도 기반 랭킹 데이터는 질의 지식 그래프의 관계 속성을 추출하는데 이용될 수 있다. 예를 들어, 도 4c 및 도 7을 함께 참조하면, '손흥민'과 관련된 복수의 문서에서 자주 등장하는 키워드가 '골', '수상', '토트넘(소속팀)' 등과 관련된다고 할 때, 이러한 키워드 중 랭킹이 높은 사용자 선호도 기반 랭킹 데이터(제 2 데이터베이스(160)에 저장된 데이터)가 제 1 데이터베이스(150)로부터 생성된 맵 데이터(413)의 관계 키워드와 일치하면, 해당 사용자 선호도 기반 랭킹 데이터를 질의 지식 그래프에 사상시키고, 해당 질의 지식 그래프의 노드 및 관계에 가중치를 적용시킬 수 있다.
한편, 당업자라면, 질의 지식 그래프 생성부(100), 질의 형태 결정부(102), 질의 지식 그래프 탐색부(110), 맵 데이터 생성부(120), 정보 도출부(130), 검색 결과 제공부(140), 제 1 데이터베이스(150) 및 제 2 데이터베이스(160) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.
도 8은 본 발명의 일 실시예에 따른, 자연어 기반 질의 결과를 제공하는 방법을 나타낸 흐름도이다.
도 8을 참조하면, 단계 S801에서 자연어 기반 질의 결과 제공 서버(10)는 자연어로부터 주제 키워드, 목적 키워드 및 자연어에 대한 질의 형태를 추출할 수 있다.
단계 S803에서 자연어 기반 질의 결과 제공 서버(10)는 추출된 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성할 수 있다.
단계 S805에서 자연어 기반 질의 결과 제공 서버(10)는 주제 키워드를 포함하는 복수의 질의지식 그래프를 탐색할 수 있다.
단계 S807에서 자연어 기반 질의 결과 제공 서버(10)는 탐색된 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 관계 키워드 기반의 맵 데이터로부터 목적 키워드와 관련된 정보를 도출할 수 있다.
단계 S809에서 자연어 기반 질의 결과 제공 서버(10)는 도출된 정보 및 질의 형태에 기초하여 자연어에 대한 질의 결과를 제공할 수 있다.
도 8에는 도시되지 않았으나, 단계 S801에서 자연어 기반 질의 결과 제공 서버(10)는 자연어에 포함된 주제 키워드의 개수 및 목적 키워드의 존재 여부에 기초하여 자연어에 대한 질의 형태를 결정할 수 있다. 예를 들면, 자연어 기반 질의 결과 제공 서버(10)는 자연어에 단일의 주제 키워드 및 목적 키워드가 포함되는 경우, 자연어에 대한 질의 형태를 단일 질의로 결정할 수 있다. 자연어 기반 질의 결과 제공 서버(10)는 자연어에 목적 키워드가 포함되고, 복수의 주제 키워드가 포함되는 경우, 자연어에 대한 질의 형태를 비교 우위 질의로 결정할 수 있다. 자연어 기반 질의 결과 제공 서버(10)는 자연어에 복수의 주제 키워드가 포함되고, 목적 키워드가 포함되어 있지 않은 경우, 질의어에 대한 질의 형태를 추상적 비교 우위 질의로 결정할 수 있다.
도 8에는 도시되지 않았으나, 단계 S805에서 자연어 기반 질의 결과 제공 서버(10)는 자연어에 제 1 주제 키워드 및 제 2 주제 키워드를 포함하는 복수의 주제 키워드가 포함된 경우, 제 1 주제 키워드를 포함하는 제 1 복수의 질의 지식 그래프를 탐색하고, 제 2 주제 키워드를 포함하는 제 2 복수의 질의 지식 그래프를 탐색할 수 있다. 자연어 기반 질의 결과 제공 서버(10)는 탐색된 제 1 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 제 1 맵 데이터 및 탐색된 제 2 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 제 2 맵 데이터로부터 제 1 주제 키워드 및 제 2 주제 키워드와 관련된 정보를 도출할 수 있다.
도 8에는 도시되지 않았으나, 단계 S807에서 자연어 기반 질의 결과 제공 서버(10)는 질의 형태가 비교 우위 질의인 경우, 제 1 맵 데이터로부터 목적 키워드에 해당하는 제 1 값 및 제 2 맵 데이터로부터 목적 키워드에 해당하는 제 2 값을 도출할 수 있다.
도 8에는 도시되지 않았으나, 단계 S807에서 자연어 기반 질의 결과 제공 서버(10)는 질의 형태가 추상적 비교 우위 질의인 경우, 사용자 선호도 기반 랭킹 데이터에 기초하여 적어도 하나의 예측 목적 키워드를 도출하고, 제 1 맵 데이터로부터 예측 목적 키워드에 해당하는 제 1 값 및 제 2 맵 데이터로부터 예측 목적 키워드에 해당하는 제 2 값을 도출할 수 있다.
도 8에는 도시되지 않았으나, 단계 S809에서 자연어 기반 질의 결과 제공 서버(10)는 도출된 제 1 값 및 제 2 값의 우위를 비교하여 자연어에 대한 검색 결과를 제공할 수 있다.
상술한 설명에서, 단계 S801 내지 S809는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 자연어 기반 질의 결과 제공 서버
100: 질의 지식 그래프 생성부
102: 질의 형태 결정부
110: 질의 지식 그래프 탐색부
120: 맵 데이터 생성부
130: 정보 도출부
140: 검색 결과 제공부
150: 제 1 데이터베이스
160: 제 2 데이터베이스

Claims (18)

  1. 자연어 기반 질의에 대한 응답을 제공하는 서버에 있어서,
    자연어로부터 주제 키워드, 목적 키워드 및 상기 자연어에 대한 질의 형태를 추출하고, 상기 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성하는 질의 지식 그래프 생성부;
    상기 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하는 질의 지식 그래프 탐색부;
    상기 탐색된 복수의 질의 지식 그래프 각각의 상기 주제 키워드에 기반한 맵 데이터로부터 상기 목적 키워드와 관련된 정보를 도출하는 정보 도출부; 및
    상기 도출된 정보 및 상기 질의 형태에 기초하여 상기 자연어에 대한 질의 결과를 제공하는 검색 결과 제공부를 포함하는 것인, 서버.
  2. 제 1 항에 있어서,
    상기 탐색된 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 복수의 관계 키워드 및 상기 복수의 관계 키워드 각각에 해당하는 값을 포함하는 상기 맵 데이터를 생성하는 맵 데이터 생성부를 더 포함하는 것인, 서버.
  3. 제 1 항에 있어서,
    상기 질의 지식 그래프 생성부는 상기 자연어에 포함된 상기 주제 키워드의 개수 및 상기 목적 키워드의 존재 여부에 기초하여 상기 질의 형태를 결정하는 질의 형태 결정부를 포함하는 것인, 서버.
  4. 제 3 항에 있어서,
    상기 질의 형태 결정부는 상기 자연어에 단일의 상기 주제 키워드 및 상기 목적 키워드가 포함되는 경우, 상기 질의 형태를 단일 질의로 결정하는 것인, 서버.
  5. 제 3 항에 있어서,
    상기 질의 형태 결정부는 상기 자연어에 복수의 상기 주제 키워드가 포함되는 경우, 상기 질의 형태를 비교 우위 질의로 결정하는 것인, 서버.
  6. 제 5 항에 있어서,
    상기 복수의 주제 키워드는 제 1 주제 키워드 및 제 2 주제 키워드를 포함하고,
    상기 질의 지식 그래프 탐색부는 상기 제 1 주제 키워드를 포함하는 제 1 복수의 질의 지식 그래프를 탐색하고, 상기 제 2 주제 키워드를 포함하는 제 2 복수의 질의 지식 그래프를 탐색하고,
    상기 정보 도출부는 상기 탐색된 제 1 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 제 1 맵 데이터 및 상기 탐색된 제 2 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 생성된 제 2 맵 데이터 각각으로부터 상기 목적 키워드와 관련된 정보를 도출하는 것인, 서버.
  7. 제 6 항에 있어서,
    상기 질의 형태가 비교 우위 질의인 경우, 상기 정보 도출부는 상기 제 1 맵 데이터로부터 상기 목적 키워드에 해당하는 제 1 값 및 상기 제 2 맵 데이터로부터 상기 목적 키워드에 해당하는 제 2 값을 도출하는 것인, 서버.
  8. 제 7 항에 있어서,
    상기 검색 결과 제공부는 상기 제 1 값 및 상기 제 2 값의 우위를 비교하여 상기 자연어에 대한 질의 결과를 제공하는 것인, 서버.
  9. 제 6 항에 있어서,
    상기 질의 형태 결정부는 상기 자연어에 상기 목적 키워드가 포함되어 있지 않는 경우, 상기 자연어에 대한 질의 형태를 추상적 비교 우위 질의로 결정하는 것인, 서버.
  10. 제 9 항에 있어서,
    상기 질의 형태가 추상적 비교 우위 질의인 경우, 상기 정보 도출부는 사용자 선호도 기반 랭킹 데이터에 기초하여 적어도 하나의 예측 목적 키워드를 도출하고, 상기 제 1 맵 데이터로부터 상기 예측 목적 키워드에 해당하는 제 1 값 및 상기 제 2 맵 데이터로부터 상기 예측 목적 키워드에 해당하는 제 2 값을 도출하는 것인, 서버.
  11. 제 10 항에 있어서,
    복수의 질의 지식 그래프를 저장하는 제 1 데이터베이스 및
    상기 사용자 선호도 기반 랭킹 데이터를 저장하는 제 2 데이터베이스를 포함하고,
    상기 사용자 선호도 기반 랭킹 데이터는 주제별로 수집된 복수의 문서에서 출현하는 복수의 키워드에 대하여 랭킹화된 데이터인 것인, 서버.
  12. 서버에 의해 자연어 기반 질의에 대한 응답을 제공하는 방법에 있어서,
    자연어로부터 주제 키워드, 목적 키워드 및 상기 자연어에 대한 질의 형태를 추출하는 단계;
    상기 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성하는 단계;
    상기 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하는 단계;
    상기 탐색된 복수의 질의 지식 그래프 각각의 상기 주제 키워드에 기반한 맵 데이터로부터 상기 목적 키워드와 관련된 정보를 도출하는 단계 및
    상기 도출된 정보 및 상기 질의 형태에 기초하여 상기 자연어에 대한 질의 결과를 제공하는 단계를 포함하는 것인, 자연어 기반 질의 결과의 제공 방법.
  13. 제 12 항에 있어서,
    상기 탐색된 복수의 질의 지식 그래프 각각에 매핑된 정보에 기초하여 복수의 관계 키워드 및 상기 복수의 관계 키워드 각각에 해당하는 값을 포함하는 상기 맵 데이터를 생성하는 단계를 포함하는 것인, 자연어 기반 질의 결과의 제공 방법.
  14. 제 12 항에 있어서,
    상기 자연어에 포함된 상기 주제 키워드의 개수 및 상기 목적 키워드의 존재 여부에 기초하여 상기 질의 형태를 결정하는 단계를 포함하는 것인, 자연어 기반 질의 결과의 제공 방법.
  15. 제 14 항에 있어서,
    상기 질의 형태를 결정하는 단계는 상기 자연어에 단일의 상기 주제 키워드 및 상기 목적 키워드가 포함되는 경우, 상기 질의 형태를 단일 질의로 결정하는 단계를 포함하는 것인, 자연어 기반 질의 결과의 제공 방법.
  16. 제 14 항에 있어서,
    상기 질의 형태를 결정하는 단계는 상기 자연어에 복수의 상기 주제 키워드가 포함되는 경우, 상기 질의 형태를 비교 우위 질의로 결정하는 단계를 포함하는 것인, 자연어 기반 질의 결과의 제공 방법.
  17. 제 16 항에 있어서,
    상기 질의 형태를 결정하는 단계는 상기 자연어에 상기 목적 키워드가 포함되어 있지 않는 경우, 상기 자연어에 대한 질의 형태를 추상적 비교 우위 질의로 결정하는 단계를 포함하는 것인, 자연어 기반 질의 결과의 제공 방법.
  18. 자연어 기반 질의에 대한 응답을 제공하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    자연어로부터 주제 키워드, 목적 키워드 및 상기 자연어에 대한 질의 형태를 추출하고,
    상기 주제 키워드, 목적 키워드 및 질의 형태를 포함하는 질의 지식 그래프를 생성하고,
    상기 주제 키워드를 포함하는 복수의 질의 지식 그래프를 탐색하고,
    상기 탐색된 복수의 질의 지식 그래프 각각의 상기 주제 키워드에 기반한 맵 데이터로부터 상기 목적 키워드와 관련된 정보를 도출하고,
    상기 도출된 정보 및 상기 질의 형태에 기초하여 상기 자연어에 대한 질의 결과를 제공하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.
KR1020190062612A 2019-05-28 2019-05-28 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램 KR102411778B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190062612A KR102411778B1 (ko) 2019-05-28 2019-05-28 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
PCT/KR2020/006120 WO2020242086A1 (ko) 2019-05-28 2020-05-08 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
US17/456,604 US20220083879A1 (en) 2019-05-28 2021-11-26 Inferring a comparative advantage of multi-knowledge representations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190062612A KR102411778B1 (ko) 2019-05-28 2019-05-28 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20200136707A true KR20200136707A (ko) 2020-12-08
KR102411778B1 KR102411778B1 (ko) 2022-06-22

Family

ID=73552006

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190062612A KR102411778B1 (ko) 2019-05-28 2019-05-28 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램

Country Status (3)

Country Link
US (1) US20220083879A1 (ko)
KR (1) KR102411778B1 (ko)
WO (1) WO2020242086A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230024135A1 (en) * 2021-07-20 2023-01-26 Sap Se Intelligent keyword recommender

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053098A1 (en) * 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for creating customized ontologies
US20090063472A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc., A Delaware Corporation Emphasizing search results according to conceptual meaning
KR20100100231A (ko) * 2009-03-05 2010-09-15 엔에이치엔(주) 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법
JP4698618B2 (ja) 2007-01-24 2011-06-08 日本電信電話株式会社 関係抽出方法、関係抽出システム
KR20160007057A (ko) * 2014-07-10 2016-01-20 네이버 주식회사 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
KR20160075739A (ko) * 2013-10-25 2016-06-29 시소모스 엘.피. 소셜 데이터 네트워크에 있어서의 인플루언서들을 결정하기 위한 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180314729A9 (en) * 2016-10-28 2018-11-01 Roam Analytics, Inc. Semantic parsing engine
US10867132B2 (en) * 2019-03-29 2020-12-15 Microsoft Technology Licensing, Llc Ontology entity type detection from tokenized utterance

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053098A1 (en) * 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for creating customized ontologies
JP4698618B2 (ja) 2007-01-24 2011-06-08 日本電信電話株式会社 関係抽出方法、関係抽出システム
US20090063472A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc., A Delaware Corporation Emphasizing search results according to conceptual meaning
KR20100100231A (ko) * 2009-03-05 2010-09-15 엔에이치엔(주) 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법
KR20160075739A (ko) * 2013-10-25 2016-06-29 시소모스 엘.피. 소셜 데이터 네트워크에 있어서의 인플루언서들을 결정하기 위한 시스템 및 방법
KR20160007057A (ko) * 2014-07-10 2016-01-20 네이버 주식회사 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템

Also Published As

Publication number Publication date
KR102411778B1 (ko) 2022-06-22
US20220083879A1 (en) 2022-03-17
WO2020242086A1 (ko) 2020-12-03

Similar Documents

Publication Publication Date Title
Andhale et al. An overview of text summarization techniques
US9280535B2 (en) Natural language querying with cascaded conditional random fields
US9761225B2 (en) Semantic re-ranking of NLU results in conversational dialogue applications
JP7232831B2 (ja) 複雑な回答の補強証拠取り出し
CN109522465A (zh) 基于知识图谱的语义搜索方法及装置
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
US20160078047A1 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
WO2020005601A1 (en) Semantic parsing of natural language query
JP2016541069A (ja) 非構造化テキストにおける特徴の曖昧性除去方法
KR20160007040A (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
JP6733809B2 (ja) 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
JP2015060243A (ja) 検索装置、検索方法、およびプログラム
JP2022024102A (ja) 検索モデルのトレーニング方法、目標対象の検索方法及びその装置
KR102398832B1 (ko) 지식 그래프에 기초하여 응답을 도출하는 장치, 방법 및 컴퓨터 프로그램
WO2016015267A1 (en) Rank aggregation based on markov model
Krzywicki et al. Data mining for building knowledge bases: techniques, architectures and applications
JP2018005690A (ja) 情報処理装置及びプログラム
KR20160066236A (ko) 지식 데이터베이스 기반 구조화된 질의 생성 방법 및 장치
Chen et al. A synergistic framework for geographic question answering
CN108959366B (zh) 一种开放性问答的方法
Li et al. Neural factoid geospatial question answering
KR102411778B1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
US20170124090A1 (en) Method of discovering and exploring feature knowledge
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
WO2014098561A1 (en) A semantic query system and method thereof

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right