KR20160007057A - 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 - Google Patents

의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 Download PDF

Info

Publication number
KR20160007057A
KR20160007057A KR1020140086995A KR20140086995A KR20160007057A KR 20160007057 A KR20160007057 A KR 20160007057A KR 1020140086995 A KR1020140086995 A KR 1020140086995A KR 20140086995 A KR20140086995 A KR 20140086995A KR 20160007057 A KR20160007057 A KR 20160007057A
Authority
KR
South Korea
Prior art keywords
search
data
language
query
environment information
Prior art date
Application number
KR1020140086995A
Other languages
English (en)
Other versions
KR101602342B1 (ko
Inventor
장재혁
김기영
김명석
허정수
김정훈
서승원
김형준
천지현
이현아
이용훈
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020140086995A priority Critical patent/KR101602342B1/ko
Publication of KR20160007057A publication Critical patent/KR20160007057A/ko
Application granted granted Critical
Publication of KR101602342B1 publication Critical patent/KR101602342B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법에 관한 것으로, 의미 태깅된 자연어 질의어에 대하여 메시업검색언어로 변환하는 단계; 상기 메시업검색언어의 속성 정보를 토대로 상기 변환한 메시업검색언어에 대응하는 검색환경정보를 선택하고, 상기 선택한 검색환경정보를 이용하여 상기 변환한 메시업검색언어를 대상검색 언어로 변환하는 단계; 상기 검색환경정보에 따라 지식 데이터베이스로부터 상기 변환한 대상검색 언어에 대응하는 데이터를 검색하는 단계; 상기 검색환경정보에 따라 상기 검색된 데이터를 가공하고, 상기 가공된 데이터를 포함하는 검색 결과 화면을 레이아웃하는 단계를 포함하며, 이때 상기 검색환경정보는, 질의 유형으로 정의되는 검색 모드, 질의에 포함된 검색분야로 정의되는 검색 도메인 및 속성별로 결과값을 도출하는 방식으로 정의되는 검색 프로퍼티별로 설정된 다수의 검색사항, 검색조건 및 검색결과제공방식을 정의한다.

Description

의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 {Method and system for providing information conforming to the intention of natural language query}
본 발명은 자연어 질의에 대한 정보 추출 및 제공 방법 등에 관한 것으로, 구체적으로는 의미 태깅된 자연어 질의에 대해 사용자 의도에 부합되는 다양한 정보 추출 방식을 적용하여 정보 추출 및 검색 결과 화면을 레이아웃하는 방법 및 시스템에 관한 것이다.
온톨로지(Ontology)는 실세계 객체 간의 의미적인 관계를 정의함으로써 컴퓨터가 객체 간의 복잡한 관계로부터 추론되는 정보에 접근하기 위한 정보에 대한 의미적인 명세를 제공하는 것으로서, 인공지능, 정보 검색, 유비쿼터스, 전자상거래 등 다양한 분양에서 응용될 수 있다.
특히, 상기 온톨로지는 웹상의 다양한 정보를 대상 간의 의미적인 관계로 표현함으로써, 정보 검색 분야에서 기존의 키워드 기반 검색으로 찾을 수 없었던 논리적인 질의 결과를 얻을 수 있다. 예를 들어, 온톨로지를 이용할 경우, "인구가 7천만 이상이고, 바다와 인접한 나라의 수도는 어디인가?"와 같은 질의에 대한 결과를 얻을 수 있다.
이러한 온톨로지 정보 검색은 키워드 기반 검색에 비해 세 가지 측면에서 유용성을 가진다. 첫째, 키워드 기반 검색의 결과는 입력 키워드가 포함된 문서만을 검색 결과로 제공하지만, 온톨로지 정보 검색은 사용자가 찾고자하는 특정 대상과 이에 대한 속성 정보를 직접적으로 제공할 수 있다. 둘째, 키워드 기반 검색은 입력 키워드 간의 관계가 반영된 검색 결과를 보장할 수 없지만, 온톨로지 정보 검색은 찾고자 하는 대상을 특징지을 수 있는 다른 대상들과의 관계로부터 정보를 찾을 수 있다. 셋째, 키워드 기반 검색은 이미 존재하는 정보만을 검색할 수 있지만, 온톨로지 정보 검색은 대상 간의 관계로부터 새로운 관계를 찾음으로써 기존에 존재하지 않았던 새로운 정보를 추론할 수 있다.
그런데, 이러한 온톨로지 정보 검색은 사용자가 원하는 질의 대상을 바로 찾음으로써 사용자의 편의성에서 큰 도움이 되나, 일반 사용자에게 익숙하지 않은 온톨로지 질의 언어를 사용해야 하기 때문에, 일반 사용자 입장에서 접근이 어렵다는 문제점이 있다. 결국, 일반 사용자가 온톨로지로 구축된 정보에 접근하기 위해서는 온톨로지의 구조나 온톨로지 질의 언어를 익혀야 하므로 온톨로지의 효용성이 떨어진다.
한편, 자연어는 온톨로지 질의 언어로 표현되는 논리적인 의미를 표현하기에 충분하고, 일반 사용자에게 익숙하다. 따라서, 자연어 질의로 온톨로지 정보에 접근할 수 있다면, 일반 사용자의 접근을 쉽게 하여 온톨로지 정보 검색의 효용성을 높일 수 있다.
온톨로지 정보를 자연어 질의로 접근하기 위해서는 자연어 질의를 온톨로지 질의 언어로 변환하는 기술이 요구되며, 이를 위해서는 먼저, 자연어 처리 기술을 활용하여 자연어 질의에 대한 구조 및 의미를 분석하고, 분석된 자연어 질의 정보로부터 자연어 표현에 대응하는 온톨로지의 객체 및 관계를 찾고 온톨로지 질의 언어의 문법 구조에 맞게 자연어 질의를 온톨로지 질의 언어로 변환하여야 한다.
그런데 이 방법은, 자연어 질의에 대한 구조 분석 및 의미 분석 등의 오류로 인해 접근할 수 없는 온톨로지 질의 언어가 발생하는 문제점이 있다. 더 구체적으로 설명하면, 일반적인 자연어 처리 기술이 검색 대상 온톨로지에 접근할 수 있는 자연어 표현을 처리하는데 필요한 모든 언어 자원을 갖추었다는 보장이 없고, 사소한 문법적인 오류로 잘못된 분석 결과를 가져 올 수 있기 때문에 접근할 수 없는 온톨로지 질의어가 발생할 수 있다.
결국, 기존의 검색방법에 따르면, 사용자는 오류가 나는 질의에 대해 여러 번의 시행착오를 거치면서 시스템이 처리할 수 있는 질의 유형을 익혀야 하는데, 이렇게 되면, 온톨로지 기반의 정보 검색을 처음 이용하는 사용자는 자연어 처리 기술이 수용할 수 있는 질의 형태와 온톨로지에 구축된 정보의 구체적인 내용을 모르기 때문에 어떤 질의가 유용한지 알 수 없게 된다.
또한, 서비스 제공자 입장에서, 구축된 온톨로지 정보를 모두 제공할 수 없다는 것을 보유하고 있는 정보의 유용성을 충분히 보이지 못하는 것을 의미한다.
그런데 대부분의 사용자는 서비스 제공자가 준비한 온톨로지에 대한 정보나 질의 입력 방법을 꼼꼼하게 숙지하기보다는 키워드 기반 정보 검색을 하듯이 직관적으로 사용하기를 원하며, 새로운 시스템에 적응하는데 투자하는 시간과 노력에 비례하여, 그 시스템에 대한 활용도나 만족도는 줄어들게 된다.
따라서, 정보 검색의 효용성 및 정확성을 높이기 위한 자연어이해 기술(Natural Language Understanding: NLU)에 대한 연구가 계속되고 있다. 자연어 기술은 '사용자 질문'을 대상으로 사용자의 질문 의도를 파악하려는 것으로, 음성으로 발화하거나 텍스트로 입력한 질문이 입력이 되고, 자연어 기술기법에서 질문 의도를 파악하여 추출한 리스트가 해당 질문에 대한 출력이 되는 것을 의미한다.
현재 자연어 기반의 검색 시스템은 키워드 기반의 검색과 달리 질의어에 포함된 사용자의 질의 의도를 파악하여 검색 결과를 제공하는 방안을 연구중이다.
본 발명의 목적은 상술한 문제점을 해결하기 위하여 안출된 것으로, 의미 태깅된 자연어 질의를 분석하여 메시업검색언어의 모드(mode), 도메인(domain) 및 프로퍼티(property) 등에 따른 다양한 정보 추출 방식을 적용함에 따라 사용자 의도에 부합되는 정보 추출 방법 및 시스템에 제안하는 것이다.
또한, 본 발명의 다른 목적은 사용자 질의어에 대한 검색 결과를 질의 의도에 부합하도록 검색 결과 화면을 레이아웃하여 제공하는 검색 정보 제공 방법 및 시스템을 제안하는 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상술한 문제를 해결하기 위한 본 발명의 일 양태 일 실시예에 따른 자연어 질의 검색 방법은, (a)의미 태깅된 자연어 질의어에 대하여 메시업검색언어로 변환하는 단계; (b)상기 메시업검색언어의 속성 정보를 토대로 상기 변환한 메시업검색언어에 대응하는 검색환경정보를 선택하고, 상기 선택한 검색환경정보를 이용하여 상기 변환한 메시업검색언어를 대상검색 언어로 변환하는 단계; (c)상기 검색환경정보에 따라 지식 데이터베이스로부터 상기 변환한 대상검색 언어에 대응하는 데이터를 검색하는 단계; (d)상기 검색환경정보에 따라 상기 검색된 데이터를 가공하고, 상기 가공된 데이터를 포함하는 검색 결과 화면을 레이아웃하는 단계를 포함하며, 상기 검색환경정보는, 질의 유형으로 정의되는 검색 모드, 질의에 포함된 검색분야로 정의되는 검색 도메인 및 속성별로 결과값을 도출하는 방식으로 정의되는 검색 프로퍼티별로 설정된 다수의 검색사항, 검색조건 및 검색결과제공방식을 정의한다.
본 발명의 실시예에 따른 상기 검색 모드는 질의 유형에 따른 속성별 검색 데이터 최대 개수, 검색용 속성 사용 개수 및 결과용 속성 사용 개수 중 적어도 하나 이상을 정의하고, 상기 검색 도메인은 도메인 속성에 따른 기본노출 속성, 이미지 제공 방식, 정렬 방식 및 링크 생성 방식 중 적어도 하나 이상을 정의하고, 상기 검색 프로퍼티는 검색 결과 종류, 결과 도메인, 메시업검색언어에 대응하는 대상검색언어의 구조, 결과 데이터 가공 방식 및 기본 노출 속성 중 적어도 하나 이상을 정의할 수 있다.
본 발명의 실시예에 따른 상기 (b)단계는, 상기 메시업검색언어의 속성 및 도메인 정보를 분석하는 단계; 상기 분석 결과에 따라 상기 메시업검색언어에 대응하는 검색환경정보를 선택하는 단계; 상기 선택한 검색환경정보를 이용하여 상기 메시업검색언어를 정규화하는 단계; 및 상기 정규화된 메시업검색언어를 상기 선택한 검색환경정보를 이용하여 상기 대상검색언어로 변환하는 단계를 포함할 수 있다.
본 발명의 실시예에 따른 상기 (c)단계는, 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 변환한 대상검색 언어에 대응하는 하나 이상의 물리적 데이터를 도출하는 단계; 및 상기 도출한 하나 이상의 물리적 데이터로부터 상기 검색환경정보에 포함된 논리 연산 규칙을 이용하여 결과 데이터를 도출하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 검색 모드가 정답형인 경우, 상기 검색환경정보는 상기 사용자 질의어에 부합되는 기본 데이터 및 상기 주 데이터와 연관성 있는 하나 이상의 추가 데이터를 검색하고, 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 동일 검색 결과 화면에 레이아웃되는 것을 정의할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 검색 모드가 비교형인 경우, 상기 검색환경정보는 상기 사용자 질의어에 포함된 비교 대상 각각에 대하여 동일한 속성의 데이터를 검색하고, 상기 검색된 비교 대상 각각에 대한 속성 데이터가 동일 검색 결과 화면에 레이아웃되는 것을 정의할 수 있다.
본 발명의 일 실시예에 따르면, 상기 검색 모드가 그래프형인 경우, 상기 검색 환경정보는 상기 사용자 질의어에 부합되는 검색 대상에 대한 기본 데이터 및 상기 질의 내용에 따라 상기 검색 대상과 연관성 있는 하나 이상의 추가 데이터를 검색하고, 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 검색 결과 화면상에서 관계도와 함께 그래프 형태로 레이아웃되는 것을 정의할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 양태 일 실시예에 따른 자연어 질의어 기반의 검색 시스템은, 사용자 디바이스를 통해 입력된 자연어 질의어를 구성하는 형태소를 정규화하고, 정규화된 형태소간의 의존관계에 따라 상기 자연어 질의어를 메시업검색언어로 변환하는 자연어 처리 엔진; 상기 메시업검색언어의 속성 정보를 토대로 상기 변환한 메시업검색언어에 대응하는 검색환경정보를 선택하고, 상기 선택한 검색환경정보를 토대로 상기 변환한 메시업검색언어를 데이터베이스 검색 언어인 대상검색 언어로 변환하여 데이터 검색을 수행하고, 상기 검색환경정보에 따라 상기 검색된 데이터를 가공하여 제공하는 검색 엔진; 및 다수의 검색환경정보, 언어 변환 정보 및 지식정보를 저장하는 지식 데이터베이스를 포함한다.
본 발명의 실시예에 따른 상기 검색 엔진은, 상기 메시업검색언어의 속성 정보를 분석하여 상기 메시업검색언어에 대응하는 검색환경정보를 선택하고, 상기 선택한 검색환경정보를 이용하여 상기 메시업검색언어를 정규화하는 메시업검색언어 정규화 모듈; 상기 검색환경정보에 따라 상기 정규화된 메시업검색언어를 상기 대상검색 언어로 변환하는 대상검색언어 변환 모듈; 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 대상검색언어에 대한 물리적 데이터를 검색 및 도출하여 결과 데이터를 생성하는 데이터 도출 모듈; 및 상기 검색환경정보에 따라 상기 데이터 도출 모듈에서 생성한 결과 데이터를 가공하고, 상기 가공된 데이터를 포함하는 검색 결과 화면을 생성하는 데이터 가공 모듈을 포함할 수 있다.
본 발명의 실시예에 따른 상기 데이터 도출 모듈은, 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 변환한 대상검색 언어에 대응하는 하나 이상의 물리적 데이터를 도출하고, 상기 도출한 하나 이상의 물리적 데이터로부터 상기 검색환경정보에 포함된 논리 연산 규칙을 이용하여 결과 데이터를 도출할 수 있다.
본 발명의 일 실시예에 따르면, 상기 검색 모드가 정답형인 경우, 상기 데이터 도출 모듈은 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 사용자 질의어에 부합되는 기본 데이터 및 상기 주 데이터와 연관성 있는 하나 이상의 추가 데이터를 도출하고, 상기 데이터 가공 모듈은 상기 검색환경정보에 따라 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 동일 화면에 포함되도록 검색 결과 화면 레이아웃할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 검색 모드가 비교형인 경우, 상기 데이터 도출 모듈은 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 사용자 질의어에 포함된 비교 대상 각각에 대하여 동일한 속성의 데이터를 도출하고, 상기 데이터 가공 모듈은 상기 검색환경정보에 따라 상기 검색된 비교 대상 각각에 대한 속성 데이터가 동일 화면에 포함되도록 검색 결과 화면 레이아웃할 수 있다.
본 발명의 또 다른 실시예에 따르면, 상기 검색 모드가 그래프형인 경우, 상기 데이터 도출 모듈은 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 사용자 질의어에 부합되는 검색 대상에 대한 기본 데이터 및 상기 질의 내용에 따라 상기 검색 대상과 연관성 있는 하나 이상의 추가 데이터를 도출하고, 상기 데이터 가공 모듈은 상기 검색환경정보에 따라 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 검색 결과 하나의 화면상에서 관계도와 함께 그래프 형태로 출력되도록 검색 결과 화면 레이아웃할 수 있다.
본 발명의 실시예에 따른 자연어처리 엔진은, 상기 자연어 질의어를 구성하는 다수의 형태소를 분석하고 정규화하는 정규화 모듈; 및 상기 정규화된 형태소에 대해 OPAC(Object Property Action Condition) 프레임 기반의 의미표현을 추출하고, 추출된 의미표현에 따라 상기 정규화된 형태소간 의존관계를 판단하는 의미분석모듈을 포함할 수 있다.
이때, 상기 의미분석모듈은, 상기 정규화된 형태소간 의존관계에 따라 하나 이상의 질의 대상, 하나 이상의 질의 속성 및 하나 이상의 질의 내용 중 적어도 둘 이상으로 이루어진 의존트리를 구성하고, 상기 의존 트리에 기초하여 상기 메시업검색언어를 생성할 수 있다.
상기 실시형태들은 본 발명의 바람직한 실시예들 중 일부에 불과하며, 본원 발명의 기술적 특징들이 반영된 다양한 실시예들이 당해 기술분야의 통상적인 지식을 가진 자에 의해 이하 상술할 본 발명의 상세한 설명을 기반으로 도출되고 이해될 수 있다.
본 발명의 실시예에 따르면, 의미 태깅된 자연어 질의를 분석하여 메시업검색언어의 모드(mode), 도메인(domain) 및 프로퍼티(property) 등에 따른 다양한 정보 추출 방식을 적용함에 따라 사용자 의도에 부합되는 정보를 추출하여 검색의 정확도 및 효율성를 높일 수 있다.
또한, 본 발명의 실시예에 따르면, 사용자 질의어에 대한 검색 결과를 질의 의도에 부합하도록 검색 결과 화면을 레이아웃하여 제공함에 따라 사용자 흥미 유발 및 이용도를 높일 수 있다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 본 발명의 실시예에 따른 의미 태킹된 자연어 질의 기반의 검색 시스템의 일 예를 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 검색 엔진에서 메시업검색언어의 속성에 따라 선택적인 방식으로 정보 추출 및 정보 제공하는 과정의 일 예를 설명하기 위한 절차 흐름도이다.
도 3은 본 발명의 실시예에 따라 자연어 질의어로부터 변환한 메시업검색언어의 일 예를 나타내는 도면이다.
도 4는 본 발명의 실시예에 따라 사용자 질문 의도에 부합되는 검색환경정보(NQL config)를 적용하여 정규화한 일 예를 나타내는 도면이다.
도 5는 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 검색환경정보(NQL config)에 따라 검출된 데이터를 레이아웃한 일 예를 나타내는 도면이다.
도 6은 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 검색환경정보(NQL config)에 따라 검출된 데이터를 레이아웃한 다른 예를 나타내는 도면이다.
도 7은 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 검색환경정보(NQL config)에 따라 검출된 데이터를 레이아웃한 또 다른 예를 나타내는 도면이다.
도 8은 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 검색환경정보(NQL config)에 따라 검출된 데이터를 레이아웃한 또 다른 예를 나타내는 도면이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이하 본 발명에 대한 상세한 설명 부분에서 설명하고자 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
본 발명은 자연어 질의에 대한 정보 추출 및 제공 방법 등에 관한 것으로, 구체적으로는 의미 태깅된 자연어 질의에 대해 사용자 의도에 부합되는 다양한 정보 추출 방식을 적용하여 정보 추출 및 검색 결과 화면을 레이아웃하는 방법 및 시스템에 관한 것이다.
도 1은 본 발명의 실시예에 따른 의미 태킹된 자연어 질의 기반의 검색 시스템의 일 예를 나타내는 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 검색 시스템(100)은 사용자 디바이스(110)를 통해 입력된 사용자 질의어를 분석하기 위한 자연어이해 기술(Natural Language Understanding: NLU) 기반의 자연어처리엔진(120), 검색엔진(130) 및 지식 데이터베이스(140)로 구성된다.
자연어처리엔진(120)은 사용자 디바이스(110)를 통해 입력된 의미 태깅된 자연어 기반의 복잡한 질의어를 분석하여 의미 분석을 통해 메시업검색언어(Naver Contents Repository-mashup Query Language: NQL)로 변환하고, 검색엔진(130)은 자연어처리엔진(120)에서 생성된 NQL에 기초하여 기 구축된 지식 데이터베이스로부터 질의 요청된 정보를 도출하여 사용자 디바이스(110)로 제공한다.
이하, 본 발명의 실시예에 따른 검색 시스템의 각 구성에 대하여 간략하게 설명하도록 한다.
자연어처리엔진(120)은 사용자 질의의 의미분석을 수행하는 의미분석모듈(121) 및 의미분석 결과에 따라 자연어 기반의 사용자 질의어를 추론 가능한 NQL로 변환하는 NQL변환모듈(122)을 포함한다.
의미분석모듈(121)은 사용자 질의어를 분석하여 형태소 단위로 분류하고, 형태소간의 의미관계를 파악하여 사용자 질의어의 논리적/물리적 2중 구조를 분석한다.
예를 들어, 의미분석모듈(121)은 사용자 질의어가 "특정인물 A의 현재나이는?"인 경우, 해당 질의어는 "특정인물 A의 생년월일은?"이란 물리적 데이터를 요청하는 질의 문구와 "현재년도는?"이라는 물리적 데이터를 요청하는 질의 문구에 대한 결과를 통해 최종 결과를 도출하는 2중 구조로 이루어진 것을 분석할 수 있다. 즉, 질의어의 형태소간의 의미관계 분석을 통해 "현재나이"는 "생년월일", "현재년도"와 같은 물리적 데이터를 내부적으로 포함하는 논리적/물리적 2중 구조로 파악할 수 있다.
NQL변환모듈(122)은 연어 기반의 사용자 질의어를 검색용 언어인 NQL로 변환하는 모듈로서, 의미분석모듈(121)에서 수행한 분석 결과에 기초하여 사용자 질의에 포함된 하나 이상의 질의문구를 추론할 수 있도록 트리 구조의 NQL을 생성한다.
본 명세서에서 NQL이란 질의어를 분석하여 서비스단 속성을 지정하는 검색 언어로서, 자연어로 표현된 사용자의 질의에 의미 태깅하여 지식 데이터베이스에 질의하기 위하여 고안된 언어로 정의할 수 있다. NQL은 외부적으로는 논리적 속성을 나타내고 내부적으로는 지식 데이터베이스의 물리적 속성을 이용하여 검색 결과를 생성하는 2중 구조로 이루어진다. 즉, NQL은 지식 데이터베이스의 물리적 구조를 따르지 않고 독자적인 논리적 구조를 구축하여, 설정을 통해 논리적 구조와 물리적 구조간의 관계를 정의하여 질의 유형별, 서비스 유형별로 적합한 데이터 제공이 가능하도록 하기 위한 언어이다. 예를 들어, 사용자 질의어에 "몇살인가요"란 품사가 포함되면, 이를 토대로 변환된 NQL은 "나이"로 속성을 지정할 수 있다.
NQL변환모듈(122)에서 생성하는 트리 구조의 NQL은 도 2에 예시된 바와 같다. 이에 대해서는 이하 도 2를 참조하여 후술하도록 한다.
다음으로, 검색엔진(130)은 자연어처리엔진(120)에서 생성된 자연어 질의 기반의 NQL에 기초하여 지식 데이터베이스(140)로부터 정보 검색을 수행하며, 메시업 기술을 기반으로 한다.
다음으로, 검색 엔진(130)은 자연어 처리 엔진(120)에서 생성된 자연어 기반의 NQL로 변환된 질의어 프레임 분석 결과 검색환경정보(NQL config)를 고려하여 NQL을 질의 의도에 부합되는 용도로 재구성한다. 본 명세서에서 NQL config란 NQL 속성 분석 결과 NQL 모드(mode), 도메인(domain) 및 프로퍼티(property) 등을 고려하여 서비스별로 구분되는 질의 의도를 고려하여, 질의 의도에 부합되는 데이터 속성, 데이터 도출 및 데이터 가공 방식을 정의하는 검색 환경 정보를 의미한다.
구체적으로, 검색 엔진(130)은 지식 데이터베이스(140)에 기초하여 자연어처리 시스템으로부터 전송되는 NQL에 대하여 NQL 속성에 따른 NQL config를 적용하여 재구성하는 NQL 정규화 모듈(131), 재구성된 NQL에 대해 NQL config를 적용하여 OQL로 변환하는 OQL 변환 모듈(132), 지식 데이터베이스(140)에 기초하여 OQL에 대응하는 데이터를 검색 및 도출하기 위한 데이터 도출 모듈(133) 및 도출한 검색 데이터를 사용자 의도에 부합되도록 가공하여 검색 결과 화면을 레이아웃하는 데이터 가공 모듈(134)을 포함한다.
지식 데이터베이스(140)은 NQL 속성에 따라 다양한 NQL config 정보를 저장하는 NQL config DB(141), NQL에서 OQL로의 변환에 필요한 속성정보 및 규칙정보를 저장하는 OQL DB(142), 지식정보 DB(143) 및 데이터 가공 규칙 DB(144)를 포함한다. 이때, NQL config DB(141)는 NQL 속성에 따른 NQL 정규화을 위하여 검색 모드, 검색 도메인, 검색 프로퍼티 등을 고려하여 질의 의도에 부합되는 데이터 검색 방식을 정의하는 다양한 형태의 config를 저장한다.
NQL 정규화 모듈(131)은 자연어처리 엔진으로부터 전달되는 NQL의 속성 및 도메인 등을 분석하여 NQL config DB(141)로부터 질의 의도에 부합되는 NQL config를 도출하고, 도출한 NQL config을 적용하여 NQL 정규화를 수행한다.
표 1은 본 발명의 실시예에 따른 NQL config를 설명하기 위한 것이다.
NQL Config
NQL config_mode 1)mode는 사용자 질의 유형을 의미함.
2)mode 예제: 정답형, 비교형, 관계형, 그래프형 등
3)NQL 속성별 검색값 최대 개수, 검색용 속성 사용 개수, 결과용 속성 사용 개수 등을 정의함.
NQL config_domain 1)domain은 질의 대상 또는 속성이 속한 의미상의 범주를 나타내는 것으로, 다수의 의미 계층구조에서 각 계층을 의미함.
2)domain 예제: 인물, 영화, 방송 등
3)기본노출 속성, 이미지 제공 방식, 정렬 방식, 링크 생성 방식 등을 정의함.
NQL config_property 1)property는 질의 대상간의 관계 또는 대상을 서술하는 단위를 의미함.
2)property 예제: 나이, 가족, 출연영화 등
3)검색값의 종류, 검색값의 도메인, NQL에 대응하는 OQL 스키마, 검색값의 가공 방식, 기본 노출 속성 등을 정의함.
상기 표 1을 참조하면, NQL config_mode는 사용자 질의 유형을 의미하는 것으로, 질의 유형에 따른 속성별 검색값 최대 개수, 검색용 속성 사용 개수, 결과용 속성 사용 개수 등으로 정의할 수 있다. 예를 들어, 질의 유형으로 정답형, 비교형, 관계형, 그래프형 등으로 구분할 수 있다. 각각의 유형에 대하여, 정답형 질의어에 대한 NQL config_mode는 질의에 대응하는 데이터 정확도를 우선순위로 검색 및 제공하는 것으로 정의하고, 비교형 질의어에 대한 NQL config_mode는 비교 대상에 대응하는 각각의 데이터들 중 비교에 유용한 속성 위주로 데이터를 도출하고 비교형태로 레이아웃하는 것으로 정의하고, 관계형 질의어에 대한 NQL config_mode는 두 질의 대상과 관계가 있는 또 다른 질의 대상들에 대한 데이터 검색도 추가적으로 이루어지도록 정의하고, 그래프형 질의어에 대한 NQL config_mode는 질의에 대응하는 데이터를 그래프 형태로 가공하여 제공하는 것으로 정의할 수 있다.
NQL config_domain은 질의 대상 또는 속성이 속한 의미상의 범주를 나타낸다. 질의어는 다수의 의미상의 계층으로 구성될 수 있는데, 이때 각 계층이 각각의 도메인이 된다. 예컨대, "A여배우가 출연한 영화는?"라는 질의어는 제1 계층은 인물 도메인이고, 제2 계층은 영화 도메인으로 구성될 수 있다. NQL config_domain은 각 도메인의 속성에 따른 기본노출 속성, 이미지 제공 방식, 정렬 방식, 링크 생성 방식 등을 정의하며 한 계층에서 가질 수 있는 조건을 제한한다. 이는, 해당 계층에서 가질 수 있는 다양한 경우의 수를 제한하여 보다 정확하고 품질높은 데이터를 제공하도록 하기 위한 것이다.
NQL config_property는 질의 대상간의 관계 또는 대상을 서술하는 단위를 의미하는 것으로, NQL 속성별로 검색 데이터를 가져오는 방식을 정의한다. 색 데이터를 가져오는 방식은 결과값의 종류, 결과값의 도메인, NQL에 대응하는 OQL 구조, 결과값의 가공 방식 및 기본 노출 속성 중 적어도 하나를 포함할 수 있다.
구체적으로, NQL config_property는 NQL 속성에 따라 원시자료(primitive)형, 대상(object)형, 복합속성형, 가상속성형으로 구분할 수 있다. 이중, 가상속성형은 지식 데이터베이스에 저장된 물리적 데이터를 조합, 연산 및 가공하여 결과값을 도출하는 방식으로, 이를 위한 별도의 로직을 정의한다. 예를 들어, 질의어가 특정 인물의 "데뷔나이"를 질의하는 경우, "데뷔나이"라는 속성은 "데뷔년도" 및 "생년월일"로 구성된 물리적 구조를 기반으로 각각의 물리적 데이터를 연산하여 도출하는 가상속성에 해당된다.
NQL config_mode, NQL config_domain 및 NQL config_property는 서로간에 오버라이드(override)될 수 있다. 예를 들어, 질의어가 "A여배우가 출연한 영화는?"에 대해 인물 도메인이라는 기본 노출 속성이 있지만 "출연배우" 속성을 통해 제공되는 결과의 인물 데이터는 영화 관련 속성을 기본 노출 속성으로 설정할 수 있다. 동일한 인물에 대한 질의어가 달라지는 경우를 예로 들면, "A여배우"라고 검색하는 경우와 "B영화의 여자주인공"이라고 검색하는 경우, 기본적으로 제공되는 결과 속성은 전자의 결과값은 A여배우의 나이, 직업, 학력 등으로 구성되고 후자의 결과값은 A여배우의 나이, 직업, 출연영화 등으로 구성될 수 있다. 즉, NQL 속성에 따라 제공되는 결과값은 일부 차이날 수 있다.
다시 도 1을 참조하면, NQL 정규화 모듈(131)은 사용자 질의를 바탕으로 생성된 NQL을 질의 의도에 부합되는 NQL config를 적용하여 정규화된 NQL(NQL_normalization)로 변환한다.
바람직하게는, NQL 정규화 모듈(131)은 NQL_normalization을 구성하면서 NQL config에 따라 사용자 질의 의도에 근접하기 위한 추가 데이터 도출을 위한 단서 정보를 포함시킬 수 있다.
OQL 변환 모듈(132)은 NQL 정규화 모듈(131)에서 변화된 NQL_normalization에 대하여 OQL DB(142)에 저장된 기초하여 NQL config에 기초하여 OQL로 변환한다. 이때, OQL 변환모듈(132)은 NQL의 논리적 도메인 및 속성에 기초하여 지식정보 DB(143)의 물리적 속성값으로 원하는 데이터를 도출할 수 있는 OQL로 변환한다.
데이터 도출 모듈(133)은 OQL 변환모듈(132)에서 변환된 OQL을 토대로 지식정보 DB(143)를 검색하여 물리적 데이터를 도출한다.
또한, 데이터 도출 모듈(133)은 지식정보 DB(143)로부터 도출한 OQL에 대응하는 물리적 데이터를 NQL config에 따라 NQL 결과 데이터로 변환할 수 있다. 결과 데이터 변환 과정에서, 물리적 구조 결과를 논리적 구조 결과로 매칭할 수 있다.
이때, 데이터 도출 모듈(133)은 NQL 속성이 가상속성인 경우 지식정보 DB(143)로부터 도출한 하나 이상의 물리적 데이터를 이용하여 논리적 구조에 부합되는 결과 데이터를 도출할 수 있다.
데이터 가공 모듈(134)은 데이터가 사용되는 사용처별로 부합되는 포맷으로 데이터를 가공한다. 구체적으로, 데이터 도출 모듈(133)에서 도출한 질의 결과 데이터에 대해 현재 검색 엔진에서 데이터 검색을 위해 이용한 NQL config에 따라 기 설정된 데이터 가공 방식으로 결과 데이터를 가공하여 검색 결과 화면을 레이아웃을 구성할 수 있다. 이때, 데이터 가공은 데이터 가공 규칙 DB(144)로부터 NQL config에 부합되는 데이터 가공 규칙을 가져와서 NQL 결과 데이터를 가공할 수 있다. 예를 들어, NQL config_domain에 따라 정의된 기본노출 속성, 이미지 제공 방식, 데이터 정렬 방식, 링크 생성 방식 등에 기초하여 데이터 가공 및 검색 결과 화면을 레이아웃을 구성할 수 있다.
도 2은 본 발명의 실시예에 따른 검색 엔진에서 메시업검색언어의 속성에 따라 선택적인 방식으로 정보 추출 및 정보 제공하는 과정의 일 예를 설명하기 위한 절차 흐름도이다.
도 2을 참조하면, 본 발명의 실시예에 따른 검색 엔진은 자연어처리 엔진으로부터 전송되는 NQL에 대하여 NQL의 속성 및 도메인을 분석한다(S201).
분석 결과에 따라, 검색 엔진은 NQL config DB로부터 사용자 질의 의도에 부합되는 NQL config를 도출하여 이를 기반으로 자연어 처리 엔진으로부터 수신한 NQL을 NQL_normalization으로 정규화하는 작업을 수행한다(S202).
NQL config는 상기 표 1을 참조하여 상술한 바와 같이, 질의어의 속성을 기반으로 질의 모드, 질의 도메인, 질의 프로퍼티 등의 특성에 따라 정의되는 데이터 검출 방식으로, 사용자 질의 의도에 따라 적용되는 NQL config는 달라질 수 있다.
이때, 해당 NQL에 적용하는 NQL config 특성에 따라 사용자 질의 의도에 최적화된 데이터 검색 위한 추가 데이터 검색 사항을 더 포함시켜 NQL_normalization을 구성할 수 있다. 예를 들어, 특정 인물에 대한 정보(예, 출연영화)가 질의 속성인 경우, 해당 영화에 출연했던 다른 인물들에 대한 정보도 함께 제공할 수 있도록 추가 데이터 검색 사항을 설정할 수 있다.
NQL 정규화가 이루어지면, 검색 엔진은 전 단계(S202)에서 적용한 NQL config에 따라 NQL_normalization을 지식 데이터베이스에 질의하기 위한 검색 언어인 OQL로 변환한다(S203). OQL은 지식 데이터베이스가 사용하는 물리적 구조를 이용한다.
그리고, 변환된 OQL을 이용하여 지식 데이터베이스를 검색하고 대응되는 물리적 데이터를 도출하는데, 데이터 도출 과정에서도 NQL config_mode에 따라 질의 유형에 따른 속성별 검색값 최대 개수, 검색용 속성 사용 개수, 결과용 속성 사용 개수 등을 달리할 수 있다(S204).
예를 들어, 정답형 질의어(예, 특정인물 A의 키는?)에 대해 NQL config는 해당 질의에 대응하는 물리적 데이터를 최우선으로 도출하도록 설정할 수 있다. 이때, NQL_normalization에 포함된 추가 데이터 검색 사항에 따라 검색 결과 데이터와 동일한 데이터를 갖는 다른 인물에 대한 데이터도 도출하여 부가 정보도 함께 제공할 수 있다.
다른 예로, 비교형 질의어(예, A영화 대 B영화는?)에 대해 비교 대상에 대응하는 각각의 데이터들 중 비교에 유용한 속성 위주로 데이터를 도출할 수 있다.
또 다른 예로, 관계형 질의어(예, 특정인물 A의 지인은?)에 대해 질의 대상과 관계가 있는 다른 질의 대상들에 대한 추가 데이터를 도출하며, 각 대상간의 관계거리를 산출하여 최소 거리 범주에 위치한 유효 데이터를 도출할 수 있다.
또한, NQL config_domain에 따라 각 도메인 특성별로 정의된 검색 조건에 기초하고, NQL config_property에 따라 검색에 따른 데이터 종류, 데이터 도메인, 기본 노출 속성 등에 기초하여 지식 데이터베이스를 검색할 수 있다.
다음으로, 전 단계(S204)에서 도출한 OQL 데이터들을 NQL config에 따라 기 설정된 데이터 가공 방식으로 NQL 결과 데이터로 변환한다(S205). 이때, 물리적 구조 결과를 논리적 구조로 매칭할 수 있다. 예컨대, 질의어가 검색 대상 인물의 "현재나이"를 묻는 경우, 해당 인물의 "생년월일" 및 "현재년도"라는 물리적 데이터를 도출하여 이로부터 "현재나이"를 산출하는 논리적 구조로서 NQL 결과 데이터를 도출할 수 있다.
NQL 결과 데이터가 도출됨에 따라, 검색 엔진은 NQL config에 부합되는 데이터 가공 규칙을 적용하여 사용자 의도를 반영한 검색 결과 제공 방식으로 검색 결과 화면을 레이아웃을 구성하여 사용자에게 제공한다(S206). 검색 결과 데이터에 대한 검색 결과 화면을 레이아웃은, NQL config_mode에 기초하여 질문 유형별로 다르게 가공될 수 있다.
도 3은 본 발명의 실시예에 따라 자연어 질의어로부터 변환한 NQL의 일 예를 나타내는 도면이다.
도 3을 참조하면, 사용자 질의어는 "소녀시대 멤버가 출연한 영화는?"이고, 자연어처리 엔진은 질의어를 형태소 단위로 "소녀시대(가수그룹명), 멤버(속성), 영화(속성)"으로 분석하고, 형태소간의 의존관계에 따라 "소녀시대←멤버←영화"의 의존트리를 구성함으로써 도 3에 도시된 바와 같은 계층적 구조의 NQL로 나타낼 수 있다. 예시된 계층적 구조는 "object/name":소녀시대"(301)와 그에 대한 속성정보로 "person/member"(302) 및 "person/mpvie_performed"(303)로 구성할 수 있다. 즉, 도 3에 도시된 NQL의 속성은 OPP(Object/Property/Property) 형태의 계층적 구조라 볼 수 있다.
본 발명의 실시예에 따른 메쉬업 기술은 질의어의 의미분석에 따라 질의어를 구성하는 형태소의 속성별로 OP(Object/Property), COP(Condition/Object/Property), OPP(Object/Property/Property), OOP(Object/Object/Property), OO(Object/Object), CCO(Condition/Condition/Object), CCOP(Condition/Condition/Object/Property) 등과 같은 다양한 관계형으로 나타낼 수 있다.
도 4는 본 발명의 실시예에 따라 사용자 질문 의도에 부합되는 NQL config를 적용하여 정규화한 일 예를 나타내는 도면이다.
도 4를 참조하면, 상기 도 3에서 예시된 사용자 질의어 "소녀시대 멤버가 출연한 영화는?"로부터 변환된 NQL의 속성에 기초하여 인물 도메인 및 영화 도메인 측면에서 필요한 데이터를 검출할 수 있도록 NQL을 정규화한 NQL_normalization(401)로 변환할 수 있다.
도 5는 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 NQL config에 따라 검출된 데이터를 레이아웃한 일 예를 나타내는 도면이다.
도 5를 참조하면, 사용자 질의어가 "특정 가수(이효리)"인 경우, 본 발명의 실시예에 따른 검색 엔진은 사용자 질의어인 "이효리"에 대응되는 NQL 속성으로부터 해당 질의 유형은 "정답형"이고, "인물 도메인"에 해당한다는 것을 분석할 수 있다. 이에 따라, 해당 질의에 부합되는 NQL config를 설정함에 있어서, NQL config_mode(정답형), NQL config_domain(인물 도메인)으로 설정할 수 있다.
즉, NQL config_mode(정답형)에 정의된 검색 데이터 최대개수, 검색용 속성 사용 개수, 결과용 속성 사용 개수 등을 이용하고, NQL config_domain(인물 도메인)에 정의된 기본노출 속성, 이미지 제공 방식, 정렬 방식, 링크 생성 방식 등을 이용하며, NQL config_property는 이와 같은 설정에 따른 속성별로 도출해야하는 데이터 종류, 데이터 도메인, 해당 NQL에 대응하는 OQL 구조, 결과 데이터 가공 방식, 기본 노출 속성 등의 정의된 조건으로 이용할 수 있다.
이에 따라, 도 5에 도시된 바와 같이 결과 데이터를 검색 결과 화면을 레이아웃할 수 있다. 인물 질의어에 대하여 해당 인물의 프로필 사진(501), 기본정보(502), 해당 인물의 활동정보(503)가 기본 노출 속성으로 정의되고, 각각의 속성에 포함되는 상세정보들이 나열되도록 구성할 수 있다. 이때, 상세정보가 출력되는 방식은 NQL config_property에 정의된 바에 따라 다양하게 구성할 수 있다. 예컨대, 검색 대상 인물의 직업이 "가수"라는 속성을 갖는 경우, 활동정보(520)에 제공되는 정보 형태는 앨범, 방송, 공연, 도서, 영화 등의 상세정보가 포함될 수 있고, 상세정보들 중에서도 앨범 정보가 최우선 출력되고 각각의 앨범은 이미지 형태로 검색 결과 화면을 출력되도록 정의한 NQL config를 적용하여 데이터 가공 및 검색 결과 화면을 레이아웃할 수 있다.
도 6은 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 NQL config에 따라 검출된 데이터를 레이아웃한 다른 예를 나타내는 도면이다.
도 6을 참조하면, 사용자 질의어가 "특정 영화(스타워즈)"인 경우, 본 발명의 실시예에 따른 검색 엔진은 사용자 질의어인 "스타워즈"에 대응되는 NQL 속성으로부터 해당 질의 유형은 "정답형"이고, "영화 도메인"에 해당한다는 것을 분석할 수 있다. 이에 따라, 해당 질의에 부합되는 NQL config를 설정함에 있어서, NQL config_mode(정답형), NQL config_domain(영화 도메인)으로 설정할 수 있다.
상기 도 5에 예시된 질의 속성과 비교해보면, NQL config_mode는 정답형으로 동일하나 NQL config_domain에서 차이점이 있음을 확인할 수 있다. 해당 질의에 적용할 NQL config_domain이 달라짐에 따라, 도출되는 데이터의 종류가 달라진다.
도 6에 도시된 바와 같이, 영화 질의어에 대하여 해당 영화의 포스터 사진(601), 기본정보(602), 해당 영화에 대한 부가정보(603)가 기본 노출 속성으로 정의되고, 각각의 속성에 포함되는 상세정보들이 나열되도록 구성할 수 있다. 이때, NQL config_property는 NQL config_domain이 영화 도메인인 경우, 상세정보 노출시 영화 평가정보(리뷰)가 최우선 출력되도록 설정할 수 있다.
상기 도 5 및 도 6에 예시된 검색 결과를 비교해보면, 검색 엔진이 질의어에 대응하는 NQL의 속성 분석을 통해 각기 다른 NQL config를 적용함에 따라 질의어의 속성에 따라 제공되는 데이터 종류, 데이터 가공 형태가 구분되는 것을 확인할 수 있다.
도 7은 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 NQL config에 따라 검출된 데이터를 레이아웃한 또 다른 예를 나타내는 도면이다.
도 7을 참조하면, 사용자 질의어가 "너의 목소리가 들려(A드라마) 별에서 온 그대(B드라마)"인 경우, 본 발명의 실시예에 따른 검색 엔진은 사용자 질의어에 대응되는 NQL 속성으로부터 질의 대상은 같은 종류의 방송 프로그램으로 해당 질의 유형은 "비교형"이고, "방송 도메인"에 해당한다는 것을 분석할 수 있다. 이에 따라, 해당 질의에 부합되는 NQL config를 설정함에 있어서, NQL config_mode(비교형), NQL config_domain(방송 도메인)으로 설정할 수 있다.
즉, NQL config_mode(비교형)에 정의된 바에 따라 두 개의 검색 대상을 비교하기 위해 유용한 검색 데이터 종류, 검색 데이터 최대개수, 검색용 속성 사용 개수, 결과용 속성 사용 개수 등을 이용하고, NQL config_domain(방송 도메인)에 정의된 기본노출 속성, 이미지 제공 방식, 정렬 방식, 링크 생성 방식 등을 이용할 수 있다. 또한, NQL config_property는 이와 같은 설정에 따른 속성별로 도출해야하는 데이터 종류, 데이터 도메인, 해당 NQL에 대응하는 OQL 구조, 결과 데이터 가공 방식, 기본 노출 속성 등의 정의된 조건으로 이용할 수 있다.
이에 따라, 도 7에 도시된 바에 의하면, 두 개의 검색 대상이 방송 프로그램인 점을 고려하여 비교하기 유용한 정보들(701 내지 706)을 좌우 대칭으로 비교하는 형태로 데이터 가공하여 검색 결과 화면(700)을 레이아웃할 수 있다.
도 8은 본 발명의 실시예에 따라 사용자 질의 의도를 반영한 NQL config에 따라 검출된 데이터를 레이아웃한 또 다른 예를 나타내는 도면이다.
도 8을 참조하면, 사용자 질의어가 "꽃보다누나에 출연한 배우들의 나이는?"인 경우, 자연어처리 엔진은 질의어 분석을 통한 NQL 생성 과정을 통해 도 8의 (a)에 예시된 바와 같은 다수의 계층 구조로 이루어진 NQL을 생성할 수 있다. 검색 대상을 나타내는 "object/name":"꽃보다누나"(801), 검색 도메인 및 속성을 나타내는 "broadcast/player"(802), 검색 대상에 대한 속성정보를 나타내는 "person/age"(803) 및 "person/jop"(804)로 NQL을 구성할 수 있다.
다음으로, 본 발명의 실시예에 따른 검색 엔진은 NQL 속성 분석을 통해 질의 유형은 "그래프형"이고, "인물도메인, 방송도메인"과 같이 다중 도메인에 해당한다는 것을 분석할 수 있다. 이에 따라, 해당 질의에 부합되는 NQL config를 설정함에 있어서, NQL config_mode(그래프형), NQL config_domain(인물도메인, 방송도메인)으로 설정할 수 있다.
NQL config_mode(그래프형)에서는 검색 대상 엔티티와 그 주변 데이터를 함께 제공하고, 엔티티간의 친밀도 계산을 위한 속성 위주로 지식 데이터베이스를 검색하도록 정의함에 따라, 도 8의 (b)에 도시된 바와 같이 "꽃보다누나"라는 엔티티(805)와 관련있는 "방송/출연진" 엔티티(806)로의 1단계 검색, "방송/출연진" 엔티티와 관련있는 "인물/직업" 엔티티(807)로의 2-1단계 검색 및 "방송/출연진" 엔티티와 관련있는 "인물/나이" 엔티티(808)로의 2-2단계 검색을 수행하고, 검색 대상 엔티티(805)와 그 주변 엔티티(806 내지 808)간의 연관성을 표시하기 위한 그물 형태의 그래프로 시각화한 검색 결과 화면을 레이아웃을 구성할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상이 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (14)

  1. 의미 태깅된 자연어 질의어에 대하여 메시업검색언어로 변환하는 메시업검색언어 변환 단계;
    상기 메시업검색언어의 속성 정보를 토대로 검색환경정보 DB로부터 상기 변환한 메시업검색언어에 대응하는 검색환경정보를 선택하고, 상기 선택한 검색환경정보를 이용하여 상기 변환한 메시업검색언어를 대상검색언어로 변환하는 대상검색언어 변환 단계;
    상기 검색환경정보에 따라 지식 데이터베이스로부터 상기 변환한 대상검색언어에 대응하는 데이터를 검색하는 검색 단계; 및
    상기 검색환경정보에 따라 상기 검색된 데이터를 가공하고, 상기 가공된 데이터를 포함하는 검색 결과 화면을 레이아웃하는 출력 단계를 포함하며,
    상기 검색환경정보 DB는,
    질의 유형으로 정의되는 검색 모드, 질의에 포함된 검색분야로 정의되는 검색 도메인 및 속성별로 결과값을 도출하는 방식으로 정의되는 검색 프로퍼티 중 적어도 하나에 대해 설정된 다수의 검색사항, 검색조건 및 검색결과제공방식 중 적어도 하나를 정의하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법.
  2. 제1항에 있어서,
    상기 검색 모드는 질의 유형에 따른 속성별 검색 데이터 최대 개수, 검색용 속성 사용 개수 및 결과용 속성 사용 개수 중 적어도 하나 이상을 정의하고,
    상기 검색 도메인은 도메인 속성에 따른 기본노출 속성, 이미지 제공 방식, 정렬 방식 및 링크 생성 방식 중 적어도 하나 이상을 정의하고,
    상기 검색 프로퍼티는 검색 결과 종류, 결과 도메인, 메시업검색언어에 대응하는 대상검색언어의 구조, 결과 데이터 가공 방식 및 기본 노출 속성 중 적어도 하나 이상을 정의하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 대상검색언어 변환 단계는,
    상기 메시업검색언어의 속성 및 도메인 정보를 분석하는 단계;
    상기 분석 결과에 따라 상기 메시업검색언어에 대응하는 검색환경정보를 선택하는 단계;
    상기 선택한 검색환경정보를 이용하여 상기 메시업검색언어를 정규화하는 단계; 및
    상기 정규화된 메시업검색언어를 상기 선택한 검색환경정보를 이용하여 상기 대상검색언어로 변환하는 단계를 포함하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 검색 단계는,
    상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 변환한 대상검색 언어에 대응하는 하나 이상의 물리적 데이터를 도출하는 단계; 및
    상기 도출한 하나 이상의 물리적 데이터로부터 상기 검색환경정보에 포함된 논리 연산 규칙을 이용하여 결과 데이터를 도출하는 단계를 포함하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법.
  5. 1항 또는 제2항에 있어서,
    상기 검색 모드가 정답형인 경우,
    상기 검색환경정보는 상기 사용자 질의어에 부합되는 기본 데이터 및 상기 주 데이터와 연관성 있는 하나 이상의 추가 데이터를 검색하고, 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 동일 검색 결과 화면에 레이아웃되는 것을 정의하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법.
  6. 1항 또는 제2항에 있어서,
    상기 검색 모드가 비교형인 경우,
    상기 검색환경정보는 상기 사용자 질의어에 포함된 비교 대상 각각에 대하여 동일한 속성의 데이터를 검색하고, 상기 검색된 비교 대상 각각에 대한 속성 데이터가 동일 검색 결과 화면에 레이아웃되는 것을 정의하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법.
  7. 1항 또는 제2항에 있어서,
    상기 검색 모드가 그래프형인 경우,
    상기 검색 환경정보는 상기 사용자 질의어에 부합되는 검색 대상에 대한 기본 데이터 및 상기 질의 내용에 따라 상기 검색 대상과 연관성 있는 하나 이상의 추가 데이터를 검색하고, 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 검색 결과 화면상에서 관계도와 함께 그래프 형태로 레이아웃되는 것을 정의하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 방법.
  8. 자연어 질의어 기반의 검색 시스템에 있어서,
    사용자 디바이스를 통해 입력된 자연어 질의어를 구성하는 형태소를 정규화하고, 정규화된 형태소간의 의존관계에 따라 상기 자연어 질의어를 메시업검색언어로 변환하는 자연어 처리 엔진;
    상기 메시업검색언어의 속성 정보를 토대로 검색환경정보 DB로부터 상기 변환한 메시업검색언어에 대응하는 검색환경정보를 선택하고, 상기 선택한 검색환경정보를 토대로 상기 변환한 메시업검색언어를 데이터베이스 검색 언어인 대상검색 언어로 변환하여 데이터 검색을 수행하고, 상기 검색환경정보에 따라 상기 검색된 데이터를 가공하여 제공하는 검색 엔진; 및
    상기 검색환경정보 DB, 언어 변환 정보 DB 및 지식정보 DB 중 적어도 하나를 포함하는 지식 데이터베이스를 포함하며,
    상기 검색환경정보 DB는,
    질의 유형으로 정의되는 검색 모드, 질의에 포함된 검색분야로 정의되는 검색 도메인 및 속성별로 결과값을 도출하는 방식으로 정의되는 검색 프로퍼티 중 적어도 하나에 대해 설정된 다수의 검색사항, 검색조건 및 검색결과제공방식 중 적어도 하나를 정의하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 시스템.
  9. 제8항에 있어서,
    상기 검색 모드는 질의 유형에 따른 속성별 검색 데이터 최대 개수, 검색용 속성 사용 개수 및 결과용 속성 사용 개수 중 적어도 하나 이상을 정의하고,
    상기 검색 도메인은 도메인 속성에 따른 기본노출 속성, 이미지 제공 방식, 정렬 방식 및 링크 생성 방식 중 적어도 하나 이상을 정의하고,
    상기 검색 프로퍼티는 검색 결과 종류, 결과 도메인, 메시업검색언어에 대응하는 대상검색언어의 구조, 결과 데이터 가공 방식 및 기본 노출 속성 중 적어도 하나 이상을 정의하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 시스템.
  10. 제8항 또는 제9항에 있어서,
    상기 검색 엔진은,
    상기 메시업검색언어의 속성 정보를 분석하여 상기 메시업검색언어에 대응하는 검색환경정보를 선택하고, 상기 선택한 검색환경정보를 이용하여 상기 메시업검색언어를 정규화하는 메시업검색언어 정규화 모듈;
    상기 검색환경정보에 따라 상기 정규화된 메시업검색언어를 상기 대상검색 언어로 변환하는 대상검색언어 변환 모듈;
    상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 대상검색언어에 대한 물리적 데이터를 검색 및 도출하여 결과 데이터를 생성하는 데이터 도출 모듈; 및
    상기 검색환경정보에 따라 상기 데이터 도출 모듈에서 생성한 결과 데이터를 가공하고, 상기 가공된 데이터를 포함하는 검색 결과 화면을 생성하는 데이터 가공 모듈을 포함하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 시스템.
  11. 제10항에 있어서,
    상기 데이터 도출 모듈은,
    상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 변환한 대상검색 언어에 대응하는 하나 이상의 물리적 데이터를 도출하고, 상기 도출한 하나 이상의 물리적 데이터로부터 상기 검색환경정보에 포함된 논리 연산 규칙을 이용하여 결과 데이터를 도출하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 시스템.
  12. 제10항에 있어서,
    상기 검색 모드가 정답형인 경우,
    상기 데이터 도출 모듈은 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 사용자 질의어에 부합되는 기본 데이터 및 상기 주 데이터와 연관성 있는 하나 이상의 추가 데이터를 도출하고,
    상기 데이터 가공 모듈은 상기 검색환경정보에 따라 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 동일 화면에 포함되도록 검색 결과 화면 레이아웃하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 시스템.
  13. 제10항에 있어서,
    상기 검색 모드가 비교형인 경우,
    상기 데이터 도출 모듈은 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 사용자 질의어에 포함된 비교 대상 각각에 대하여 동일한 속성의 데이터를 도출하고,
    상기 데이터 가공 모듈은 상기 검색환경정보에 따라 상기 검색된 비교 대상 각각에 대한 속성 데이터가 동일 화면에 포함되도록 검색 결과 화면 레이아웃하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 시스템.
  14. 제10항에 있어서,
    상기 검색 모드가 그래프형인 경우,
    상기 데이터 도출 모듈은 상기 검색환경정보에 따라 상기 지식 데이터베이스로부터 상기 사용자 질의어에 부합되는 검색 대상에 대한 기본 데이터 및 상기 질의 내용에 따라 상기 검색 대상과 연관성 있는 하나 이상의 추가 데이터를 도출하고,
    상기 데이터 가공 모듈은 상기 검색환경정보에 따라 상기 기본 데이터 및 상기 하나 이상의 추가 데이터가 검색 결과 하나의 화면상에서 관계도와 함께 그래프 형태로 출력되도록 검색 결과 화면 레이아웃하는, 자연어 질의 의도에 부합되는 정보 추출 및 제공 시스템.
KR1020140086995A 2014-07-10 2014-07-10 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 KR101602342B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140086995A KR101602342B1 (ko) 2014-07-10 2014-07-10 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140086995A KR101602342B1 (ko) 2014-07-10 2014-07-10 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20160007057A true KR20160007057A (ko) 2016-01-20
KR101602342B1 KR101602342B1 (ko) 2016-03-11

Family

ID=55307793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140086995A KR101602342B1 (ko) 2014-07-10 2014-07-10 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101602342B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020242086A1 (ko) * 2019-05-28 2020-12-03 주식회사 케이티 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
KR20240042933A (ko) 2022-09-26 2024-04-02 주식회사 엘지유플러스 자연어 처리 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102411301B1 (ko) * 2020-04-23 2022-06-22 한국과학기술원 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250073A (ja) * 1998-02-26 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 複数データベース意味的階層検索方法及び装置及び複数データベース意味的階層検索プログラムを格納した記憶媒体
KR20110070725A (ko) * 2009-12-18 2011-06-24 한국전자통신연구원 자동 매쉬업 서비스 장치 및 방법
KR20110133909A (ko) * 2010-06-07 2011-12-14 박동민 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250073A (ja) * 1998-02-26 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 複数データベース意味的階層検索方法及び装置及び複数データベース意味的階層検索プログラムを格納した記憶媒体
KR20110070725A (ko) * 2009-12-18 2011-06-24 한국전자통신연구원 자동 매쉬업 서비스 장치 및 방법
KR20110133909A (ko) * 2010-06-07 2011-12-14 박동민 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
채수연, 자연어 질의 의미 해석을 위한 구조적 온톨로지 쿼리 생성 방법론에 관한 연구, 연세대학교 석사학위 논문, 2012.06. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020242086A1 (ko) * 2019-05-28 2020-12-03 주식회사 케이티 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
KR20200136707A (ko) * 2019-05-28 2020-12-08 주식회사 케이티 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
KR20240042933A (ko) 2022-09-26 2024-04-02 주식회사 엘지유플러스 자연어 처리 방법 및 장치

Also Published As

Publication number Publication date
KR101602342B1 (ko) 2016-03-11

Similar Documents

Publication Publication Date Title
US11599714B2 (en) Methods and systems for modeling complex taxonomies with natural language understanding
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
US11645317B2 (en) Recommending topic clusters for unstructured text documents
US10268766B2 (en) Systems and methods for computation of a semantic representation
US7533089B2 (en) Hybrid approach for query recommendation in conversation systems
WO2018072071A1 (zh) 知识图谱构建系统及方法
US9280535B2 (en) Natural language querying with cascaded conditional random fields
KR101192439B1 (ko) 디지털 콘텐츠 검색 장치 및 방법
US20160275196A1 (en) Semantic search apparatus and method using mobile terminal
US10102246B2 (en) Natural language consumer segmentation
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
US9754022B2 (en) System and method for language sensitive contextual searching
JP2021507350A (ja) 複雑な回答の補強証拠取り出し
US20230014700A1 (en) Pre-emptive graph search for guided natural language interactions with connected data systems
US20210200762A1 (en) Verifying text summaries of relational data sets
US20180276210A1 (en) Dynamic summary generator
AU2017221807A1 (en) Preference-guided data exploration and semantic processing
US20120179709A1 (en) Apparatus, method and program product for searching document
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
KR20180113444A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索系统
Hobel et al. Extracting semantics of places from user generated content
KR102411778B1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
KR101593214B1 (ko) 논리적 물리적 2중 구조를 이용한 자연어 질의 검색 방법 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 5