KR20210000952A - 지식그래프 색인 방법 및 장치 - Google Patents

지식그래프 색인 방법 및 장치 Download PDF

Info

Publication number
KR20210000952A
KR20210000952A KR1020190076270A KR20190076270A KR20210000952A KR 20210000952 A KR20210000952 A KR 20210000952A KR 1020190076270 A KR1020190076270 A KR 1020190076270A KR 20190076270 A KR20190076270 A KR 20190076270A KR 20210000952 A KR20210000952 A KR 20210000952A
Authority
KR
South Korea
Prior art keywords
knowledge graph
attribute
type
entity
index
Prior art date
Application number
KR1020190076270A
Other languages
English (en)
Other versions
KR102309375B1 (ko
Inventor
남기훈
계인호
임경빈
박가진
이중석
진승희
Original Assignee
주식회사 카카오
주식회사 카카오엔터프라이즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카카오, 주식회사 카카오엔터프라이즈 filed Critical 주식회사 카카오
Priority to KR1020190076270A priority Critical patent/KR102309375B1/ko
Publication of KR20210000952A publication Critical patent/KR20210000952A/ko
Application granted granted Critical
Publication of KR102309375B1 publication Critical patent/KR102309375B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Abstract

지식그래프 색인 방법 및 장치가 개시된다. 일 실시예에 따른 지식그래프 색인 방법은 지식그래프 데이터-지식그래프 데이터는 개체, 속성, 속성값으로 구성된 트리플(triple)의 집합-를 획득하는 단계, 지식그래프 데이터에 기초하여, 개체별로 색인 문서를 생성하는 단계를 포함하고, 색인 문서는 트리플을 검색할 수 있는 구조로 구성된다.

Description

지식그래프 색인 방법 및 장치{APPARATUS AND METHOD FOR KNOWLEDGE GRAPH INDEXING}
아래 실시예들은 지식그래프 색인 방법 및 장치에 관한 것이다.
지식그래프는 관련 있는 정보와 지식들을 서로 연결해 놓은 것을 의미한다. 지식그래프에 저장되는 지식은 트리플이라는 단위 정보의 집합으로 볼 수 있으며, 트리플은 개체-속성-값 이라는 세 가지 정보의 묶음으로 구성된다. 하나의 개체에 대한 정보는 여러 개의 속성값으로 구성되며, 따라서 하나의 개체에 대한 정보는 여러 개의 트리플의 묶음으로 표현될 수 있다.
기존에는 개체와 관련된 속성 또는 다른 개체들이 각각 다른 문서에 분절되어 저장된 상태였다면, 지식그래프에서는 개체와 관련 있는 속성 또는 다른 개체들을 모두 엮어 놓는다.
이러한 지식그래프의 연결 특성을 통해 사용자는 보다 직관적인 검색을 할 수 있다. 예를 들어, '이효리 남편의 직업' 이라고만 검색하여도 '가수'라는 결과 값을 얻을 수 있다. '이효리의 남편 이상순', '이상순의 직업 가수' 정보가 유기적으로 연결되어 있기 때문이다.
지식그래프 데이터베이스 구성과 색인 방법이 지식그래프 검색 성능에 큰 영향을 미칠 수 있다. 예를 들어, 기존에는 지식그래프에서 원하는 정보를 찾기 위해서 지식그래프를 트리플 단위로 트리플 스토어나 그래프 데이터베이스에 저장하고, 색인하였다. 이렇게 트리플 단위로 저장, 색인하는 경우에는 매우 많은 건수의 색인이 필요하고, 이는 과도한 처리량을 유발하여 서비스의 응답시간을 느리게 하였다.
실제로 위와 같은 이유로 인해 지식그래프의 서비스 활용이 적극적으로 되고 있지 않다.
실시예들은 색인 문서량을 감소시키기 위해 트리플 단위 색인이 아닌 트리플의 묶음 단위로 색인하고자 한다.
실시예들은 지식그래프 검색의 시간을 단축하고 서비스 응답 시간을 향상시키고자 한다.
실시예들은 특정 질의에 대한 정보를 종합적으로 제공하고자 한다.
일 실시예에 따른 지식그래프 색인 방법은 지식그래프 데이터-상기 지식그래프 데이터는 개체, 속성, 속성값으로 구성된 트리플(triple)의 집합-를 획득하는 단계; 및 상기 지식그래프 데이터에 기초하여, 상기 개체별로 색인 문서를 생성하는 단계를 포함하고, 상기 색인 문서는 상기 트리플을 검색할 수 있는 구조로 구성된다.
상기 개체별로 색인 문서를 생성하는 단계는 상기 개체별로 상기 개체 각각에 대응하는 공통 속성 정보를 추출하는 단계; 및 상기 개체별로 상기 개체 각각에 대응하는 타입별 속성 정보를 추출하는 단계를 포함할 수 있다.
상기 공통 속성 정보는 모든 개체가 갖는 속성에 대한 정보를 포함하고, 상기 타입별 속성 정보는 상기 개체별로 다를 수 있는 속성에 대한 정보를 포함할 수 있다.
상기 공통 속성 정보를 추출하는 단계는 공통 속성에 대응하는 공통 속성값을 추출하는 단계를 포함할 수 있다.
상기 타입별 속성 정보를 추출하는 단계는 상기 타입별 속성 정보를 설명하기 위한 속성 메타데이터에 대응하는 타입별 속성값을 추출할 수 있다.
모든 상기 타입별 속성 정보는 동일한 속성 메타데이터 구조에 기초하여 추출될 수 있다.
일 실시예에 따른 지식그래프 색인 방법은 제1 개체에 대응하는 공통 속성값 또는 타입별 속성값에 대응하는 제2 개체가 존재하는 경우, 상기 제2 개체에 대응하는 연결 속성값을 추출하는 단계를 더 포함할 수 있다.
상기 지식그래프 데이터를 획득하는 단계는 원본 데이터를 상기 지식그래프 데이터로 변환하는 단계를 포함하고, 상기 지식그래프 데이터는 구조화된 데이터(structured data) 형태일 수 있다.
상기 지식그래프 데이터는 연결구조를 표현할 수 있는 문서 형식 기반 데이터를 포함할 수 있다.
일 실시예에 따른 지식그래프 색인 방법은 상기 색인 문서를 색인 엔진에 저장하는 단계를 더 포함할 수 있다.
일 실시예에 따른 지식그래프 검색 방법은 지식그래프 탐색을 위한 자연어 질의에 대응하는 쿼리를 수신하는 단계; 상기 쿼리에 대응하는 적어도 하나의 색인 문서를 획득하는 단계; 상기 색인 문서에 기초하여, 상기 자연어 질의에 대응하는 값을 추출하는 단계를 포함하고, 상기 색인 문서는 색인 엔진에 개체 단위로 저장되며, 상기 트리플을 검색할 수 있는 구조로 구성될 수 있다.
상기 자연어 질의에 대응하는 값을 추출하는 단계는 상기 자연어 질의에 대응하는 값 이외에 공통 속성 정보를 더 추출하는 단계를 포함할 수 있다.
일 실시예에 따른 지식그래프 색인 장치는 지식그래프 데이터-상기 지식그래프 데이터는 개체, 속성, 속성값으로 구성된 트리플(triple)의 집합-를 획득하고, 상기 지식그래프 데이터에 기초하여, 상기 개체별로 색인 문서를 생성하고, 상기 개체별로 상기 개체 각각에 대응하는 공통 속성 정보를 추출하고, 상기 개체별로 상기 개체 각각에 대응하는 타입별 속성 정보를 추출하고, 공통 속성에 대응하는 공통 속성값을 추출하고, 상기 타입별 속성 정보를 설명하기 위한 속성 메타데이터에 대응하는 타입별 속성값을 추출하는 프로세서를 포함하고, 상기 색인 문서는 트리플을 검색할 수 있는 구조로 구성된다.
상기 프로세서는 제1 개체에 대응하는 공통 속성값 또는 타입별 속성값에 대응하는 제2 개체가 존재하는 경우, 상기 제2 개체에 대응하는 연결 속성값을 추출할 수 있다.
상기 프로세서는 원본 데이터를 상기 지식그래프 데이터로 변환하고, 상기 지식그래프 데이터는 구조화된 데이터(structured data) 형태일 수 있다.
실시예들은 색인 문서량을 감소시키기 위해 트리플 단위 색인이 아닌 트리플의 묶음 단위로 색인할 수 있다.
실시예들은 지식그래프 검색의 시간을 단축하고 서비스 응답 시간을 향상시킬 수 있다.
실시예들은 특정 질의에 대한 정보를 종합적으로 제공할 수 있다.
도 1은 일 실시예에 따른 지식그래프를 설명하기 위한 도면이다.
도 2은 일 실시예에 따른 색인 문서를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 공통 속성 정보와 타입별 속성 정보의 구체적인 구조를 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 지식그래프 색인 방법을 설명하기 위한 순서도이다.
도 5는 일 실시예에 따른 지식그래프 검색 방법을 설명하기 위한 순서도이다.
도 6는 일 실시예에 따른 지식그래프 색인 장치의 블록도이다.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의에"와 "바로~간의에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 지식그래프를 설명하기 위한 도면이다.
도 1을 참조하면, 일 실시예에 따른 지식그래프(100)는 관련 있는 정보와 지식들을 서로 연결해 놓은 것을 의미한다. 지식그래프(100)에 저장되는 데이터는 트리플(triple)이라는 단위 정보의 집합으로 볼 수 있으며, 트리플은 개체(object)-속성(property)-속성값(value) 이라는 세 가지 정보의 묶음으로 구성된다. 하나의 개체에 대한 정보는 하나 이상의 속성과 속성에 대응하는 속성값으로 구성되며, 따라서 하나의 개체에 대한 정보는 하나 이상의 트리플 묶음으로 표현될 수 있다.
예를 들어, 아이유(110)라는 개체는 이름(125), 직업(135), 혈액형(145), 출생일(155), 출생국(165)과 같은 복수개의 속성을 가질 수 있고, 각 속성에 대응하는 '이지은, IU, 아이유'(120), '가수, 탤런트'(130), 'A형'(140), '1993-05-16'(150) 및 '대한민국'이라는 속성값을 가질 수 있다.
기존에는 지식그래프에서 원하는 정보를 찾기 위해서 지식그래프 데이터를 '개체-속성-속성값'의 트리플 단위로 트리플 스토어나 그래프 데이터베이스에 저장하고, 색인하였다.
예를 들어, 종래에는 '아이유(110)-이름(125)-'이지은, IU, 아이유'(120)', '아이유(110)-직업(135)-'가수, 탤런트'(130)', '아이유(110)-혈액형(145)-'A형(140)', '아이유(110)-출생일(155)-'1993-05-16(150)', '아이유(110)-출생국(165)-'대한민국(160)'와 같은 트리플 각각을 트리플 스토어나 그래프 데이터베이스에 저장하고, 색인하였다.
이렇게 트리플 단위로 저장, 색인하는 경우에는 매우 많은 건수의 색인이 필요하고, 이는 과도한 처리량을 유발하여 서비스의 응답시간을 느리게 하였다.
이러한 문제점을 해결하기 위하여, 일 실시예들은 색인 문서량을 감소시키기 위해 트리플 단위 색인이 아닌 트리플의 묶음 단위로 색인할 수 있다. 이를 통해, 실시예들은 지식그래프 검색의 시간을 단축하고 서비스 응답 시간을 향상시킬 수 있다. 지식그래프 색인 방법은 아래에서 도 2 내지 도 4를 참조하여 상세히 설명된다
도 2은 일 실시예에 따른 색인 문서를 설명하기 위한 도면이다.
앞서 설명한바와 같이, 지식그래프 데이터를 일반적인 종래 기술과 같이 트리플이나 이에 준하는 개별 속성값(value)의 연결로 색인할 경우, 물리적으로 적재 및 색인, 검색해야 할 문서의 양이 기하급수적으로 증가할 수 있다. 예를 들어, 'A형 가수'를 검색하기 위해서 '개체-혈액형-A형'과 '개체-직업-가수'라는 트리플을 각각 독립적으로 검색하여야 하기 때문에, 매우 많은 건수의 색인과 검색이 필요할 수 있다.
이렇듯, 한 개체의 속성들은 같이 탐색될 경우가 많으며, 복수의 조건도 한 개체 내의 속성간 조건(예를 들어 'A형 가수')의 조합으로 되는 경우가 대부분 이므로, 일 실시예에 따르면 이를 고려하여 각 속성들을 트리플로 모두 분리하지 않고 개체 단위로 묶어서 적재 및 색인할 수 있다.
보다 구체적으로, 개체 단위로 트리플의 묶음을 하나의 문서로 간주하여 색인 엔진에 색인할 수 있다. 개체별로 각 개체에 대응하는 트리플 집합을 포함하는 색인 문서가 존재하고, 색인 문서가 색인의 단위가 될 수 있다. 여기서, 문서는 MS-WORD와 같은 문서가 아니고, 반정형화된 엔티티로 XML, JSON과 같은 구조화된 데이터 타입일 수 있다.
도 2를 참조하면, 일 실시예에 따른 색인 문서(200)는 공통 속성 정보(210)와 타입별 속성 정보(220)로 영역을 나눌 수 있다.
공통 속성 정보(210)는 모든 개체가 갖는 공통 속성에 대한 정보일 수 있다. 지식그래프는 사물을 구조적인 데이터로 모델링하기 위해 정의된 스키마에 기반하고 있고, 스키마는 최상위 개체로 'Thing'을 공유할 수 있다. 'Thing'의 속성들은 모든 개체에서 공통 속성일 수 있다. 예를 들어, 공통 석성은 개체의 이름, 동의어, 다른 이름, 분류 등을 포함할 수 있다.
타입별 속성 정보(220)는 개체별로 다를 수 있는 속성에 대한 정보일 수 있다. 예를 들어, 사람 타입의 경우 타입별 속성은 혈액형, 직업, 성별, 생일 등을 포함할 수 있다.
공통 속성 정보(210)는 공통 속성과 공통 속성에 대응하는 공통 속성값을 포함할 수 있다. 공통 속성 정보(210)는 모든 개체의 공통 속성으로, 직접적인 공통 속성:공통 속성값 형태로 색인될 수 있다.
타입별 속성 정보(220)는 속성 메타데이터와 그에 대응하는 타입별 속성값을 포함할 수 있다. 타입별 속성 정보(220)는 개체 유형별로 스키마 정의에 따라 속성이 다르며, 이는 색인 엔진에서 색인 스키마를 미리 정의할 수 없으므로 각 속성들을 속성 메타데이터 형태로 정의할 수 있다. 공통 속성 정보(210)와 타입별 속성 정보(220)의 구체적인 구조는 아래에서 도 3을 참조하여 상세히 설명된다.
도 3은 일 실시예에 따른 공통 속성 정보와 타입별 속성 정보의 구체적인 구조를 설명하기 위한 도면이다.
도 3을 참조하면, 일 실시예에 따른 공통 속성 정보(310) 는 공통 속성과 공통 속성에 대응하는 공통 속성값을 포함할 수 있다. 공통 속성 정보(210)는 모든 개체의 공통 속성으로, 직접적인 공통 속성:공통 속성값 형태(예를 들어, {name: "아이유", synonym: "IU", alternateName: "이지은"})로 색인될 수 있다. 표 1은 공통 속성과 그 의미를 설명하기 위한 표다.
공통 속성 설명
meta.provider, meta.type, meta.originId, meta.modelingScore 문서의 메타정보(제공처, 유형, 원본id 등)
url 이 문서(개체)의 고유 URL
type 유형 (Person, Car 등)
sameAs 이 개체와 같은 것을 가리키는 연결
name 동의어를 포함해 이 개체를 찾을 수 있는 이름
title 이 개체를 표현하기 위한 표제어
category 분류
searchKeyword, keyword 검색등을 위해 추가적으로 지정하는 키워드
identifier 이 개체가 가지고 있는 추가적인 고유 코드 (주식 종목코드 등)
image, thumbnailImage 이 개체의 이미지 정보
description 설명
eventStatus 이 개체가 Event 개체인 경우 상태 정보
date, startDate, endDate 이 개체가 날짜정보를 포함하고 있는 경우 해당 날짜 혹은 범위
geo 이 개체가 위치정보를 포함하고 있는 경우 좌표
action 이 개체에서 가능한 Action이 있는 경우, 그 정보
createdAt, modifiedAt, publishedAt 이 개체의 생성/수정/배포일시
values Type별로 다른 속성들을 담기 위한 속성
타입별 속성 정보(320)는 속성 메타데이터와 그에 대응하는 타입별 속성값을 포함할 수 있다. 타입별 속성 정보(320)는 개체 유형별로 스키마 정의에 따라 속성이 다르며, 이는 색인 엔진에서 색인 스키마를 미리 정의할 수 없으므로 각 속성들을 속성 메타데이터 형태(예를 들어, {property: "jobTitle", path: "jobTitle", valueKeyword: "가수"}로 정의할 수 있다. 이런 속성 메타데이터 정의 집합들을 문서의 'values' 필드에 넣어 색인할 수 있다. 표 2는 속성 메타데이터와 그 의미를 설명하기 위한 표다.
속성 메타데이터 설명
path 속성을 찾을 수 있는 문서 내 경로
property 속성 이름
type 속성값의 유형
roleName, roleType 역할을 가지는 속성인 경우 역할명, 유형
sameAs 이 속성과 연결된 다른 개체가 있는 경우 해당 개체의 url
isValidValue 유효한 속성값인지를 나타내는 값
valueXXX 실제 속성의 속성값 (텍스트, 숫자, 등), 속성값유형에 따라 XXX가 다르게 지정됩니다.
unit 단위를 가지는 속성값인 경우 단위를 표현
time 속성값이 시간인 경우 이곳에 넣음
date, startDate, endDate 날짜, 날짜범위를 value로 갖는 속성인 경우 이곳에 넣음
address 주소를 속성값으로 갖는 속성인 경우 이곳에 넣음
validFrom, validTo 이 속성 value의 유효 기간
geo 위치정보를 가지고 있는 경우 이곳에 넣음
category 이 속성이 분류값을 가지고 있는 경우 이곳에 넣음
description 이 property가 설명을 가지고 있는 경우 이곳에 넣음
keyword 이 속성이 검색을 위한 키워드를 가지고 있는 경우 이곳에 넣음
image 이 속성이 이미지를 가지고 있는 경우 이곳에 넣음
eventStatus 이 속성이 Event 타입이라면 상태를 넣음
action 이 속성에 연결된 action이 있는 경우             
색인 문서 단위의 색인 방법에 따르면, 속성 메타데이터 구조 자체를 고정하여 정의할 수 있다. 따라서, 타입별 속성 정보는 동일한 속성 메타데이터 구조에 기초하여 추출될 수 있다. 또한, 적재되는 다양한 속성을 가지는 개체들, 앞으로 적재될 미래의 개체들에 대해 스키마가 정의되어 있지 않더라도 추후 색인 엔진에 대한 색인스키마 변경 없이 색인할 수 있다. 나아가, 모든 개체는 동일한 구조의 문서로 색인되므로, 문서 구조는 하나만 존재하고, 색인 엔진에서 지원하는 인덱스의 개수가 유한해질 수 있다.
도 4는 일 실시예에 따른 지식그래프 색인 방법을 설명하기 위한 순서도이다. 도 4를 참조하면, 단계(410 내지 440)은 지식그래프 색인 장치에 의해 수행될 수 있다. 지식그래프 색인 장치는 하나 또는 그 이상의 하드웨어 모듈, 하나 또는 그 이상의 소프트웨어 모듈, 또는 이들의 다양한 조합에 의하여 구현될 수 있다.
단계(410)에서 지식그래프 색인 장치는 원본 데이터 제공처에서 원본 데이터를 수신할 수 있다. 표 3은 개체 '아이유'에 대응하는 원본 데이터의 예시이다.
1. {
2. "homoId": "215287",
3. "name": "아이유",
4. "status": "S",
5. "regDate": "20090306144505",
6. "modDate": "20190124095014",
7. "orgName": "",
8. "engName": "IU",
9. "realName": "이지은",
10. "activityName": "",
11. "nickName": "",
12. "bandYN": "N",
13. "synonyms": null,
14. "searchLink":"http://search.daum.net/search?w=tot&q=아이유&ppkey=215287&irk=215287",
15. "searchYN": "Y",
16. "issueKeywords": "",
17. "localConstituency": "",
18. "sex": {
19. "code": "F",
20. "description": "여성"
21. },
22. "nationality": null,
23. "birth": {
24. "solarCalendar": "19930516",
25. "lunarCalendar": "",
26. "useSolarCalendar": "Y",
27. "nation": {
28. "code": "KR",
29. "name": "대한민국"
30. },
31. "province": null,
32. "region": null,
33. "city": null
34. },
35. "mainImage": {
36. "link": "http://t1.daumcdn.net/contentshub/s...",
37. "source": {
38. "type": "MYP",
39. "description": "마이프로필"
40. },
41. "sourceUrl": "소속사",
42. "width": 216,
43. "height": 216,
44. "sourceSearchStr": "아이유",
45. "od": ""
46. },
47. "mobileMainImage": null,
48. "images": [
49. {
50. "link": "http://t1.daumcdn.net/contentshub/s...",
51. "source": {
52. "type": "MYP",
53. "description": "마이프로필"
54. },
55. "sourceUrl": "소속사",
56. "width": 216,
57. "height": 216,
58. "sourceSearchStr": "",
59. "od": "",
60. "ordering": 7
61. },
62. {
63. "link": "http://t1.daumcdn.net/contentshub/s...",
64. "source": {
65. "type": "CSO",
66. "description": "CS제공"
67. },
68. "sourceUrl": "소속사",
69. "width": 1440,
70. "height": 850,
71. "sourceSearchStr": "",
72. "od": "",
73. "ordering": 6
74. },
75.
76. ],
77. "jobs": [
78. {
79. "jobName": {
80. "code": "J000000258",
81. "description": "가수"
82. },
83. "currentYN": "Y",
84. "category": {
85. "code": "JC00000007",
86. "description": "대중문화연예인"
87. },
88. "ordering": "2"
89. },
90. {
91. "jobName": {
92. "code": "J000000215",
93. "description": "탤런트"
94. },
95. "currentYN": "Y",
96. "category": {
97. "code": "JC00000007",
98. "description": "대중문화연예인"
99. },
100. "ordering": "1"
101. }
102. ],
103. "awards": [
104. {
105. "date": "20190123",
106. "eventTitle": "제8회 가온차트 K-POP 어워드",
107. "prize": "디지털음원부문 올해의 가수상",
108. "ordering": 55
109. },
110. {
111. "date": "20181201",
112. "eventTitle": "멜론뮤직어워드",
113. "prize": "R&B 소울 부문",
114. "ordering": 54
115. }
116. ]
117. }
단계(420)에서, 지식그래프 색인 장치는 원본 데이터를 지식그래프 데이터로 변환할 수 있다. 지식그래프 데이터는 구조화된 데이터(structured data) 형태일 수 있다. 예를 들어, 지식그래프 데이터는 RDF, JSON-LD 등 연결구조를 표현할 수 있는 문서 형식 기반 데이터를 포함할 수 있다.. 지식그래프 데이터는 컨텐츠 메타데이터라고 지칭될 수 있다. 지식그래프 데이터는 개체, 속성, 속성값으로 구성된 트리플(triple)의 집합일 수 있다. 표 4는 표 3의 원본 데이터에 대응하는 지식그래프 데이터의 예시이다.
1. {
2. "image": [
3. "http://t1.daumcdn.net/contentshub/s...",
4. "http://t1.daumcdn.net/contentshub/s..."
5. ],
6. "gender": "F",
7. "publishedAt": "2019-02-14T15:21:30+09:00",
8. "@type": "Person",
9. "modifiedAt": "2019-01-24T09:50:14+09:00",
10. "jobTitle": [
11. {
12. "classifiedBy": {
13. "entry": [
14. {
15. "@type": "PropertyValue",
16. "name": "대중문화연예인",
17. "value": "JC00000007"
18. },
19. {
20. "@type": "PropertyValue",
21. "name": "가수",
22. "value": "J000000258"
23. }
24. ],
25. "@type": "Classification",
26. "name": "대중문화연예인 > 가수"
27. },
28. "@type": "JobRole",
29. "jobTitle": "가수",
30. "numericalOrder": 2,
31. "isCurrentJob": true
32. },
33. {
34. "classifiedBy": {
35. "entry": [
36. {
37. "@type": "PropertyValue",
38. "name": "대중문화연예인",
39. "value": "JC00000007"
40. },
41. {
42. "@type": "PropertyValue",
43. "name": "탤런트",
44. "value": "J000000215"
45. }
46. ],
47. "@type": "Classification",
48. "name": "대중문화연예인 > 탤런트"
49. },
50. "@type": "JobRole",
51. "jobTitle": "탤런트",
52. "numericalOrder": 1,
53. "isCurrentJob": true
54. }
55. ],
56. "alternateName": [
57. {
58. "@type": "Role",
59. "roleName": "영문명",
60. "alternateName": "IU"
61. },
62. {
63. "@type": "Role",
64. "roleName": "실명",
65. "alternateName": "이지은"
66. }
67. ],
68. "birthDate": [
69. {
70. "@type": "Role",
71. "roleName": "양력",
72. "birthDate": "1993-05-16"
73. }
74. ],
75. "url": "http://cruise.kakao.com/datahub_homo/person/215287",
76. "@ranking": {
77. "@objectScore": 0.6444433648
78. },
79. "birthPlace": {
80. "address": {
81. "addressCountry": {
82. "@type": "Country",
83. "countryCode": "KR",
84. "name": "대한민국",
85. "sameAs": "http://cruise.kakao.com/datahub_common_continents/country/KR"
86. },
87. "@type": "PostalAddress"
88. },
89. "@type": "Place"
90. },
91. "createdAt": "2009-03-06T14:45:05+09:00",
92. "award": [
93. {
94. "award": "제8회 가온차트 K-POP 어워드",
95. "@type": "AwardRole",
96. "roleName": "디지털음원부문올해의가수상",
97. "numericalOrder": 55,
98. "startDate": "2019-01-23"
99. },
100. {
101. "award": "멜론뮤직어워드",
102. "@type": "AwardRole",
103. "roleName": "R&B소울부문",
104. "numericalOrder": 54,
105. "startDate": "2018-12-01"
106. }
107. ],
108. "name": "아이유"
109. }
단계(430)에서 지식그래프 색인 장치는 지식그래프 데이터에 기초하여, 개체별로 색인 문서를 생성할 수 있다. 색인 문서는 개체에 대응하는 트리플 집합을 포함하여, 트리플을 검색할 수 있는 구조로 구성될 수 있다. 모든 개체들은 타입별 속성의 개수만큼 속성 메타데이터를 가지게 되고, 이것들이 하나의 문서로 취급되며 이 문서 단위로 저장 및 색인될 수 있다. 표 5은 표 4의 지식그래프 데이터에 대응하는 색인 문서의 예시이다.
1. {
2. "type": "Person",
3. "url": "http://cruise.kakao.com/datahub_homo/person/215287",
4. "title": "아이유",
5. "name": [
6. "아이유",
7. "iu",
8. "이지은"
9. ],
10. "image": [
11. "http://t1.daumcdn.net/contentshub/s...",
12. "http://t1.daumcdn.net/contentshub/s..."
13. ],
14. "createdAt": "2009-03-06T14:45:05+09:00",
15. "modifiedAt": "2019-01-24T09:50:14+09:00",
16. "publishedAt": "2019-02-14T15:22:17+09:00",
17. "values": [
18. {
19. "fullPath": "gender",
20. "property": "gender",
21. "path": "gender",
22. "typedPath": "gender",
23. "valueKeyword": "f",
24. "valueKeywordText": "F"
25. },
26. {
27. "fullPath": "birthDate[0]",
28. "property": "birthDate",
29. "path": "birthDate",
30. "typedPath": "birthDate",
31. "dateDate": "1993-05-16",
32. "date": [
33. "1993-05-16",
34. "1993",
35. "1993-05",
36. "--05",
37. "--05-16"
38. ],
39. "roleType": [
40. "Role"
41. ],
42. "roleName": [
43. "양력"
44. ]
45. },
46. {
47. "fullPath": "birthPlace",
48. "property": "birthPlace",
49. "path": "birthPlace",
50. "type": "Place",
51. "typedPath": "birthPlace@Place",
52. "address": [
53. "대한민국"
54. ],
55. "addressText": "대한민국",
56. "sameAs": [
57. "http://cruise.kakao.com/datahub_common_continents/country/KR"
58. ]
59. },
60. {
61. "fullPath": "jobTitle[0]",
62. "property": "jobTitle",
63. "path": "jobTitle",
64. "typedPath": "jobTitle",
65. "category": [
66. "대중문화연예인",
67. "가수"
68. ],
69. "categoryText": [
70. "대중문화연예인",
71. "가수"
72. ],
73. "valueKeyword": "가수",
74. "valueKeywordText": "가수",
75. "isValidValue": true,
76. "roleType": [
77. "JobRole"
78. ],
79. "roleName": [
80. ""
81. ]
82. },
83. {
84. "fullPath": "jobTitle[1]",
85. "property": "jobTitle",
86. "path": "jobTitle",
87. "typedPath": "jobTitle",
88. "category": [
89. "대중문화연예인",
90. "탤런트"
91. ],
92. "categoryText": [
93. "대중문화연예인",
94. "탤런트"
95. ],
96. "valueKeyword": "탤런트",
97. "valueKeywordText": "탤런트",
98. "isValidValue": true,
99. "roleType": [
100. "JobRole"
101. ],
102. "roleName": [
103. ""
104. ]
105. },
106. {
107. "fullPath": "award[0]",
108. "property": "award",
109. "path": "award",
110. "typedPath": "award",
111. "startDateDate": "2019-01-23",
112. "startDate": [
113. "2019-01-23",
114. "2019",
115. "2019-01",
116. "--01",
117. "--01-23"
118. ],
119. "valueKeyword": "제8회가온차트kpop어워드",
120. "valueKeywordText": "제8회 가온차트 K-POP 어워드",
121. "roleType": [
122. "AwardRole"
123. ],
124. "roleName": [
125. "디지털음원부문올해의가수상"
126. ]
127. },
128. {
129. "fullPath": "award[1]",
130. "property": "award",
131. "path": "award",
132. "typedPath": "award",
133. "startDateDate": "2018-12-01",
134. "startDate": [
135. "2018-12-01",
136. "2018",
137. "2018-12",
138. "--12",
139. "--12-01"
140. ],
141. "valueKeyword": "멜론뮤직어워드",
142. "valueKeywordText": "멜론뮤직어워드",
143. "roleType": [
144. "AwardRole"
145. ],
146. "roleName": [
147. "rb소울부문"
148. ]
149. }
150. ],
151. "meta": {
152. "modelingScore": 0.6444433648,
153. "originId": "215287",
154. "provider": "datahub_homo",
155. "type": "person"
156. }
157. }
지식그래프 색인 장치는, 개체별로 개체 각각에 대응하는 공통 속성 정보를 추출하고, 개체별로 개체 각각에 대응하는 타입별 속성 정보를 추출할 수 있다. 구체적으로, 지식그래프 색인 장치는 공통 속성에 대응하는 공통 속성값을 추출하고, 속성 메타데이터에 대응하는 타입별 속성값을 추출할 수 있다. 예를 들어, 표 5의 줄 1 내지 16은 공통 속성 정보를 색인하고 있으며, 줄 17이후는 타입별 속성 정보를 색인하고 있다.지식그래프 색인 장치는, 제1 개체에 대응하는 공통 속성값 또는 타입별 속성값에 대응하는 제2 개체가 존재하는 경우, 제2 개체에 대응하는 연결 속성값을 추출할 수 있다. 예를 들어, '아이유 출생국의 수도'를 검색 시, 먼저 '아이유' 개체의 색인 문서에서 '아이유-출생국-대한민국'의 트리플을 검색하고, '대한민국' 개체의 색인 문서에서 '대한민국-수도-서울'이라는 트리플을 검색하여야 한다. 이를 위해 '아이유' 개체의 색인 문서에서 '대한민국' 개체의 색인 문서를 연결시켜주는 연결 속성 메타데이터와, 그에 대응하는 연결 속성값이 존재할 수 있다.
표 5를 참조하면, 줄 56, 57에서, 연결 속성 메타데이터 "sameAs"와 '대한민국' 개체의 색인 문서의 주소인 연결 속성값 http://cruise.kakao.com/datahub_common_continents/country/KR을 통해 '아이유' 개체의 색인 문서에서 '대한민국' 개체의 색인 문서로 손쉽게 넘어갈 수 있다.
단계(440)에서 지식그래프 색인 문서를 색인 엔진에 저장할 수 있다.
표 6은 공통 속성만 있는 개체의 지식그래프 데이터와 색인 문서의 예시이다.
지식그래프 데이터 색인 문서
{ "classifiedBy": [
{
"classifiedBy": {
"entry": {
"@type": "PropertyValue",
"name": "코스피",
"value": "P"
},
"@type": "Classification",
"name": "코스피"
},
"@type": "Role",
"roleName": "주식시장"
},
{
"classifiedBy": {
"entry": {
"@type": "PropertyValue",
"name": "손해보험",
"value": "손해보험"
},
"@type": "Classification",
"name": "손해보험"
},
"@type": "Role",
"roleName": "업종"
}
],
"identifier": "000060",
"synonym": [
"000060",
"동양화재",
"동양화재보험",
"동양화재해상보험",
"매리츠보험",
"매리츠화재",
"매리츠화제",
"메리츠",
"메리츠보험",
"메리츠화재",
"메리츠화재보험",
"메리츠화재해상보험",
"메리츠화제"
],
"@type": "Corporation",
"name": "메리츠화재",
"url": "http://cruise.kakao.com/dunamu/corporation/000060"
}
{
"type": "Corporation",
"url": "http://cruise.kakao.com/dunamu/corporation/000060",
"title": "메리츠화재",
"titleText": "메리츠화재",
"name": [
"메리츠화재",
"000060",
"동양화재",
"동양화재보험",
"동양화재해상보험",
"매리츠보험",
"매리츠화재",
"매리츠화제",
"메리츠",
"메리츠보험",
"메리츠화재보험",
"메리츠화재해상보험",
"메리츠화제"
],
"identifier": "000060",
"category": [
"코스피",
"손해보험"
],
"values": [

],
"meta": {
"modelingScore": 0,
"originId": "000060",
"provider": "dunamu",
"type": "corporation"
}
}
도 5는 일 실시예에 따른 지식그래프 검색 방법을 설명하기 위한 순서도이다.
도 5를 참조하면, 일 실시예에 따른 검색 방법은 도 1 내지 도 4를 참조하여 설명된 색인 문서 및 색인 방법에 기초하여 수행될 수 있다. 단계(510 내지 530)은 검색 장치에 의해 수행될 수 있다. 검색 장치는 하나 또는 그 이상의 하드웨어 모듈, 하나 또는 그 이상의 소프트웨어 모듈, 또는 이들의 다양한 조합에 의하여 구현될 수 있다.
단계(510)에서, 검색 장치는 자연어 질의에 대응하는 쿼리를 수신할 수 있다. 예를 들어, 'A형 가수'라는 자연어 질의에 대하여, 이 질의는 A형(V:Person.bloodType) 가수(V:Person.jobTitle)”로 분석되고, 검색 장치는 이에 대응하는 쿼리를 수신할 수 있다. 자연어 질의에 대응하는 쿼리는 이에 한정되지 않고, 다양한 유형의 쿼리가 적용될 수 있다.
단계(520)에서, 검색 장치는 쿼리에 대응하는 색인 문서를 획득할 수 있다. 예를 들어, 이는 색인 문서의 타입(type)이 'Person'인 것을 찾고, 개별 속성값에서 path:'bloodType' AND valueKeyword:'a'인 속성과 path:'jobTitle' AND valueKeyword'가수' 인 속성이 모두 존재하는 하나 이상의 개체의 색인 문서를 획득할 수 있다.
단계(530)에서, 검색 장치는 색인 문서에 기초하여, 자연어 질의에 대응하는 값을 추출할 수 있다. 예를 들어, 검색 장치는 검출된 색인 문서의 모든 개체명을 출력할 수 있다.
또한, 검색 장치는 특정 질의에 대한 정보를 종합적으로 제공할 수 있다. 검색 장치는 자연어 질의에 대응하는 값 이외에 공통 속성 정보를 더 출력할 수 있다. 예를 들어, "방탄소년단 리더는?"라는 질의에 대응하는 값인 'RM'만 출력하지 않고, 공통 속성 정보 값인 사진, 본명 등을 같이 출력하여 풍부한 정보를 제공할 수 있다.
도 6는 일 실시예에 따른 지식그래프 색인 장치의 블록도이다.
도 6를 참조하면, 일 실시예에 따른 색인 장치(600)는 프로세서(610)를 포함한다. 색인 장치(600)는 메모리(630) 및 통신 인터페이스(650)를 더 포함할 수 있다. 프로세서(610), 메모리(630) 및 통신 인터페이스(650)는 통신 버스(605)를 통해 서로 통신할 수 있다.
프로세서(610)는 지식그래프 데이터를 획득하고, 지식그래프 데이터에 기초하여, 개체별로 색인 문서를 생성한다.
메모리(630)는 개체에 대응하는 트리플 집합을 포함하는 색인 문서를 포함할 수 있다. 메모리(630)는 휘발성 메모리 또는 비 휘발성 메모리일 수 있다.
실시예에 따라서, 프로세서(610)는 개체별로 개체 각각에 대응하는 공통 속성 정보를 추출하고, 개체별로 개체 각각에 대응하는 타입별 속성 정보를 추출할 수 있다. 프로세서(610)는 공통 속성에 대응하는 공통 속성값을 추출하고, 타입별 속성 정보를 설명하기 위한 속성 메타데이터에 대응하는 타입별 속성값을 추출할 수 있다. 프로세서(610)는 제1 개체에 대응하는 공통 속성값 또는 타입별 속성값에 대응하는 제2 개체가 존재하는 경우, 제2 개체에 대응하는 연결 속성값을 추출할 수 있다. 프로세서(610)는 원본 데이터를 지식그래프 데이터로 변환할 수 있다.
이 밖에도, 프로세서(610)는 도 2 내지 도 4를 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(610)는 프로그램을 실행하고, 색인 장치(600)를 제어할 수 있다. 프로세서(610)에 의하여 실행되는 프로그램 코드는 메모리(630)에 저장될 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 지식그래프 데이터-상기 지식그래프 데이터는 개체, 속성, 속성값으로 구성된 트리플(triple)의 집합-를 획득하는 단계; 및
    상기 지식그래프 데이터에 기초하여, 상기 개체별로 색인 문서를 생성하는 단계
    를 포함하고,
    상기 색인 문서는
    상기 트리플을 검색할 수 있는 구조로 구성되는 지식그래프 색인 방법.
  2. 제1항에 있어서,
    상기 개체별로 색인 문서를 생성하는 단계는
    상기 개체별로 상기 개체 각각에 대응하는 공통 속성 정보를 추출하는 단계; 및
    상기 개체별로 상기 개체 각각에 대응하는 타입별 속성 정보를 추출하는 단계
    를 포함하는, 지식그래프 색인 방법.
  3. 제2항에 있어서,
    상기 공통 속성 정보는
    모든 개체가 갖는 속성에 대한 정보를 포함하고,
    상기 타입별 속성 정보는
    상기 개체별로 다를 수 있는 속성에 대한 정보를 포함하는, 지식그래프 색인 방법.
  4. 제2항에 있어서,
    상기 공통 속성 정보를 추출하는 단계는
    공통 속성에 대응하는 공통 속성값을 추출하는 단계
    를 포함하는, 지식그래프 색인 방법.
  5. 제2항에 있어서,
    상기 타입별 속성 정보를 추출하는 단계는
    상기 타입별 속성 정보를 설명하기 위한 속성 메타데이터에 대응하는 타입별 속성값을 추출하는 단계
    를 포함하는, 지식그래프 색인 방법.
  6. 제2항에 있어서,
    모든 상기 타입별 속성 정보는
    동일한 속성 메타데이터 구조에 기초하여 추출되는, 지식그래프 색인 방법.
  7. 제2항에 있어서,
    제1 개체에 대응하는 공통 속성값 또는 타입별 속성값에 대응하는 제2 개체가 존재하는 경우,
    상기 제2 개체에 대응하는 연결 속성값을 추출하는 단계
    를 더 포함하는, 지식그래프 색인 방법.
  8. 제1항에 있어서,
    상기 지식그래프 데이터를 획득하는 단계는
    원본 데이터를 상기 지식그래프 데이터로 변환하는 단계
    를 포함하고,
    상기 지식그래프 데이터는
    구조화된 데이터(structured data) 형태인, 지식그래프 색인 방법.
  9. 제1항에 있어서,
    상기 지식그래프 데이터는
    연결구조를 표현할 수 있는 문서 형식 기반 데이터를 포함하는, 지식그래프 색인 방법.
  10. 제1항에 있어서,
    상기 색인 문서를 색인 엔진에 저장하는 단계
    를 더 포함하는, 지식그래프 색인 방법.
  11. 지식그래프 탐색을 위한 자연어 질의에 대응하는 쿼리를 수신하는 단계;
    상기 쿼리에 대응하는 적어도 하나의 색인 문서를 획득하는 단계;
    상기 색인 문서에 기초하여, 상기 자연어 질의에 대응하는 값을 추출하는 단계
    를 포함하고,
    상기 색인 문서는
    색인 엔진에 개체 단위로 저장되며, 트리플을 검색할 수 있는 구조로 구성되는 지식그래프 검색 방법.
  12. 제11항에 있어서,
    상기 자연어 질의에 대응하는 값을 추출하는 단계는
    상기 자연어 질의에 대응하는 값 이외에 공통 속성 정보를 더 추출하는 단계
    를 포함하는, 지식 그래프 검색 방법
  13. 하드웨어와 결합되어 제1항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  14. 지식그래프 데이터-상기 지식그래프 데이터는 개체, 속성, 속성값으로 구성된 트리플(triple)의 집합-를 획득하고, 상기 지식그래프 데이터에 기초하여, 상기 개체별로 색인 문서를 생성하고, 상기 개체별로 상기 개체 각각에 대응하는 공통 속성 정보를 추출하고, 상기 개체별로 상기 개체 각각에 대응하는 타입별 속성 정보를 추출하고, 공통 속성에 대응하는 공통 속성값을 추출하고, 상기 타입별 속성 정보를 설명하기 위한 속성 메타데이터에 대응하는 타입별 속성값을 추출하는 프로세서
    를 포함하고,
    상기 색인 문서는
    상기 트리플을 검색할 수 있는 구조로 구성되는 지식그래프 색인 장치.
  15. 제14항에 있어서,
    상기 프로세서는
    제1 개체에 대응하는 공통 속성값 또는 타입별 속성값에 대응하는 제2 개체가 존재하는 경우, 상기 제2 개체에 대응하는 연결 속성값을 추출하는, 지식그래프 색인 장치.
  16. 제14항에 있어서,
    상기 프로세서는
    원본 데이터를 상기 지식그래프 데이터로 변환하고,
    상기 지식그래프 데이터는
    구조화된 데이터(structured data) 형태인, 지식그래프 색인 장치.
KR1020190076270A 2019-06-26 2019-06-26 지식그래프 색인 방법 및 장치 KR102309375B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190076270A KR102309375B1 (ko) 2019-06-26 2019-06-26 지식그래프 색인 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190076270A KR102309375B1 (ko) 2019-06-26 2019-06-26 지식그래프 색인 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210000952A true KR20210000952A (ko) 2021-01-06
KR102309375B1 KR102309375B1 (ko) 2021-10-06

Family

ID=74128526

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190076270A KR102309375B1 (ko) 2019-06-26 2019-06-26 지식그래프 색인 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102309375B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190645A (zh) * 2021-05-31 2021-07-30 国家电网有限公司大数据中心 一种索引结构建立方法、装置、设备及存储介质
CN113779178A (zh) * 2021-09-13 2021-12-10 国网电子商务有限公司 基于知识图谱的数据存储方法和装置
WO2023085500A1 (ko) * 2021-11-15 2023-05-19 주식회사 솔트룩스 그래프 독해 기반 지식 추출을 위한 시스템 및 방법
CN116313118A (zh) * 2022-06-07 2023-06-23 拉萨卓友峰科技有限公司 应用于医疗数据处理的知识图谱构建方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102508131B1 (ko) 2021-12-20 2023-03-09 (주)씨어스테크놀로지 지식그래프에 대한 그래프 연결강화 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120097840A (ko) * 2011-02-25 2012-09-05 주식회사 솔트룩스 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체
KR20130005967A (ko) * 2011-07-08 2013-01-16 한국과학기술정보연구원 개체 식별 결과 검색 시스템 및 방법
KR20140047952A (ko) * 2012-10-15 2014-04-23 한국전자통신연구원 지식베이스 구축장치 및 이의 지식베이스 구축방법
KR101467707B1 (ko) * 2013-12-23 2014-12-02 포항공과대학교 산학협력단 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
JP2015179516A (ja) * 2014-03-18 2015-10-08 株式会社Nttドコモ 大量の複雑な構造化データを管理するための知識エンジン

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120097840A (ko) * 2011-02-25 2012-09-05 주식회사 솔트룩스 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체
KR20130005967A (ko) * 2011-07-08 2013-01-16 한국과학기술정보연구원 개체 식별 결과 검색 시스템 및 방법
KR20140047952A (ko) * 2012-10-15 2014-04-23 한국전자통신연구원 지식베이스 구축장치 및 이의 지식베이스 구축방법
KR101467707B1 (ko) * 2013-12-23 2014-12-02 포항공과대학교 산학협력단 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
JP2015179516A (ja) * 2014-03-18 2015-10-08 株式会社Nttドコモ 大量の複雑な構造化データを管理するための知識エンジン

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190645A (zh) * 2021-05-31 2021-07-30 国家电网有限公司大数据中心 一种索引结构建立方法、装置、设备及存储介质
CN113779178A (zh) * 2021-09-13 2021-12-10 国网电子商务有限公司 基于知识图谱的数据存储方法和装置
WO2023085500A1 (ko) * 2021-11-15 2023-05-19 주식회사 솔트룩스 그래프 독해 기반 지식 추출을 위한 시스템 및 방법
CN116313118A (zh) * 2022-06-07 2023-06-23 拉萨卓友峰科技有限公司 应用于医疗数据处理的知识图谱构建方法
CN116313118B (zh) * 2022-06-07 2023-11-14 拉萨卓友峰科技有限公司 应用于医疗数据处理的知识图谱构建方法

Also Published As

Publication number Publication date
KR102309375B1 (ko) 2021-10-06

Similar Documents

Publication Publication Date Title
KR102309375B1 (ko) 지식그래프 색인 방법 및 장치
US10860658B2 (en) Providing a search service including updating aspects of a document using a configurable schema
US10176227B2 (en) Managing a search
US9965641B2 (en) Policy-based data-centric access control in a sorted, distributed key-value data store
US20050027675A1 (en) Systems and methods for data processing
EP2608074A2 (en) Systems and methods for merging source records in accordance with survivorship rules
US9959326B2 (en) Annotating schema elements based on associating data instances with knowledge base entities
JP7089605B2 (ja) データ変形システムおよび方法
US20150302110A1 (en) Decoupling front end and back end pages using tags
CN106462632B (zh) 具有内容规范层的媒体商店
EP3420469B1 (en) Content classes for object storage indexing systems
US20170139929A1 (en) System and method for automatically capturing and recording lineage data for big data records
GB2459200A (en) Converting documents and identifying structure for automatically extracting data
US20090210389A1 (en) System to support structured search over metadata on a web index
CN104715032A (zh) 一种报表系统中英文表名字段名映射系统及方法
US10402446B2 (en) Image entity recognition and response
KR102150908B1 (ko) 자연어 질의해석 방법 및 시스템
US10552466B2 (en) Search index
US11550777B2 (en) Determining metadata of a dataset
US20150261862A1 (en) Search Space Reduction Using Approximate Results
JP2015130165A (ja) ハイパーグラフソルバーのためのグラフ入力の自動編集
CN105740251A (zh) 一种总线式整合不同内容源的方法和系统
US10061757B2 (en) Systems, methods, and computer-readable media for searching tabular data
Merchant et al. IDS Transposer: A users guide
US20230028302A1 (en) Systems and methods for document hierarchy permissioning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant