KR20220068875A

KR20220068875A - 설명 가능한 지식그래프 완성 방법 및 장치

Info

Publication number: KR20220068875A
Application number: KR1020210016548A
Authority: KR
Inventors: 박영택; 이민호; 이완곤; 바트셀렘
Original assignee: 숭실대학교산학협력단
Priority date: 2020-11-19
Filing date: 2021-02-05
Publication date: 2022-05-26
Also published as: KR102464999B1

Abstract

본 발명은 설명 가능한 지식그래프 완성 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고, 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고, 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하고, 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 지식그래프 완성 장치가 제공된다.

Description

설명 가능한 지식그래프 완성 방법 및 장치{Explainable knowledge graph completion method and apparatus}

본 발명은 설명 가능한 지식그래프 완성 방법 및 장치에 관한 것이다.

지식그래프란 웹 등과 같은 다양한 소스로부터 축적한 자원과 자원 사이의 관계를 정보로 표현한 것을 뜻하며, 이러한 개념들 사이의 의미를 그래프적으로 표현한 것을 말한다. 하지만 지식그래프는 트리플들이 누락 되있거나, 일부 데이터의 연결이 부족한 문제점이 있다.

불완전한 지식그래프를 보완하기 위해 링크 예측에 관한 연구가 이전부터 많이 이루어지고 있다. 최근에는 딥러닝 기반의 링크 예측 연구가 활발히 이루어지고 있지만 링크 예측의 결과만 제시할 뿐 도출되는 결과의 근거와 도출과정의 타당성은 제공하지 못하고 있다.

또한 링크 예측의 결과가 좋지 않을 때, 좋지 않은 원인을 즉각적으로 알지 못하여 어떻게 이러한 결정을 했는지 파악하지 못하면서 딥러닝 기반의 링크 예측에 대해 크게 의존할 수 없게 된다. 따라서 사람이 이해하는 형태로 설명하고 제시할 수 있는 설명 가능한 링크 예측이 중요하며, 링크 예측의 결과에 대해 뒷받침 할 수 있는 설명이 제시된다면 사용자에게 설득력 있는 결과를 보여줄 수 있고, 효율적인 모델을 설계 할 때, 중요한 방향을 알 수 있다.

대한민국등록특허 제10-2140585호

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 링크 예측의 근거로 도출 과정의 타당성을 제공할 수 있는 지식그래프 완성 방법 및 장치를 제안하고자 한다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 설명 가능한 지식그래프 완성 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고, 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고, 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하고, 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 지식그래프 완성 장치가 제공된다.

상기 복수의 관계 경로는, 상기 주어에서 상기 목적어로 연결될 수 있는 하나 이상의 개체 및 하나 이상의 관계 중 상기 하나 이상의 개체를 제외하고 상기 하나 이상의 관계로만 연결되는 경로로 정의될 수 있다.

상기 프로그램 명령어들은, path ranking algorithm(PRA)를 이용하여 상기 주어와 상기 목적어 사이의 상기 하나 이상의 개체와 상기 하나 이상의 관계를 랜덤 워크를 통해 탐색하여 상기 복수의 관계 경로를 추출할 수 있다.

상기 프로그램 명령어들은, 상기 쿼리 술어로 연결되는 모든 트리플의 주어와 목적어를 쌍으로 표현하고, 상기 복수의 관계 경로 각각에 대한 상기 쌍의 랜덤 워크 확률을 이용하여 상기 복수의 관계 경로 중 일부를 제거할 수 있다.

상기 프로그램 명령어들은, 상기 랜덤 워크 확률이 0보다 큰 쌍의 비율, 상기 랜덤 워크 확률의 평균값 및 상기 복수의 관계 경로 각각의 길이를 이용하여 상기 복수의 관계 경로 중 일부를 제거할 수 있다.

상기 복수의 설명 가능한 세그먼트 각각은 동일한 길이 n으로 전처리되고 각 개체 및 관계가 d차원 벡터로 표현되고, 상기 CNN은 상기 복수의 설명 가능한 세그먼트 각각은 n×d 형태의 행렬로 변환된 데이터을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 특징맵을 출력하고, 상기 LSTM은 순방향 LSTM 계층 및 역방향 LSTM 계층을 포함하고 상기 특징맵을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 임베딩 벡터를 생성할 수 있다.

상기 프로그램 명령어들은, 상기 의미적 유사성을 비교를 통해 상기 복수의 설명 가능한 세그먼트 각각에 대한 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 쿼리 트리플에 대한 링크 예측 결과에 중요도가 높은 세그먼트를 결정할 수 있다.

본 발명의 다른 측면에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하는 장치에서 설명 가능한 지식그래프를 완성하는 방법으로서, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하는 단계; 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하는 단계; CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하는 단계; 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하는 단계; 및 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하는 단계를 포함하는 설명 가능한 지식그래프 완성 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.

본 발명에 따르면, 불완전한 지식그래프의 누락된 링크를 예측할 뿐만 아니라 링크 예측의 결과에 대한 설명을 제시할 수 있어 결과의 근거와 도출 과정의 타당성을 제공할 수 있다.

도 1은 본 발명의 바람직한 일 실시예에 따른 설명 가능한 지식그래프 완성 장치의 구성을 도시한 도면이다.
도 2는 본 실시예에 따른 설명 가능한 지식그래프 완성 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 설명 가능한 세그먼트 임베딩 과정을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 링크 예측을 위한 어텐션 메커니즘 구조를 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

지식그래프 완성(링크 예측)은 누락된 링크를 예측하여 불완전한 지식그래프를 보완하는 작업으로, 쿼리 트리플 <주어, 술어, ?>가 주어졌을 때, ?에 해당하는 목적어를 예측하는 것을 말한다.

여기서, 주어(subject)와 목적어(object)는 개체(엔티티), 술어는 릴레이션(relation, 관계)으로 정의된다.

본 발명은 링크 예측의 결과에 대한 설명을 제시할 수 있는 방법에 관한 것으로서, 쿼리 트리플이 입력되는 경우, 주어와 연결되는 복수의 후보 목적어 중 정답에 해당하는 목적어에 대한 링크를 예측하는 것뿐만 아니라 예측된 링크 결과를 뒷받침하는 설명을 제시하기 위한 추론 경로를 제시한다.

여기서, 추론 경로는 주어를 시작으로 목적어에 도달할 수 있는 개체와 관계의 집합으로 정의되며, 설명 가능한 추론 경로를 explanation segment(설명 가능한 세그먼트)라 정의한다.

도 1은 본 발명의 바람직한 일 실시예에 따른 설명 가능한 지식그래프 완성 장치의 구성을 도시한 도면이다.

도 1에 도시된 바와 같이, 본 실시예에 따른 지식그래프 완성 장치는 프로세서(100) 및 메모리(102)를 포함할 수 있다.

프로세서(100)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.

메모리(102)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(102)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.

이와 같은 메모리(102)에는 프로세서(100)에 의해 실행 가능한 프로그램 명령어들이 저장된다.

본 실시예에 따른 프로그램 명령어들은, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고, 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고, 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 술어와의 의미적 유사성을 비교하고, 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정한다. 이하에서는, 지식그래프 완성을 위한 링크 예측에 중요도가 높은 설명 가능한 세그먼트를 결정하는 과정을 상세하게 설명한다.

여기서, 쿼리 트리플의 목적어는 주어와 연결될 수 있는 개체 중 정답에 해당하는 목적어일 수 있다.

도 2는 본 실시예에 따른 설명 가능한 지식그래프 완성 과정을 설명하기 위한 도면이다.

도 2에서는 쿼리 트리플 <톰 크루즈, nationality, ?>에서 목적어로 미국이 정답 목적어인 경우를 예시적으로 도시한 도면이다.

도 2에서 설명 가능한 세그먼트는 아래와 같이 톰 크루즈와 미국 사이에 존재하는 3개의 추론 경로를 의미한다.

Explanation Segments1 :

<톰 크루즈, bornIn, 시러큐스, cityOf, 뉴욕, locatedIn, 미국>

Explanation Segments2 :

<톰 크루즈, father, 토마스 크루즈 메이포더 3세, nationality, 미국>

Explanation Segments3 :

<톰 크루즈, coworker, 브래드 피트, coworker, 레오나르도 디카프리오, nationality 미국>

본 명세서에서 explanation은 링크 예측의 결과를 뒷받침하는 설명을 뜻하며, 본 발명은 다양한 설명 가능한 세그먼트 중 의미가 있는(링크 예측에서 중요도가 높은) 세그먼트와 의미없는 세그먼트를 분류한다.

쿼리 트리플의 링크 예측 결과에 중요도가 높은 세그먼트는 이하에서 설명하는 어텐션 스코어가 미리 설정된 수치 이상이거나, 복수의 세그먼트 중 미리 설정된 순위 이상의 세그먼트로 결정될 수 있다.

도 2에서는 추론 결과에 근거로 제시될 수 없는 explanation segment3 가 의미없는 explanation segment로 분류되고, 링크 예측에 대한 근거로 제시될 수 있는 explanation segment1,2 가 의미있는 explanation segment로 분류된다.

상기한 바와 같이, 설명 가능한 세그먼트는 트리플 <s, r, o>의 주어(s)와 목적어(o)를 연결할 수 있는 다양한 경로를 의미한다.

설명 가능한 세그먼트를 생성하기 위해, 쿼리 트리플에 포함된 쿼리 술어(r)에 대한 다양한 관계 경로를 추출한다.

여기서, 관계 경로는 주어에서 목적어로 연결될 수 있는 경로

가 존재할 때, 해당 경로에서 개체가 아닌 관계로만 연결된 경로

를 의미한다.

여기서, e는 개체, r은 관계를 의미한다.

본 발명의 바람직한 일 실시예에 따르면, path ranking algorithm(PRA)를 이용하여 주어와 목적어 사이의 수많은 개체와 관계들을 랜덤 워크를 통해 탐색하고, 이를 통해 다양한 관계 경로를 추출한다.

그러나 대용량 지식그래프의 경우 수많은 관계 경로가 추출되어 데이터가 기하급수적으로 증가하고, 링크 예측 모델의 학습에 도움이 되지 않는 관계 경로가 다수 존재하는 문제가 있어 관계 경로를 필터링하는 과정이 필요하다.

이를 위해, 본 실시예에서는 우선 쿼리 술어로 연결되는 모든 트리플의 주어와 목적어를 쌍 (s,o)로 표현하고 모든 관계 경로에 대한 각 쌍의 랜덤 워크 확률값을 계산한다.

여기서, 랜덤 워크 확률은 주어진 공간에서 매 순간 랜덤으로, 즉 확률적으로 이동하는 모습을 수학적으로 표현한 것이다.

이후, 랜덤 워크 확률이 0보다 큰 쌍의 비율이 미리 설정된 수치(예를 들어, 0.7) 이상인 관계 경로를 추출하고, 각 관계 경로에 대한 랜덤 워드 확률의 평균값이 미리 설정된 수치(예를 들어, 0.05) 이하인 관계 경로를 제거한다.

또한, 관계 경로의 길이가 소정 수치 이하(예를 들어, 3)인 관계 경로를 추출한다.

PRA를 통해 생성된 관계 경로에 개체를 매핑하여 최종적으로 설명 가능한 세그먼트를 생성한다.

예를 들어, 상기한 쿼리 술어 nationality에 대한 관계 경로가

인 경우 쿼리 트리플 <톰 크루즈, nationality, 미국>에 대한 설명 가능한 세그먼트인 <톰 크루즈, bornIn, 시러큐스, cityOf, 뉴욕, locatedIn, 미국> 가 생성된다. 하나의 쿼리 트리플에는 다양한 관계 경로가 존재할 수 있고, 같은 관계 경로에도 여러 개의 설명 가능한 세그먼트가 생성될 수 있다.

설명 가능한 세그먼트를 이용하여 링크 예측 모델을 학습하기 위해 각 설명 가능한 세그먼트를 고유의 벡터를 통해 효과적으로 표현하는 임베딩 작업이 필요하다.

도 3은 본 발명의 일 실시예에 따른 설명 가능한 세그먼트 임베딩 과정을 도시한 도면이다.

도 3을 참조하면, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출한다.

설명 가능한 세그먼트를 CNN(합성곱 신경망)의 입력으로 사용하기 위해 소정 길이 이하(예를 들어, 7)의 설명 가능한 세그먼트를 제로 패딩(zero padding)하여 모든 설명 가능한 세그먼트의 길이를 동일한 길이(n)로 전처리한다.

이후, 각 개체와 관계를 d차원 벡터로 표현하여 n×d 형태의 행렬로 변환하고, 이를 CNN에 입력한다.

CNN은 이미지뿐만 아니라, 텍스트 데이터의 특징을 추출하고 강화하는데 주로 사용되며, 여러 단어 사이의 의미적, 문법적 관계를 추출하는데 비교적 높은 성능을 보인다.

따라서 설명 가능한 세그먼트의 각 개체와 관계들의 특징을 함축한 벡터로 표현하기 위해 CNN을 사용하며, CNN은 윈도우 사이즈가 2인 k개의 필터를 사용하여 설명 가능한 세그먼트의 개체 및 관계의 순서대로 한 칸씩 이동하며 특징맵을 출력한다.

이 후 핵심적인 정보를 모두 보전하면서 차원을 줄이기 위해 pooling 작업을 수행하여 최종적으로 지역적 정보를 보전한 벡터를 생성한다.

설명 가능한 세그먼트의 순서적 특징을 추출하기 위해 LSTM(Long Short-Term Memory)이 제공된다.

본 실시예에 따르면, 양방향 LSTM이 적용된다.

설명 가능한 세그먼트는 주어로 시작하여 개체와 관계가 연속적으로 연결되어 목적어에 도달하는 형태로 구성되는데, 순서상 특징이 큰 의미가 있어 순방향 LSTM 계층이 제공된다.

또한 역방향으로 연결되는 inverse 관계를 포함하여 학습하기 위해 역방향 LSTM 계층이 추가된다. 최종적으로 순방향 LSTM을 통해 출력되는 벡터와 역방향 LSTM을 통해 출력되는 벡터를 결합하여 하나의 설명 가능한 세그먼트의 임베딩 벡터

을 생성한다.

쿼리 트리플 <s, r, o>의 주어 s와 목적어 o 사이에 존재하는 모든 설명 가능한 세그먼트가 링크 예측에 도움이 되는 것은 아니다.

링크 예측에 큰 도움이 되는 의미있는 설명 가능한 세그먼트가 있는 반면 의미없는 설명 가능한 세그먼트가 존재한다.

본 실시예에 따르면, 각 설명 가능한 세그먼트의 중요도를 평가하기 위해 어텐션 메커니즘이 적용된다.

도 4는 본 발명의 일 실시예에 따른 링크 예측을 위한 어텐션 메커니즘 구조를 도시한 도면이다.

도 4를 참조하면, CNN 및 LSTM을 통해 임베딩 벡터로 표현된 각 설명 가능한 세그먼트와 쿼리 술어의 의미적 유사성을 계산하여 링크 예측 결과에 대한 중요도를 파악한다.

우선 쿼리 술어 r을 임베딩된 설명 가능한 세그먼트

와 동일한 크기로 임베딩하여 임베딩 쿼리 술어

을 생성하고 이들의 의미적 유사성을 아래의 수학식을 이용하여 계산한다.

와

는 학습할 weight 변수를 의미하고 q는 각 설명 가능한 세그먼트들을 어텐션 스코어로 가중합 하여 하나의 벡터로 표현한 것을 의미한다.

위 계산을 통해 생성되는

는 어텐션 스코어(attention score)를 의미하며, 각 설명 가능한 세그먼트가 링크 예측의 결과에 얼마나 영향을 미치는지를 파악할 수 있는 중요한 지표가 된다.

따라서 어텐션 스코어를 활용하여 링크 예측 결과에 큰 영향을 미치는 의미있는 설명 가능한 세그먼트와 덜 영향을 미치는 의미없는 설명 가능한 세그먼트를 구별할 수 있다.

예를 들어, 쿼리 트리플 <톰 크루즈, nationality, 미국>에 대한 4가지 설명 가능한 세그먼트가 아래와 같이 생성되었을 때, explanation segment1, 2와 쿼리 술어 nationality와의 유사성 즉, 어텐션 스코어가 높게 계산되어 링크 예측에서의 중요한 explanation segment라 할 수 있다.

반대로 explanation segment 3, 4는 어텐션 스코어가 낮기 때문에 링크 예측 결과에 도움이 되지 않는 explanation segment라 구분할 수 있다.

Explanation Segments1 :

<톰 크루즈, bornIn, 시러큐스, cityOf, 뉴욕, locatedIn, 미국>

Attention Score : 0.55

Explanation Segments2 :

<톰 크루즈, father, 메이포더 3세, nationality, 미국>

Attention Score : 0.32

Explanation Segments3 :

<톰 크루즈, friend, 벤 스틸러, nationality, 미국>

Attention Score : 0.12

Explanation Segments4 :

Attention Score : 0.01

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims

설명 가능한 지식그래프 완성 장치로서,
프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하되,
상기 메모리는,
주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고,
상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고,
CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고,
어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하고,
상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하도록,
상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 지식그래프 완성 장치.
제1항에 있어서,
상기 복수의 관계 경로는, 상기 주어에서 상기 목적어로 연결될 수 있는 하나 이상의 개체 및 하나 이상의 관계 중 상기 하나 이상의 개체를 제외하고 상기 하나 이상의 관계로만 연결되는 경로로 정의되는 설명 가능한 지식그래프 완성 장치.
제2항에 있어서,
상기 프로그램 명령어들은,
path ranking algorithm(PRA)를 이용하여 상기 주어와 상기 목적어 사이의 상기 하나 이상의 개체와 상기 하나 이상의 관계를 랜덤 워크를 통해 탐색하여 상기 복수의 관계 경로를 추출하는 설명 가능한 지식그래프 완성 장치.
제3항에 있어서,
상기 프로그램 명령어들은,
상기 쿼리 술어로 연결되는 모든 트리플의 주어와 목적어를 쌍으로 표현하고,
상기 복수의 관계 경로 각각에 대한 상기 쌍의 랜덤 워크 확률을 이용하여 상기 복수의 관계 경로 중 일부를 제거하는 설명 가능한 지식그래프 완성 장치.
제4항에 있어서,
상기 프로그램 명령어들은,
상기 랜덤 워크 확률이 0보다 큰 쌍의 비율, 상기 랜덤 워크 확률의 평균값 및 상기 복수의 관계 경로 각각의 길이를 이용하여 상기 복수의 관계 경로 중 일부를 제거하는 설명 가능한 지식그래프 완성 장치.
제1항에 있어서,
상기 복수의 설명 가능한 세그먼트 각각은 동일한 길이 n으로 전처리되고 각 개체 및 관계가 d차원 벡터로 표현되고,
상기 CNN은 상기 복수의 설명 가능한 세그먼트 각각은 n×d 형태의 행렬로 변환된 데이터을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 특징맵을 출력하고,
상기 LSTM은 순방향 LSTM 계층 및 역방향 LSTM 계층을 포함하고 상기 특징맵을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 임베딩 벡터를 생성하는 설명 가능한 지식그래프 완성 장치.
제1항에 있어서,
상기 프로그램 명령어들은,
상기 의미적 유사성을 비교를 통해 상기 복수의 설명 가능한 세그먼트 각각에 대한 어텐션 스코어를 계산하고,
상기 어텐션 스코어를 통해 상기 쿼리 트리플에 대한 링크 예측 결과에 중요도가 높은 세그먼트를 결정하는 설명 가능한 지식그래프 완성 장치.
프로세서 및 상기 프로세서에 연결되는 메모리를 포함하는 장치에서 설명 가능한 지식그래프를 완성하는 방법으로서,
주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하는 단계;
상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하는 단계;
CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하는 단계;
어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하는 단계; 및
상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하는 단계를 포함하는 설명 가능한 지식그래프 완성 방법.
제8항에 있어서,
상기 복수의 관계 경로는, 상기 주어에서 상기 목적어로 연결될 수 있는 하나 이상의 개체 및 하나 이상의 관계 중 상기 하나 이상의 개체를 제외하고 상기 하나 이상의 관계로만 연결되는 경로로 정의되는 설명 가능한 지식그래프 완성 방법.
제8항에 따른 방법을 수행하는 컴퓨터 판독 가능한 프로그램.