KR20220068875A - 설명 가능한 지식그래프 완성 방법 및 장치 - Google Patents

설명 가능한 지식그래프 완성 방법 및 장치 Download PDF

Info

Publication number
KR20220068875A
KR20220068875A KR1020210016548A KR20210016548A KR20220068875A KR 20220068875 A KR20220068875 A KR 20220068875A KR 1020210016548 A KR1020210016548 A KR 1020210016548A KR 20210016548 A KR20210016548 A KR 20210016548A KR 20220068875 A KR20220068875 A KR 20220068875A
Authority
KR
South Korea
Prior art keywords
explainable
segments
knowledge graph
subject
paths
Prior art date
Application number
KR1020210016548A
Other languages
English (en)
Other versions
KR102464999B1 (ko
Inventor
박영택
이민호
이완곤
바트셀렘
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to PCT/KR2021/015999 priority Critical patent/WO2022108206A1/ko
Publication of KR20220068875A publication Critical patent/KR20220068875A/ko
Application granted granted Critical
Publication of KR102464999B1 publication Critical patent/KR102464999B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 설명 가능한 지식그래프 완성 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고, 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고, 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하고, 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 지식그래프 완성 장치가 제공된다.

Description

설명 가능한 지식그래프 완성 방법 및 장치{Explainable knowledge graph completion method and apparatus}
본 발명은 설명 가능한 지식그래프 완성 방법 및 장치에 관한 것이다.
지식그래프란 웹 등과 같은 다양한 소스로부터 축적한 자원과 자원 사이의 관계를 정보로 표현한 것을 뜻하며, 이러한 개념들 사이의 의미를 그래프적으로 표현한 것을 말한다. 하지만 지식그래프는 트리플들이 누락 되있거나, 일부 데이터의 연결이 부족한 문제점이 있다.
불완전한 지식그래프를 보완하기 위해 링크 예측에 관한 연구가 이전부터 많이 이루어지고 있다. 최근에는 딥러닝 기반의 링크 예측 연구가 활발히 이루어지고 있지만 링크 예측의 결과만 제시할 뿐 도출되는 결과의 근거와 도출과정의 타당성은 제공하지 못하고 있다.
또한 링크 예측의 결과가 좋지 않을 때, 좋지 않은 원인을 즉각적으로 알지 못하여 어떻게 이러한 결정을 했는지 파악하지 못하면서 딥러닝 기반의 링크 예측에 대해 크게 의존할 수 없게 된다. 따라서 사람이 이해하는 형태로 설명하고 제시할 수 있는 설명 가능한 링크 예측이 중요하며, 링크 예측의 결과에 대해 뒷받침 할 수 있는 설명이 제시된다면 사용자에게 설득력 있는 결과를 보여줄 수 있고, 효율적인 모델을 설계 할 때, 중요한 방향을 알 수 있다.
대한민국등록특허 제10-2140585호
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 링크 예측의 근거로 도출 과정의 타당성을 제공할 수 있는 지식그래프 완성 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 설명 가능한 지식그래프 완성 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고, 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고, 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하고, 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 지식그래프 완성 장치가 제공된다.
상기 복수의 관계 경로는, 상기 주어에서 상기 목적어로 연결될 수 있는 하나 이상의 개체 및 하나 이상의 관계 중 상기 하나 이상의 개체를 제외하고 상기 하나 이상의 관계로만 연결되는 경로로 정의될 수 있다.
상기 프로그램 명령어들은, path ranking algorithm(PRA)를 이용하여 상기 주어와 상기 목적어 사이의 상기 하나 이상의 개체와 상기 하나 이상의 관계를 랜덤 워크를 통해 탐색하여 상기 복수의 관계 경로를 추출할 수 있다.
상기 프로그램 명령어들은, 상기 쿼리 술어로 연결되는 모든 트리플의 주어와 목적어를 쌍으로 표현하고, 상기 복수의 관계 경로 각각에 대한 상기 쌍의 랜덤 워크 확률을 이용하여 상기 복수의 관계 경로 중 일부를 제거할 수 있다.
상기 프로그램 명령어들은, 상기 랜덤 워크 확률이 0보다 큰 쌍의 비율, 상기 랜덤 워크 확률의 평균값 및 상기 복수의 관계 경로 각각의 길이를 이용하여 상기 복수의 관계 경로 중 일부를 제거할 수 있다.
상기 복수의 설명 가능한 세그먼트 각각은 동일한 길이 n으로 전처리되고 각 개체 및 관계가 d차원 벡터로 표현되고, 상기 CNN은 상기 복수의 설명 가능한 세그먼트 각각은 n×d 형태의 행렬로 변환된 데이터을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 특징맵을 출력하고, 상기 LSTM은 순방향 LSTM 계층 및 역방향 LSTM 계층을 포함하고 상기 특징맵을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 임베딩 벡터를 생성할 수 있다.
상기 프로그램 명령어들은, 상기 의미적 유사성을 비교를 통해 상기 복수의 설명 가능한 세그먼트 각각에 대한 어텐션 스코어를 계산하고, 상기 어텐션 스코어를 통해 상기 쿼리 트리플에 대한 링크 예측 결과에 중요도가 높은 세그먼트를 결정할 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하는 장치에서 설명 가능한 지식그래프를 완성하는 방법으로서, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하는 단계; 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하는 단계; CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하는 단계; 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하는 단계; 및 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하는 단계를 포함하는 설명 가능한 지식그래프 완성 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.
본 발명에 따르면, 불완전한 지식그래프의 누락된 링크를 예측할 뿐만 아니라 링크 예측의 결과에 대한 설명을 제시할 수 있어 결과의 근거와 도출 과정의 타당성을 제공할 수 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 설명 가능한 지식그래프 완성 장치의 구성을 도시한 도면이다.
도 2는 본 실시예에 따른 설명 가능한 지식그래프 완성 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 설명 가능한 세그먼트 임베딩 과정을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 링크 예측을 위한 어텐션 메커니즘 구조를 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
지식그래프 완성(링크 예측)은 누락된 링크를 예측하여 불완전한 지식그래프를 보완하는 작업으로, 쿼리 트리플 <주어, 술어, ?>가 주어졌을 때, ?에 해당하는 목적어를 예측하는 것을 말한다.
여기서, 주어(subject)와 목적어(object)는 개체(엔티티), 술어는 릴레이션(relation, 관계)으로 정의된다.
본 발명은 링크 예측의 결과에 대한 설명을 제시할 수 있는 방법에 관한 것으로서, 쿼리 트리플이 입력되는 경우, 주어와 연결되는 복수의 후보 목적어 중 정답에 해당하는 목적어에 대한 링크를 예측하는 것뿐만 아니라 예측된 링크 결과를 뒷받침하는 설명을 제시하기 위한 추론 경로를 제시한다.
여기서, 추론 경로는 주어를 시작으로 목적어에 도달할 수 있는 개체와 관계의 집합으로 정의되며, 설명 가능한 추론 경로를 explanation segment(설명 가능한 세그먼트)라 정의한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 설명 가능한 지식그래프 완성 장치의 구성을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 지식그래프 완성 장치는 프로세서(100) 및 메모리(102)를 포함할 수 있다.
프로세서(100)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리(102)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(102)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
이와 같은 메모리(102)에는 프로세서(100)에 의해 실행 가능한 프로그램 명령어들이 저장된다.
본 실시예에 따른 프로그램 명령어들은, 주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고, 상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고, 어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 술어와의 의미적 유사성을 비교하고, 상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정한다. 이하에서는, 지식그래프 완성을 위한 링크 예측에 중요도가 높은 설명 가능한 세그먼트를 결정하는 과정을 상세하게 설명한다.
여기서, 쿼리 트리플의 목적어는 주어와 연결될 수 있는 개체 중 정답에 해당하는 목적어일 수 있다.
도 2는 본 실시예에 따른 설명 가능한 지식그래프 완성 과정을 설명하기 위한 도면이다.
도 2에서는 쿼리 트리플 <톰 크루즈, nationality, ?>에서 목적어로 미국이 정답 목적어인 경우를 예시적으로 도시한 도면이다.
도 2에서 설명 가능한 세그먼트는 아래와 같이 톰 크루즈와 미국 사이에 존재하는 3개의 추론 경로를 의미한다.
Explanation Segments1 :
<톰 크루즈, bornIn, 시러큐스, cityOf, 뉴욕, locatedIn, 미국>
Explanation Segments2 :
<톰 크루즈, father, 토마스 크루즈 메이포더 3세, nationality, 미국>
Explanation Segments3 :
<톰 크루즈, coworker, 브래드 피트, coworker, 레오나르도 디카프리오, nationality 미국>
본 명세서에서 explanation은 링크 예측의 결과를 뒷받침하는 설명을 뜻하며, 본 발명은 다양한 설명 가능한 세그먼트 중 의미가 있는(링크 예측에서 중요도가 높은) 세그먼트와 의미없는 세그먼트를 분류한다.
쿼리 트리플의 링크 예측 결과에 중요도가 높은 세그먼트는 이하에서 설명하는 어텐션 스코어가 미리 설정된 수치 이상이거나, 복수의 세그먼트 중 미리 설정된 순위 이상의 세그먼트로 결정될 수 있다.
도 2에서는 추론 결과에 근거로 제시될 수 없는 explanation segment3 가 의미없는 explanation segment로 분류되고, 링크 예측에 대한 근거로 제시될 수 있는 explanation segment1,2 가 의미있는 explanation segment로 분류된다.
상기한 바와 같이, 설명 가능한 세그먼트는 트리플 <s, r, o>의 주어(s)와 목적어(o)를 연결할 수 있는 다양한 경로를 의미한다.
설명 가능한 세그먼트를 생성하기 위해, 쿼리 트리플에 포함된 쿼리 술어(r)에 대한 다양한 관계 경로를 추출한다.
여기서, 관계 경로는 주어에서 목적어로 연결될 수 있는 경로
Figure pat00001
가 존재할 때, 해당 경로에서 개체가 아닌 관계로만 연결된 경로
Figure pat00002
를 의미한다.
여기서, e는 개체, r은 관계를 의미한다.
본 발명의 바람직한 일 실시예에 따르면, path ranking algorithm(PRA)를 이용하여 주어와 목적어 사이의 수많은 개체와 관계들을 랜덤 워크를 통해 탐색하고, 이를 통해 다양한 관계 경로를 추출한다.
그러나 대용량 지식그래프의 경우 수많은 관계 경로가 추출되어 데이터가 기하급수적으로 증가하고, 링크 예측 모델의 학습에 도움이 되지 않는 관계 경로가 다수 존재하는 문제가 있어 관계 경로를 필터링하는 과정이 필요하다.
이를 위해, 본 실시예에서는 우선 쿼리 술어로 연결되는 모든 트리플의 주어와 목적어를 쌍 (s,o)로 표현하고 모든 관계 경로에 대한 각 쌍의 랜덤 워크 확률값을 계산한다.
여기서, 랜덤 워크 확률은 주어진 공간에서 매 순간 랜덤으로, 즉 확률적으로 이동하는 모습을 수학적으로 표현한 것이다.
이후, 랜덤 워크 확률이 0보다 큰 쌍의 비율이 미리 설정된 수치(예를 들어, 0.7) 이상인 관계 경로를 추출하고, 각 관계 경로에 대한 랜덤 워드 확률의 평균값이 미리 설정된 수치(예를 들어, 0.05) 이하인 관계 경로를 제거한다.
또한, 관계 경로의 길이가 소정 수치 이하(예를 들어, 3)인 관계 경로를 추출한다.
PRA를 통해 생성된 관계 경로에 개체를 매핑하여 최종적으로 설명 가능한 세그먼트를 생성한다.
예를 들어, 상기한 쿼리 술어 nationality에 대한 관계 경로가
Figure pat00003
인 경우 쿼리 트리플 <톰 크루즈, nationality, 미국>에 대한 설명 가능한 세그먼트인 <톰 크루즈, bornIn, 시러큐스, cityOf, 뉴욕, locatedIn, 미국> 가 생성된다. 하나의 쿼리 트리플에는 다양한 관계 경로가 존재할 수 있고, 같은 관계 경로에도 여러 개의 설명 가능한 세그먼트가 생성될 수 있다.
설명 가능한 세그먼트를 이용하여 링크 예측 모델을 학습하기 위해 각 설명 가능한 세그먼트를 고유의 벡터를 통해 효과적으로 표현하는 임베딩 작업이 필요하다.
도 3은 본 발명의 일 실시예에 따른 설명 가능한 세그먼트 임베딩 과정을 도시한 도면이다.
도 3을 참조하면, CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출한다.
설명 가능한 세그먼트를 CNN(합성곱 신경망)의 입력으로 사용하기 위해 소정 길이 이하(예를 들어, 7)의 설명 가능한 세그먼트를 제로 패딩(zero padding)하여 모든 설명 가능한 세그먼트의 길이를 동일한 길이(n)로 전처리한다.
이후, 각 개체와 관계를 d차원 벡터로 표현하여 n×d 형태의 행렬로 변환하고, 이를 CNN에 입력한다.
CNN은 이미지뿐만 아니라, 텍스트 데이터의 특징을 추출하고 강화하는데 주로 사용되며, 여러 단어 사이의 의미적, 문법적 관계를 추출하는데 비교적 높은 성능을 보인다.
따라서 설명 가능한 세그먼트의 각 개체와 관계들의 특징을 함축한 벡터로 표현하기 위해 CNN을 사용하며, CNN은 윈도우 사이즈가 2인 k개의 필터를 사용하여 설명 가능한 세그먼트의 개체 및 관계의 순서대로 한 칸씩 이동하며 특징맵을 출력한다.
이 후 핵심적인 정보를 모두 보전하면서 차원을 줄이기 위해 pooling 작업을 수행하여 최종적으로 지역적 정보를 보전한 벡터를 생성한다.
설명 가능한 세그먼트의 순서적 특징을 추출하기 위해 LSTM(Long Short-Term Memory)이 제공된다.
본 실시예에 따르면, 양방향 LSTM이 적용된다.
설명 가능한 세그먼트는 주어로 시작하여 개체와 관계가 연속적으로 연결되어 목적어에 도달하는 형태로 구성되는데, 순서상 특징이 큰 의미가 있어 순방향 LSTM 계층이 제공된다.
또한 역방향으로 연결되는 inverse 관계를 포함하여 학습하기 위해 역방향 LSTM 계층이 추가된다. 최종적으로 순방향 LSTM을 통해 출력되는 벡터와 역방향 LSTM을 통해 출력되는 벡터를 결합하여 하나의 설명 가능한 세그먼트의 임베딩 벡터
Figure pat00004
을 생성한다.
쿼리 트리플 <s, r, o>의 주어 s와 목적어 o 사이에 존재하는 모든 설명 가능한 세그먼트가 링크 예측에 도움이 되는 것은 아니다.
링크 예측에 큰 도움이 되는 의미있는 설명 가능한 세그먼트가 있는 반면 의미없는 설명 가능한 세그먼트가 존재한다.
본 실시예에 따르면, 각 설명 가능한 세그먼트의 중요도를 평가하기 위해 어텐션 메커니즘이 적용된다.
도 4는 본 발명의 일 실시예에 따른 링크 예측을 위한 어텐션 메커니즘 구조를 도시한 도면이다.
도 4를 참조하면, CNN 및 LSTM을 통해 임베딩 벡터로 표현된 각 설명 가능한 세그먼트와 쿼리 술어의 의미적 유사성을 계산하여 링크 예측 결과에 대한 중요도를 파악한다.
우선 쿼리 술어 r을 임베딩된 설명 가능한 세그먼트
Figure pat00005
와 동일한 크기로 임베딩하여 임베딩 쿼리 술어
Figure pat00006
을 생성하고 이들의 의미적 유사성을 아래의 수학식을 이용하여 계산한다.
Figure pat00007
Figure pat00008
Figure pat00009
는 학습할 weight 변수를 의미하고 q는 각 설명 가능한 세그먼트들을 어텐션 스코어로 가중합 하여 하나의 벡터로 표현한 것을 의미한다.
위 계산을 통해 생성되는
Figure pat00010
는 어텐션 스코어(attention score)를 의미하며, 각 설명 가능한 세그먼트가 링크 예측의 결과에 얼마나 영향을 미치는지를 파악할 수 있는 중요한 지표가 된다.
따라서 어텐션 스코어를 활용하여 링크 예측 결과에 큰 영향을 미치는 의미있는 설명 가능한 세그먼트와 덜 영향을 미치는 의미없는 설명 가능한 세그먼트를 구별할 수 있다.
예를 들어, 쿼리 트리플 <톰 크루즈, nationality, 미국>에 대한 4가지 설명 가능한 세그먼트가 아래와 같이 생성되었을 때, explanation segment1, 2와 쿼리 술어 nationality와의 유사성 즉, 어텐션 스코어가 높게 계산되어 링크 예측에서의 중요한 explanation segment라 할 수 있다.
반대로 explanation segment 3, 4는 어텐션 스코어가 낮기 때문에 링크 예측 결과에 도움이 되지 않는 explanation segment라 구분할 수 있다.
Explanation Segments1 :
<톰 크루즈, bornIn, 시러큐스, cityOf, 뉴욕, locatedIn, 미국>
Attention Score : 0.55
Explanation Segments2 :
<톰 크루즈, father, 메이포더 3세, nationality, 미국>
Attention Score : 0.32
Explanation Segments3 :
<톰 크루즈, friend, 벤 스틸러, nationality, 미국>
Attention Score : 0.12
Explanation Segments4 :
<톰 크루즈, coworker, 브래드 피트, coworker, 레오나르도 디카프리오, nationality 미국>
Attention Score : 0.01
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (10)

  1. 설명 가능한 지식그래프 완성 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하고,
    상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하고,
    CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하고,
    어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하고,
    상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하도록,
    상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 설명 가능한 지식그래프 완성 장치.
  2. 제1항에 있어서,
    상기 복수의 관계 경로는, 상기 주어에서 상기 목적어로 연결될 수 있는 하나 이상의 개체 및 하나 이상의 관계 중 상기 하나 이상의 개체를 제외하고 상기 하나 이상의 관계로만 연결되는 경로로 정의되는 설명 가능한 지식그래프 완성 장치.
  3. 제2항에 있어서,
    상기 프로그램 명령어들은,
    path ranking algorithm(PRA)를 이용하여 상기 주어와 상기 목적어 사이의 상기 하나 이상의 개체와 상기 하나 이상의 관계를 랜덤 워크를 통해 탐색하여 상기 복수의 관계 경로를 추출하는 설명 가능한 지식그래프 완성 장치.
  4. 제3항에 있어서,
    상기 프로그램 명령어들은,
    상기 쿼리 술어로 연결되는 모든 트리플의 주어와 목적어를 쌍으로 표현하고,
    상기 복수의 관계 경로 각각에 대한 상기 쌍의 랜덤 워크 확률을 이용하여 상기 복수의 관계 경로 중 일부를 제거하는 설명 가능한 지식그래프 완성 장치.
  5. 제4항에 있어서,
    상기 프로그램 명령어들은,
    상기 랜덤 워크 확률이 0보다 큰 쌍의 비율, 상기 랜덤 워크 확률의 평균값 및 상기 복수의 관계 경로 각각의 길이를 이용하여 상기 복수의 관계 경로 중 일부를 제거하는 설명 가능한 지식그래프 완성 장치.
  6. 제1항에 있어서,
    상기 복수의 설명 가능한 세그먼트 각각은 동일한 길이 n으로 전처리되고 각 개체 및 관계가 d차원 벡터로 표현되고,
    상기 CNN은 상기 복수의 설명 가능한 세그먼트 각각은 n×d 형태의 행렬로 변환된 데이터을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 특징맵을 출력하고,
    상기 LSTM은 순방향 LSTM 계층 및 역방향 LSTM 계층을 포함하고 상기 특징맵을 입력으로 하여 상기 복수의 설명 가능한 세그먼트 각각의 임베딩 벡터를 생성하는 설명 가능한 지식그래프 완성 장치.
  7. 제1항에 있어서,
    상기 프로그램 명령어들은,
    상기 의미적 유사성을 비교를 통해 상기 복수의 설명 가능한 세그먼트 각각에 대한 어텐션 스코어를 계산하고,
    상기 어텐션 스코어를 통해 상기 쿼리 트리플에 대한 링크 예측 결과에 중요도가 높은 세그먼트를 결정하는 설명 가능한 지식그래프 완성 장치.
  8. 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하는 장치에서 설명 가능한 지식그래프를 완성하는 방법으로서,
    주어, 술어 및 목적어를 포함하는 쿼리 트리플에서, 상기 주어와 목적어를 연결할 수 있는 복수의 관계 경로를 추출하는 단계;
    상기 추출된 복수의 관계 경로를 이용하여 복수의 설명 가능한 세그먼트를 생성하는 단계;
    CNN 및 LSTM을 결합한 신경망 모델을 이용하여 상기 생성된 복수의 설명 가능한 세그먼트 각각에 대한 임베딩 벡터를 추출하는 단계;
    어텐션 메커니즘을 이용하여 상기 임베딩 벡터로 표현되는 복수의 설명 가능한 세그먼트와 상기 쿼리 트리플에 포함된 쿼리 술어와의 의미적 유사성을 비교하는 단계; 및
    상기 의미적 유사성 비교를 통해 상기 복수의 설명 가능한 세그먼트 중 상기 쿼리 트리플에 대한 링크 예측에 중요도가 높은 세그먼트를 결정하는 단계를 포함하는 설명 가능한 지식그래프 완성 방법.
  9. 제8항에 있어서,
    상기 복수의 관계 경로는, 상기 주어에서 상기 목적어로 연결될 수 있는 하나 이상의 개체 및 하나 이상의 관계 중 상기 하나 이상의 개체를 제외하고 상기 하나 이상의 관계로만 연결되는 경로로 정의되는 설명 가능한 지식그래프 완성 방법.
  10. 제8항에 따른 방법을 수행하는 컴퓨터 판독 가능한 프로그램.
KR1020210016548A 2020-11-19 2021-02-05 설명 가능한 지식그래프 완성 방법 및 장치 KR102464999B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/015999 WO2022108206A1 (ko) 2020-11-19 2021-11-05 설명 가능한 지식그래프 완성 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200155501 2020-11-19
KR20200155501 2020-11-19

Publications (2)

Publication Number Publication Date
KR20220068875A true KR20220068875A (ko) 2022-05-26
KR102464999B1 KR102464999B1 (ko) 2022-11-09

Family

ID=81809089

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210016548A KR102464999B1 (ko) 2020-11-19 2021-02-05 설명 가능한 지식그래프 완성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102464999B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743601A (zh) * 2024-02-05 2024-03-22 中南大学 一种自然资源知识图谱补全方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337481A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Complex embeddings for simple link prediction
JP2018085116A (ja) * 2016-11-23 2018-05-31 富士通株式会社 知識グラフを完成させるための方法および装置
KR20180092194A (ko) * 2017-02-08 2018-08-17 경북대학교 산학협력단 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
US20200065668A1 (en) * 2018-08-27 2020-02-27 NEC Laboratories Europe GmbH Method and system for learning sequence encoders for temporal knowledge graph completion
KR20200084745A (ko) * 2018-12-27 2020-07-13 (주)아크릴 자연어 문장에 대한 의미 요소 관계 시각화 방법 및 이를 이용한 장치
KR102140585B1 (ko) 2018-11-29 2020-08-03 숭실대학교산학협력단 사람의 행위 의도 인지를 위한 온톨로지 기반 사건 연산 규칙 생성 장치 및 그 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337481A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Complex embeddings for simple link prediction
JP2018085116A (ja) * 2016-11-23 2018-05-31 富士通株式会社 知識グラフを完成させるための方法および装置
KR20180092194A (ko) * 2017-02-08 2018-08-17 경북대학교 산학협력단 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
US20200065668A1 (en) * 2018-08-27 2020-02-27 NEC Laboratories Europe GmbH Method and system for learning sequence encoders for temporal knowledge graph completion
KR102140585B1 (ko) 2018-11-29 2020-08-03 숭실대학교산학협력단 사람의 행위 의도 인지를 위한 온톨로지 기반 사건 연산 규칙 생성 장치 및 그 방법
KR20200084745A (ko) * 2018-12-27 2020-07-13 (주)아크릴 자연어 문장에 대한 의미 요소 관계 시각화 방법 및 이를 이용한 장치

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
B. Xu, et. al. Cn-dbpedia2:An extraction and verification framework for enriching chinese encyclopedia knowledge base. Data Intelligence. Vol. 1. No. 3. 2019. *
Bordes, A., et al.Translating embeddings for modeling multi-relational data. In: NIPS. 2013. *
Zhang, Wen, et al. Interaction embeddings for prediction and explanation in knowledge graphs. ACM International Conference on Web Search and Data Mining. 2019. *
Zhang, Wen, et al. XTransE: Explainable Knowledge Graph Embedding for Link Prediction with Lifestyles in e-Commerce. Joint International Semantic Technology Conference. Springer. 2019. *
바트셀렘, 김민성, 박영택. 경로 임베딩 기반 지식 그래프 완성 방식. 정보과학회논문지. vol.47. no.8. 2020. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743601A (zh) * 2024-02-05 2024-03-22 中南大学 一种自然资源知识图谱补全方法、装置、设备及介质
CN117743601B (zh) * 2024-02-05 2024-05-17 中南大学 一种自然资源知识图谱补全方法、装置、设备及介质

Also Published As

Publication number Publication date
KR102464999B1 (ko) 2022-11-09

Similar Documents

Publication Publication Date Title
US20220004879A1 (en) Regularized neural network architecture search
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN112487168B (zh) 知识图谱的语义问答方法、装置、计算机设备及存储介质
CN110866140A (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
US11328125B2 (en) Method and server for text classification using multi-task learning
CN110009430B (zh) 作弊用户检测方法、电子设备及计算机可读存储介质
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
Sun et al. Using statistical measures and machine learning for graph reduction to solve maximum weight clique problems
KR20200064198A (ko) 인공신경망 모델을 이용한 뉴스 기사 분석에 의한 주가지수 예측 방법 및 장치
Adib et al. A deep hybrid learning approach to detect bangla fake news
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
KR102464999B1 (ko) 설명 가능한 지식그래프 완성 방법 및 장치
WO2022166689A1 (zh) 信息检索方法及相关系统、存储介质
KR102582779B1 (ko) 뉴로 심볼릭 기반 릴레이션 임베딩을 통한 지식완성 방법 및 장치
EP4030355A1 (en) Neural reasoning path retrieval for multi-hop text comprehension
Liu et al. Improved stacking model fusion based on weak classifier and word2vec
KR102347031B1 (ko) 다중작업 학습을 이용한 텍스트 분류 방법 및 서버
CN117076608A (zh) 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置
CN111680132A (zh) 一种用于互联网文本信息的噪声过滤和自动分类方法
Harari et al. Automatic features generation and selection from external sources: a DBpedia use case
Sagala et al. Enhanced churn prediction model with boosted trees algorithms in the banking sector
WO2022108206A1 (ko) 설명 가능한 지식그래프 완성 방법 및 장치
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
CN114969253A (zh) 市场主体与政策的匹配方法、装置、计算设备及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right