KR20220083424A - Rdf 그래프 임베딩 방법 및 이를 실행하는 장치 - Google Patents

Rdf 그래프 임베딩 방법 및 이를 실행하는 장치 Download PDF

Info

Publication number
KR20220083424A
KR20220083424A KR1020200173653A KR20200173653A KR20220083424A KR 20220083424 A KR20220083424 A KR 20220083424A KR 1020200173653 A KR1020200173653 A KR 1020200173653A KR 20200173653 A KR20200173653 A KR 20200173653A KR 20220083424 A KR20220083424 A KR 20220083424A
Authority
KR
South Korea
Prior art keywords
entity
sequence
current
similar
entities
Prior art date
Application number
KR1020200173653A
Other languages
English (en)
Other versions
KR102531266B1 (ko
Inventor
이영구
티 투 반 두엉
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020200173653A priority Critical patent/KR102531266B1/ko
Publication of KR20220083424A publication Critical patent/KR20220083424A/ko
Application granted granted Critical
Publication of KR102531266B1 publication Critical patent/KR102531266B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

본 발명의 일 실시예에 따른 RDF 그래프 임베딩 장치에서 실행되는 RDF 그래프 임베딩 방법은 RDF 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교하는 단계, 상기 비교 결과에 따라 상기 다른 엔티티를 이용하여 유사 엔티티 시퀀스를 생성하는 단계, 상기 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출하는 단계, 상기 후보 엔티티의 가중치를 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하여 다음 엔티티로 결정하는 단계 및 상기 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성하는 단계를 포함한다.

Description

RDF 그래프 임베딩 방법 및 이를 실행하는 장치{METHOD OF EMBEDDING RDF GRAPH AND APPARATUS PERFORMING THE SAME}
본 발명은 RDF 그래프 임베딩 방법 및 이를 실행하는 장치에 관한 것으로, 보다 상세하게는 크기가 N 인 그래프를 낮은 차원의 벡터에 매핑하기 위한 RDF 그래프 임베딩 방법 및 이를 실행하는 장치에 관한 것이다.
RDF(Resource Description Framework)는 웹상의 자원의 정보를 표현하기 위한 규격이다. 상이한 메타데이터 간의 어의, 구문 및 구조에 대한 공통적인 규칙을 지원한다.
웹상에 존재하는 기계 해독형(machineunderstandable) 정보를 교환하기 위하여 월드와이드 웹 컨소시엄에서 제안한 것으로, 메타데이터 간의 효율적인 교환 및 상호호환을 목적으로 한다.
메타데이터 교환을 위해서 명확하고 구조화된 의미표현을 제공해 주는 공통의 기술언어로 XML(eXtensible Markup Language)을 사용하기도 한다. RDF는 데이터 모형, 데이터의 상호교환을 위한 구문, 스키마 모형, 기계 해독형 스키마를 위한 구문, 질문과 프로파일 프로토콜과 같은 요소로 구성된다.
RDF는 주어, 술어, 목적어(subject, predicate, object)로 된 그래프 형태로 표현된다. RDF 그래프는 기존의 테이블 기반으로 한 데이터베이스와 구조가 다르지만, 구현의 편리성, 안정된 결과 등을 이유로 RDF 그래프를 저장하기 위하여 기존의 데이터베이스를 그대로 사용하고 있다.
RDF(Resource Description Framework)는 시멘틱 웹을 표현하는 표준 모형이다. RDF는 RDF 트리플로 이루어져 있다. RDF 트리플은 주어(subject), 술어(predicate), 목적어(object)로 이루어지며, 공백으로 구분된다. 주어는 IRI(Internationalized Resource Identifier)나 블랭크 노드(Blank node), 술어는 IRI, 목적어는 IRI, 블랭크 노드나 리터럴(literal)이 될 수 있다. RDF 그래프는 RDF 트리플의 집합으로 데이터 셋을 이룬다.
이러한 트리플 형태의 RDF 데이터는 주어와 목적어를 정점(vertex)으로 표현하고, 술어를 정점 간의 관계인 간선(edge)으로 표현하여 그래프로 변환이 가능하다.
RDF 데이터를 그래프 형태로 관리하면 질의 처리 시 정점의 연결 정보로 다른 정점을 접근할 수 있어서 조인 연산을 줄여 빠른 질의 응답을 제공할 수 있다.
이러한 RDF 그래프의 경우 엔티티를 RDF2vec, biaRDF2vec과 같은 RDF 그래프의 벡터로 변환하는 기존의 많은 작업도 제안되었다. 하지만, 일반 그래프와 마찬가지로 입력이 시퀀스인 모델링 기술로 word2vec를 사용한다.
그러나 RDF 그래프 임베딩에는 몇 가지 어려움이 있다.
첫째, graph walk는 가능한 모든 시퀀스를 생성 할 수 있다. 그러나 엄청난 양의 시퀀스가 생성되지만, 실제로, 훈련을 위해 엄청난 양의 시퀀스들을 모두 사용할 수는 없다.
둘째, 일반 그래프 문제와 달리 RDF 엔티티는 동일한 의미를 가질 때 유사하다는 문제점이 있다. 하지만, RDF 그래프의 유향 에지 때문에 graph walk로 일부 잠재 시퀀스를 생성 할 수 없는 문제가 발생한다.
셋째, 리터럴 엔티티를 가진 RDF그래프에 그래프 임베딩을 적용할 때, RDF 데이터 세트의 리터럴 유형은 문자열, 숫자, 날짜 등과 같이 값이 매우 다양하기 때문에 이를 식별하는 것이 어렵다는 문제점이 있다.
본 발명은 크기가 N 인 그래프를 낮은 차원의 벡터에 매핑하기 위한 RDF 그래프 임베딩 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 그래프 임베딩을 사용하여 분류, 클러스터링 또는 회귀와 같은 모든 머신 러닝 기술을 적용 할 수 있도록 하는 RDF 그래프 임베딩 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 대략적인 쿼리 응답을 위해 유사한 엔티티를 사용하여 쿼리에 빠르게 응답할 수 있도록 하는 RDF 그래프 임베딩 방법 및 이를 실행하는 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이러한 목적을 달성하기 위한 RDF 그래프 임베딩 장치에서 실행되는 RDF 그래프 임베딩 방법은 RDF 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교하는 단계, 상기 비교 결과에 따라 상기 다른 엔티티를 이용하여 유사 엔티티 시퀀스를 생성하는 단계, 상기 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출하는 단계, 상기 후보 엔티티의 가중치를 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하여 다음 엔티티로 결정하는 단계 및 상기 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성하는 단계를 포함한다.
또한 이러한 목적을 달성하기 위한 RDF 그래프 임베딩 장치는 RDF 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교하는 구조적 유사성 결정부, 상기 비교 결과에 따라 상기 다른 엔티티를 이용하여 유사 엔티티 시퀀스를 생성하는 유사 엔티티 시퀀스 생성부, 상기 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출하는 가중치 산출부, 상기 후보 엔티티의 가중치를 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하고, 상기 특정 후보 엔티티를 다음 엔티티로 결정하는 다음 엔티티 결정부 및 상기 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성하는 시퀀스 병합부를 포함한다.
전술한 바와 같은 본 발명에 의하면, 크기가 N 인 그래프를 낮은 차원의 벡터에 매핑할 수 있다는 장점이 있다.
또한 본 발명에 의하면, 그래프 임베딩을 사용하여 분류, 클러스터링 또는 회귀와 같은 모든 머신 러닝 기술을 적용 할 수 있다는 장점이 있다.
또한 본 발명에 의하면, 대략적인 쿼리 응답을 위해 유사한 엔티티를 사용하여 쿼리에 빠르게 응답할 수 있다는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 RDF 그래프 임베딩 장치를 설명하기 위한 블록도이다.
도 2는 본 발명에 따른 RDF 그래프 임베딩 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 3 및 도 4는 본 발명에 따른 RDF 그래프 임베딩 과정을 설명하기 위한 예시도이다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
본 명세서에서 사용된 용어 중 "엔티티"는 RDF 그래프를 구성하는 각각의 노드를 의미한다.
본 명세서에서 사용된 용어 중 "아웃고잉 엔티티"은 현재 엔티티를 기준으로 에지의 화살표가 가리키는 엔티티를 의미한다.
본 명세서에서 사용된 용어 중 "인커밍 엔티티"는 현재 엔티티를 기준으로 에지의 화살표가 가리키는 곳의 반대에 해당하는 엔티티를 의미한다.
도 1은 본 발명의 일 실시예에 따른 RDF 그래프 임베딩 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, RDF 그래프 임베딩 장치(100)는 구조적 유사성 결정부(110), 유사 엔티티 시퀀스 생성부(120), 가중치 산출부(130), 다음 엔티티 결정부(140)및 시퀀스 병합부(150)를 포함한다.
구조적 유사성 결정부(110)는 현재 시퀀스의 이전 엔티티를 기반으로 다음 엔티티를 선택한다.
이를 위해, 구조적 유사성 결정부(110)는 현재 시퀀스에서 이전 엔티티를 기반으로 다음 엔티티가 어떤 엔티티인지 결정하기 위해 현재 엔티티를 사용하여 유사한 경로의 수를 나타내는 가중치를 산출한다.
본 발명은 유사한 경로의 수를 세기 위하여 그래프에서 유사한 엔티티를 정의하는 RDF 그래프 임베딩 방법를 제안한다. 다른 유사성 측정 방법과 달리, 본 발명은 연결 레이블과 이웃 사이의 균형을 유지하며, RDF 그래프에서 서로 연결된로 연결된 엔티티 사이의 속성을 이용하여 유사성을 측정한다.
일 실시예에서, 구조적 유사성 결정부(110)는 그래프에서 [수학식 1]을 기초로 현재 엔티티 및 다른 엔티티 사이의 구조적 유사성을 결정할 수 있다. 이때, 현재 엔티티 및 다른 엔티티 사이의 구조적 유사성은 전체 연결에 대한 유사한 연결 비율과 전체 이웃에 대한 유사한 이웃 비율의 합으로 결정된다.
[수학식 1]
Figure pat00001
Figure pat00002
: 현재 엔티티 u 및 다른 엔티티 v의 구조적 유사성,
Figure pat00003
: 현재 엔티티 u 및 다른 엔티티 v의 유사한 에지 레이블의 수,
Figure pat00004
: 현재 엔티티 u 및 다른 엔티티 v의 유사한 에지(즉, 동일한 레이블 에지와 인커밍 또는 아웃고잉 정점)의 수,
Figure pat00005
: 현재 엔티티 u 및 다른 엔티티 v의 에지의 전체 인커밍 레이블 및 아웃고잉 레이블의 수,
Figure pat00006
: 현재 엔티티 u 및 다른 엔티티 v의 인커밍 에지 및 아웃고잉 에지의 수,
w: 우선 순위를 조정하기 위한 가중치
즉, 구조적 유사성 결정부(110)는 상기의 [수학식 1]를 기초로 현재 엔티티 u 및 다른 엔티티 v의 구조적 유사성을 에지 레이블, 아웃고잉 엔티티 및 인커밍 엔티티를 기초로 결정된다.
[수학식 2]
Figure pat00007
Figure pat00008
: 현재 엔티티 u 및 다른 엔티티 v 사이의 구조적 유사성 거리,
Figure pat00009
: [수학식 1]에서 산출된 현재 엔티티 u 및 다른 엔티티 v의 구조적 유사성,
bi: 다른 엔티티 v 의 인커밍 엔티티,
a: 현재 엔티티 u의 이전 엔티티,
n: 각각의 엔티티의 이동 수
그런 다음, 유사 엔티티 시퀀스 생성부(120)는 상기의 [수학식 2]를 기초로 그래프의 각 엔티티에 대해 구조적 유사성 거리를 산출하고, 구조적 유사성 거리가 특정 거리 이하인 다른 엔티티 v를 이용하여 유사 엔티티 시퀀스를 생성한다.
즉, 유사 엔티티 시퀀스 생성부(120)는 상기의 [수학식 2]를 기초로 이전 엔티티 a에 대해서 현재 엔티티 u와 구조적 유사성을 가지는 정점을 결정할 수 있다.
이때, 유사 엔티티 시퀀스 생성부(120)가 유사 엔티티 시퀀스를 추출하는 이유는 유사 엔티티 시퀀스 상의 후보 엔티티 중 어느 하나의 엔티티를 다음 엔티티로 결정하기 위해서이다. 하지만, 유사 엔티티 시퀀스 상의 존재하는 후보 엔티티가 많기 때문에 유사 엔티티 시퀀스 상의 후보 엔티티의 가중치를 산출하여 가중치에 따라 어느 하나의 후보 엔티티를 다음 엔티티로 결정한다.
이를 위해, 가중치 산출부(130)는 [수학식 3]을 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티의 가중치를 산출한다.
[수학식 3]
Figure pat00010
Figure pat00011
: 후보 엔티티 p가 다음 엔티티 q로 이동하는 가중치,
Figure pat00012
: 현재 엔티티 u 및 다른 엔티티 v의 에지의 총 레이블의 식별자의 수,
Figure pat00013
: 현재 엔티티 u 및 다른 엔티티 v의 인커밍의 에지의 수 및 아웃고잉의 에지의 수의 합,
Figure pat00014
: 유사 엔티티 시퀀스 중 후보 엔티티 p 또는 후보 엔티티 p가 다음 엔티티 q로 결정될 모든 경우의 수를 지시하며, [수학식 4]에 의해 산출
[수학식 4]
Figure pat00015
Figure pat00016
: 유사 엔티티 시퀀스 중 후보 엔티티 P 또는 후보 엔티티 P가 다음 엔티티 q로 결정될 경우의 수,
Figure pat00017
: sc(p, a)에서 후보 엔티티 P를 통과하는 엔티티 a 로부터 다음 엔티티 q를 연결하는 에지
[수학식 3]에서 가중치가 높은 경우 엔티티 p가 다음 엔티티 q로 이동할 가능성이 높으며, 가중치가 낮은 경우 엔티티 p가 엔티티 q로 이동할 가능성이 낮은 것이다.
그런 다음, 다음 엔티티 결정부(140)는 후보 엔티티의 가중치를 기초로 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하고, 특정 엔티티를 다음 엔티티로 결정한다.
시퀀스 병합부(150)는 동일한 깊이를 가지는 두 개의 스퀀스를 병합하여 병합 시퀀스를 생성한다.
이를 위해, 시퀀스 병합부(150)는 유사 엔티티 시퀀스 상에 존재하는 엔티티의 수가 동일한 제1 유사 엔티티 시퀀스 및 제2 유사 엔티티 시퀀스 각각에 대해서 엔티티의 수 및 미리 결정된 특징에 속하는 엔티티의 수를 이용하여 제1 행렬 및 제2 행렬을 생
도 2는 본 발명에 따른 RDF 그래프 임베딩 방법의 일 실시예를 설명하기 위한 흐름도이다.
도 2를 참조하면, RDF 그래프 임베딩 장치(100)는 RDF 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교한다(단계 S210).
단계 S210에 대한 일 실시예에서, RDF 그래프 임베딩 장치(100)는 현재 엔티티 및 다른 엔티티의 에지 레이블, 아웃고잉 엔티티 및 인커밍 엔티티를 기초로 구조적 유사성을 결정할 수 있다.
RDF 그래프 임베딩 장치(100)는 비교 결과에 따라 상기 다른 엔티티를 이용하여 유사 엔티티 시퀀스를 생성한다(단계 S220).
단계 S220에 대한 일 실시예에서, RDF 그래프 임베딩 장치(100)는 현재 엔티티의 이전 정점을 기초로 현재 엔티티 및 다른 엔티티 사이의 구조적 유사성 거리를 산출한 후, 특정 거리 이하의 다른 엔티티를 이용하여 유사 엔티티 시퀀스를 생성한다.
RDF 그래프 임베딩 장치(100)는 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출한다(단계 S230).
단계 S230에 대한 일 실시예에서, RDF 그래프 임베딩 장치(100)는 현재 엔티티 및 다른 엔티티의 에지 레이블, 인커밍의 에지의 수, 아웃고잉의 에지, 상기 후보 엔티티로부터 이동 가능한 엔티티의 수 및 상기 후보 엔티티와 구조적 유사성을 가지는 노드로부터 이동 가능한 엔티티의 수에 따라 상의 각각의 후보 엔티티의 가중치를 산출할 수 있다.
RDF 그래프 임베딩 장치(100)는 상기 후보 엔티티의 가중치를 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하여 다음 엔티티로 결정한다(단계 S240).
RDF 그래프 임베딩 장치(100)는 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성한다(단계 S250).
단계 S250에 대한 일 실시예에서, RDF 그래프 임베딩 장치(100)는 유사시엔티티 퀀스 상에 존재하는 엔티티의 수가 동일한 제1 유사 엔티티 시퀀스 및 제2 유사 엔티티 시퀀스 각각에 대해서 엔티티의 수 및 미리 결정된 특징에 속하는 엔티티의 수를 이용하여 제1 행렬 및 제2 행렬을 생성한다.
그런 다음, RDF 그래프 임베딩 장치(100)는 제1 행렬 및 상기 제2 행렬을 기초로 동일한 행 또는 열의 값에 따라 해당 값을 이용하여 병합 엔티티 시퀀스를 생성한다.
도 3 및 도 4는 본 발명에 따른 RDF 그래프 임베딩 과정을 설명하기 위한 예시도이다.
도 3을 참조하여 그래프 G4에서 엔티티 A1 및 엔티티 A2의 이웃 엔티티가 유사하기 때문에 엔티티 A1 및 엔티티 A2는 유사한 구조성를 가진다. 하지만, 모든 유사 엔티티 시퀀스가 생성되지 않은 경우, 특히 A1 -> 1 -> B1 -> 3 -> D1 -> 6 -> F1 경로 대신에 A1 -> 1 -> B1 ->3-> D1 -> 8 -> H1이 생성될 수 있다.
따라서, 본 발명은 현재 엔티티의 이전 엔티티를 기초로 다음 노드를 선택할 수 있는 유사 엔티티 시퀀스를 생성한다. 순차적으로, 다음 노드가 어떤 노드인지 결정하기 위해, 본 발명은 현재 노드에 대한 유사한 구조성를 가지는 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출한다. 이하에서는 도 4를 참조하여 이러한 과정을 설명하기로 한다.
도 4를 참조하면, RDF 그래프 임베딩 장치(100)는 현재 시퀀스의 이전 엔티티를 기반으로 다음 엔티티를 선택한다.
이를 위해, RDF 그래프 임베딩 장치(100)는 현재 시퀀스에서 이전 엔티티를 기반으로 다음 엔티티가 어떤 엔티티인지 결정하기 위해 현재 엔티티 u 및 현재 엔티티 u와 연결된 다른 엔티티 v의 속성을 비교하는 유사한 구조성을 가지는지 확인한다.
이때, RDF 그래프 임베딩 장치(100)는 현재 엔티티 및 다른 엔티티의 에지 레이블, 아웃고잉 엔티티 및 인커밍 엔티티를 기초로 구조적 유사성을 결정할 수 있다.
RDF 그래프 임베딩 장치(100)는 현재 엔티티 u 및 현재 엔티티 u와 연결된 다른 엔티티 v의 속성을 기초로 유사한 구조성을 가지는 다른 엔티티 v를 이용하여 유사 엔티티 시퀀스(v1, v2, …, vn)을 생성한다.
이때, RDF 그래프 임베딩 장치(100)는 현재 엔티티의 이전 정점을 기초로 현재 엔티티 및 다른 엔티티 사이의 구조적 유사성 거리를 산출하고, 구조적 유사성 거리에 따라 다른 엔티티 v를 이용하여 유사 엔티티 시퀀스(v1, v2, …, vn)을 생성한다.
즉, RDF 그래프 임베딩 장치(100)는 구조적 유사성 거리가 특정 거리 이하인 다른 엔티티 v를 이용하여 유사 엔티티 시퀀스(v1, v2, …, vn)을 생성할 수 있다.
그런 다음, RDF 그래프 임베딩 장치(100)는 유사 엔티티 시퀀스(v1, v2, …, vn) 상의 각각의 후보 엔티티의 가중치를 산출한다.
예를 들어, RDF 그래프 임베딩 장치(100)는 유사 엔티티 시퀀스(v1, v2, …, vn) 상의 각각의 후보 엔티티 q1를 추출한 후, 상기의 [수학식 3]을 기초로 현재 엔티티 u가 다음 엔티티 q1으로 이동 가능한 가중치 w(u, q1)를 산출한다.
다른 예를 들어, RDF 그래프 임베딩 장치(100)는 유사 엔티티 시퀀스(v1, v2, …, vn) 상의 각각의 후보 엔티티 q2를 추출한 후, 상기의 [수학식 3]을 기초로 현재 엔티티 u가 다음 엔티티 q2으로 이동 가능한 가중치 w(u, q2)를 산출한다.
상기 후보 엔티티 q1 ~ qn의 가중치를 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하고, 상기 특정 후보 엔티티를 다음 엔티티로 결정한다.
마지막으로, RDF 그래프 임베딩 장치(100)는 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성한다.
예를 들어, RDF 그래프 임베딩 장치(100)는 동일한 깊이 d를 갖는 제1 유사 엔티티 시퀀스 s 및 제2 유사 엔티티 시퀀스 s’그리고 s = <v1-> p1-> v2->…-> vd> 및 s '= <v'1-> p'1-> v 인 특징을 F를 통해 병합 엔티티 시퀀스를 생성한다.
이를 위해, RDF 그래프 임베딩 장치(100)는 유사 엔티티 시퀀스 상에 존재하는 엔티티의 수가 동일한 제1 유사 엔티티 시퀀스 s 및 제2 유사 엔티티 시퀀스 s’각각에 대해서 엔티티의 수 및 미리 결정된 특징에 속하는 엔티티의 수를 이용하여 제1 행렬 및 제2 행렬을 생성한다.
그런 다음, RDF 그래프 임베딩 장치(100)는 제1 행렬 및 상기 제2 행렬을 기초로 동일한 행 또는 열의 값에 따라 해당 값을 이용하여 병합 엔티티 시퀀스를 생성한다.
한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
100: RDF 그래프 임베딩 장치,
110: 구조적 유사성 결정부,
120: 유사 엔티티 시퀀스 생성부,
130: 가중치 산출부
140: 다음 엔티티 결정부,
150: 시퀀스 병합부

Claims (10)

  1. RDF 그래프 임베딩 장치에서 실행되는 RDF 그래프 임베딩 방법에 있어서,
    RDF 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교하는 단계;
    상기 비교 결과에 따라 상기 다른 엔티티를 이용하여 유사 엔티티 시퀀스를 생성하는 단계;
    상기 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출하는 단계;
    상기 후보 엔티티의 가중치를 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하여 다음 엔티티로 결정하는 단계; 및
    상기 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성하는 단계를 포함하는 것을 특징으로 하는
    RDF 그래프 임베딩 방법.
  2. 제1항에 있어서,
    상기 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교하는 단계는
    상기 현재 엔티티 및 다른 엔티티의 에지 레이블, 아웃고잉 엔티티 및 인커밍 엔티티를 기초로 구조적 유사성을 결정하는 단계를 포함하는 것을 특징으로 하는
    RDF 그래프 임베딩 방법.
  3. 제2항에 있어서,
    상기 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교하는 단계는
    상기 현재 엔티티의 이전 정점을 기초로 현재 엔티티 및 다른 엔티티 사이의 구조적 유사성 거리를 산출하는 단계를 포함하는 것을 특징으로 하는
    RDF 그래프 임베딩 방법.
  4. 제1항에 있어서,
    상기 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출하는 단계는
    상기 현재 엔티티 및 다른 엔티티의 에지 레이블, 인커밍의 에지의 수, 아웃고잉의 에지, 상기 후보 엔티티로부터 이동 가능한 엔티티의 수 및 상기 후보 엔티티와 구조적 유사성을 가지는 노드로부터 이동 가능한 엔티티의 수에 따라 상의 각각의 후보 엔티티의 가중치를 산출하는 단계를 포함하는 것을 특징으로 하는
    RDF 그래프 임베딩 방법.
  5. 제1항에 있어서,
    상기 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성하는 단계는
    유사 엔티티 시퀀스 상에 존재하는 엔티티의 수가 동일한 제1 유사 엔티티 시퀀스 및 제2 유사 엔티티 시퀀스 각각에 대해서 엔티티의 수 및 미리 결정된 특징에 속하는 엔티티의 수를 이용하여 제1 행렬 및 제2 행렬을 생성하는 단계;
    상기 제1 행렬 및 상기 제2 행렬을 기초로 동일한 행 또는 열의 값에 따라 해당 값을 이용하여 병합 엔티티 시퀀스를 생성하는 단계를 포함하는 것을 특징으로 하는
    RDF 그래프 임베딩 방법.
  6. RDF 그래프 임베딩 장치에 있어서,
    RDF 그래프 상의 현재 엔티티에 대해 현재 경로에 따라 상기 현재 엔티티의 속성과 상기 현재 엔티티와 연결된 다른 엔티티의 속성을 비교하는 구조적 유사성 결정부;
    상기 비교 결과에 따라 상기 다른 엔티티를 이용하여 유사 엔티티 시퀀스를 생성하는 유사 엔티티 시퀀스 생성부;
    상기 유사 엔티티 시퀀스 상의 각각의 후보 엔티티의 가중치를 산출하는 가중치 산출부;
    상기 후보 엔티티의 가중치를 기초로 상기 유사 엔티티 시퀀스 상의 후보 엔티티 중 특정 후보 엔티티를 추출하고, 상기 특정 후보 엔티티를 다음 엔티티로 결정하는 다음 엔티티 결정부; 및
    상기 유사 엔티티를 포함하는 유사 엔티티 시퀀스를 병합하여 병합 엔티티 시퀀스를 생성하는 시퀀스 병합부를 포함하는 것을 특징으로 하는
    RDF 그래프 임베딩 장치.
  7. 제6항에 있어서,
    상기 구조적 유사성 결정부는
    상기 현재 엔티티 및 다른 엔티티의 에지 레이블, 아웃고잉 엔티티 및 인커밍 엔티티를 기초로 구조적 유사성을 결정하는 것을 특징으로 하는
    RDF 그래프 임베딩 장치.
  8. 제7항에 있어서,
    상기 구조적 유사성 결정부는
    상기 현재 엔티티의 이전 정점을 기초로 현재 엔티티 및 다른 엔티티 사이의 구조적 유사성 거리를 산출하는 것을 특징으로 하는
    RDF 그래프 임베딩 장치.
  9. 제6항에 있어서,
    상기 가중치 산출부는
    상기 현재 엔티티 및 다른 엔티티의 에지 레이블, 인커밍의 에지의 수, 아웃고잉의 에지, 상기 후보 엔티티로부터 이동 가능한 엔티티의 수 및 상기 후보 엔티티와 구조적 유사성을 가지는 노드로부터 이동 가능한 엔티티의 수에 따라 상의 각각의 후보 엔티티의 가중치를 산출하는 것을 특징으로 하는
    RDF 그래프 임베딩 장치.
  10. 제6항에 있어서,
    상기 시퀀스 병합부는
    유사 엔티티 시퀀스 상에 존재하는 엔티티의 수가 동일한 제1 유사 엔티티 시퀀스 및 제2 유사 엔티티 시퀀스 각각에 대해서 엔티티의 수 및 미리 결정된 특징에 속하는 엔티티의 수를 이용하여 제1 행렬 및 제2 행렬을 생성하고, 상기 제1 행렬 및 상기 제2 행렬을 기초로 동일한 행 또는 열의 값에 따라 해당 값을 이용하여 병합 엔티티 시퀀스를 생성하는 것을 특징으로 하는
    RDF 그래프 임베딩 장치.
KR1020200173653A 2020-12-11 2020-12-11 Rdf 그래프 임베딩 방법 및 이를 실행하는 장치 KR102531266B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200173653A KR102531266B1 (ko) 2020-12-11 2020-12-11 Rdf 그래프 임베딩 방법 및 이를 실행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200173653A KR102531266B1 (ko) 2020-12-11 2020-12-11 Rdf 그래프 임베딩 방법 및 이를 실행하는 장치

Publications (2)

Publication Number Publication Date
KR20220083424A true KR20220083424A (ko) 2022-06-20
KR102531266B1 KR102531266B1 (ko) 2023-05-10

Family

ID=82257833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200173653A KR102531266B1 (ko) 2020-12-11 2020-12-11 Rdf 그래프 임베딩 방법 및 이를 실행하는 장치

Country Status (1)

Country Link
KR (1) KR102531266B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120097840A (ko) * 2011-02-25 2012-09-05 주식회사 솔트룩스 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체
KR20170045135A (ko) * 2015-10-16 2017-04-26 바이두 유에스에이 엘엘씨 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법
KR20180092194A (ko) * 2017-02-08 2018-08-17 경북대학교 산학협력단 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
KR102098255B1 (ko) * 2018-11-30 2020-04-07 주식회사 솔트룩스 지식 임베딩 기반 지식 보강 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120097840A (ko) * 2011-02-25 2012-09-05 주식회사 솔트룩스 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체
KR20170045135A (ko) * 2015-10-16 2017-04-26 바이두 유에스에이 엘엘씨 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법
KR20180092194A (ko) * 2017-02-08 2018-08-17 경북대학교 산학협력단 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체
KR102098255B1 (ko) * 2018-11-30 2020-04-07 주식회사 솔트룩스 지식 임베딩 기반 지식 보강 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Duong et al. "Bias Walk Based RDF Entity Embeddings." 한국정보과학회 학술발표논문집 (2019): 178-180.* *
Ristoski et al. "RDF2Vec: RDF graph embeddings and their applications." Semantic Web 10.4 (2019): 721-752. *

Also Published As

Publication number Publication date
KR102531266B1 (ko) 2023-05-10

Similar Documents

Publication Publication Date Title
US7660804B2 (en) Joint optimization of wrapper generation and template detection
KR100963623B1 (ko) 시맨틱 웹 자원의 랭킹처리방법
Fan et al. Answering graph pattern queries using views
KR20180041200A (ko) 정보 처리 방법 및 장치
US7877376B2 (en) Supporting aggregate expressions in query rewrite
US20030167445A1 (en) Method and system of document transformation between a source extensible markup language (XML) schema and a target XML schema
Meimaris et al. Extended characteristic sets: graph indexing for SPARQL query optimization
CN103838857B (zh) 一种基于语义的自动服务组合系统及方法
CN103559320B (zh) 对异质网络中对象进行排序的方法
US20220083879A1 (en) Inferring a comparative advantage of multi-knowledge representations
US20240061875A1 (en) Identifying content items in response to a text-based request
CN109284086A (zh) 面向需求自适应的Web服务动态演化方法
WO2021190091A1 (zh) 基于知识节点所属度的知识图谱构建方法和装置
CN107025263A (zh) 用于数据库语句的语句解析方法
CN110119478A (zh) 一种结合多种用户反馈数据的基于相似度的物品推荐方法
KR20130064160A (ko) Rdf 데이터에 대한 sparql 질의 결과의 개체 관계 변형 시스템 및 그 방법
CN116186256A (zh) 一种基于网络嵌入和预训练模型的新概念义原预测方法
US20230072311A1 (en) Apparatus and method for transforming unstructured data sources into both relational entities and machine learning models that support structured query language queries
CN107463671B (zh) 路径查询的方法和装置
CN106933844B (zh) 面向大规模rdf数据的可达性查询索引的构建方法
KR102531266B1 (ko) Rdf 그래프 임베딩 방법 및 이를 실행하는 장치
US8407209B2 (en) Utilizing path IDs for name and namespace searches
CN116150371A (zh) 基于shardingJDBC的资产还款计划海量数据处理方法
CN114385576B (zh) 基于业务需求数据流图的云计算微服务划分方法和系统
CN105868167B (zh) 一种多层嵌套的json格式数据的命名解析方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant