KR102177940B1

KR102177940B1 - 다중 간선 라벨 그래프의 정점들 간 관련도를 측정하는 방법 및 장치

Info

Publication number: KR102177940B1
Application number: KR1020180150180A
Authority: KR
Inventors: 강유; 정진홍; 진우정; 박하명
Original assignee: 서울대학교산학협력단
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2020-11-12
Also published as: KR20200063904A

Abstract

간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서, 정점들 간 관련도를 측정하는 방법은, 상기 그래프에 포함되는 정점들 사이를 서퍼(surfer)가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 단계, 상기 그래프의 인접 행렬을 각각의 간선 라벨에 대해서 정규화하는 단계 및 상기 규칙을 학습한 결과와 상기 정규화된 인접 행렬을 이용하고, 반복적 기법을 통해 점수 행렬을 산출하는 단계를 포함한다.

Description

다중 간선 라벨 그래프의 정점들 간 관련도를 측정하는 방법 및 장치 {METHOD AND APPARATUS FOR MEASURING RELEVANCE BETWEEN NODES OF EDGE-LABELED MULTIGRAPH}

본 명세서에서 개시되는 실시예들은 간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에 있어서, 라벨을 반영하여 정점들 간 관련도를 측정하는 방법 및 장치에 관한 것이다.

최근 온라인 네트워크 상에서의 링크 예측, 추천 시스템, 이상 탐지 및 커뮤니티 탐지 등을 위해 그래프에 포함된 정점들 간 관련도(relevance)를 측정하는 기술의 중요성이 높아지고 있다.

정점과 간선으로 이루어진 그래프에서 정점들 간 관련도를 측정하기 위한 방법으로서 RWR (Random Walk with Restart) 기법이 널리 활용되고 있는데, 이 기법은 그래프의 구조에 기초하여 정점들 간 관련도를 측정한다.

실제로 사용되는 많은 그래프들은 간선에 정점들 간 관계를 나타내는 라벨(label)이 부여되는데, RWR 기법에 따를 경우 그래프의 구조만을 고려하기 때문에 정점들 간 관련도 측정시 라벨이 반영되지 않는 문제점이 있다.

즉, 기존의 RWR 기법에 따를 경우 두 정점이 서로 관련이 있다는 점만 알아낼 수 있을 뿐, 구체적으로 어떠한 관계를 가지는지 파악할 수 없는 한계가 있다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은, 간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서 정점들 간 관련도를 측정함에 있어서, 간선에 부여된 라벨을 반영함으로써 정점들이 어떠한 관계를 갖는지 파악할 수 있도록 하는 방법 및 장치를 제공하고자 한다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서, 정점들 간 관련도를 측정하는 방법은, 상기 그래프에 포함되는 정점들 사이를 서퍼(surfer)가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 단계, 상기 그래프의 인접 행렬을 각각의 간선 라벨에 대해서 정규화하는 단계 및 상기 규칙을 학습한 결과와 상기 정규화된 인접 행렬을 이용하고, 반복적 기법을 통해 점수 행렬을 산출하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서, 정점들 간 관련도를 측정하는 방법을 수행하기 위한 컴퓨터 프로그램으로서, 관련도를 측정하는 방법은, 상기 그래프에 포함되는 정점들 사이를 서퍼(surfer)가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 단계, 상기 그래프의 인접 행렬을 각각의 간선 라벨에 대해서 정규화하는 단계 및 상기 규칙을 학습한 결과와 상기 정규화된 인접 행렬을 이용하고, 반복적 기법을 통해 점수 행렬을 산출하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서, 정점들 간 관련도를 측정하는 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 관련도를 측정하는 방법은, 상기 그래프에 포함되는 정점들 사이를 서퍼(surfer)가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 단계, 상기 그래프의 인접 행렬을 각각의 간선 라벨에 대해서 정규화하는 단계 및 상기 규칙을 학습한 결과와 상기 정규화된 인접 행렬을 이용하고, 반복적 기법을 통해 점수 행렬을 산출하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서, 정점들 간 관련도를 측정하기 위한 장치는, 관련도 측정의 대상이 되는 그래프에 대한 정보를 수신하기 위한 통신부, 상기 그래프의 정점들 간 관련도를 측정하기 위한 프로그램이 저장되는 저장부 및 상기 프로그램을 실행함으로써 그래프의 정점들 간 관련도를 측정하는 제어부를 포함하며, 상기 제어부는, 상기 그래프에 포함되는 정점들 사이를 서퍼(surfer)가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하고, 상기 그래프의 인접 행렬을 각각의 간선 라벨에 대해서 정규화하고, 상기 규칙을 학습한 결과와 상기 정규화된 인접 행렬을 이용하고 반복적 기법을 통해 점수 행렬을 산출할 수 있다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 그래프의 정점들 간 관련도 측정 시 각 간선을 통해 연결되는 두 정점들 간 관계를 나타내는 라벨을 반영하므로, 관련도 측정의 대상이 되는 두 정점들 간에 어떠한 관계가 있는지도 파악할 수 있는 효과를 기대할 수 있다.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 그래프에 RWR 기법을 적용하여 정점들 간 관련도를 산출하는 예를 도시한 도면이다.
도 2는 일 실시예에 따른 그래프의 정점들 간 관련도를 측정하는 장치를 도시한 도면이다.
도 3은 일 실시예에 따른 그래프의 정점들 간 관련도를 측정하는 방법을 설명하기 위한 순서도이다.
도 4 및 도 5는 일 실시예에 따라 간선에 라벨이 부여된 그래프에서 서퍼가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 과정을 설명하기 위한 도면들이다.
도 6은 일 실시예에 따라 간선에 라벨이 부여된 그래프에서 서퍼가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 과정을 설명하기 위한 순서도이다.
도 7은 일 실시예에 따라 그래프의 라벨이 반영된 인접 행렬을 정규화하는 과정을 설명하기 위한 순서도이다.
도 8은 일 실시예에 따라 반복적 기법을 통해 점수 행렬을 산출하는 과정을 설명하기 위한 순서도이다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.

본 명세서에서는 간선에 정점들 간 관계를 나타내는 라벨(label)이 부여된 그래프에 있어서, 라벨을 반영하여 정점들 간 관련도(relevance)를 측정하기 위한 LRWR(Labeled Random Walk with Restart) 기법을 소개하며, LRWR 기법이 활용되는 실시예들에 대해서 설명한다. LRWR 기법을 이용할 경우 그래프의 정보를 활용하여 임의의 두 정점들 간 관례를 추론할 수 있다.

LRWR 기법은 대표적인 정점들 간 관련도 측정 기법인 RWR(Random Walk with Restart) 기법을 기반으로 하므로, 이하에서는 먼저 RWR 기법에 대해서 설명한다.

그래프 마이닝이란 그래프 속에서 유용한 정보를 발견하는 작업을 의미한다. 그리고, 그래프 랭킹 기법이란 그래프 마이닝을 수행하기 위한 기법 중 하나로서, 정점(node)과 간선(edge)으로 이루어진 그래프에서 정점들의 중요도를 구하거나 정점들간의 근접도를 구할 수 있는 기법이다. 그래프 랭킹 기법으로서 랜덤 워크에 기반한 RWR 기법이 많이 사용되는데, RWR 기법에 대해서는 도 1을 참조하여 자세히 설명한다.

도 1은 그래프에 RWR 기법을 적용하여 정점들 간 관련도를 산출하는 예를 도시한 도면이다. 도 1에는 12개의 정점들 및 정점들을 연결하는 간선들로 구성된 그래프가 도시되었다. 각각의 정점에는 정점 번호가 1부터 12까지 할당되어 있다. RWR 기법이란 그래프에 포함된 복수의 정점들 중에서 어느 하나의 정점을 시작 정점(또는 시드 정점 - seed node)로 정하고, 시작 정점으로부터 출발하여 이동하는 가상의 인물인 랜덤 서퍼(random surfer)(1)(이하, 서퍼)가 다른 정점들에 도달할 확률을 점수로 계산하는 기법이다. RWR 기법에 의해 산출된 점수(RWR 점수)는 시작 정점과 다른 정점 간 관련도의 정도를 나타내며, 점수가 높을수록 두 정점들 간 관련도가 높음을 의미한다.

도 1에서는 4번 정점을 시작 정점으로 선택하였다. 서퍼(1)는 시작 정점인 4번 정점에서 출발하여 랜덤 워크 또는 재시작 중 어느 하나의 행동을 수행한다. 예를 들어, 서퍼(1)는 1번, 3번 또는 5번 정점 중 어느 하나의 정점으로 이동하는 행동(랜덤 워크)을 수행하거나, 4번 정점으로 돌아가는 행동(재시작)을 수행할 수 있다. 또한, 서퍼(1)가 몇 번의 이동을 거쳐서 9번 정점에 도달했다면, 다음 동작으로서 8번 또는 10번 정점 중 어느 하나의 정점으로 이동하는 행동(랜덤 워크)을 수행하거나, 4번 정점으로 돌아가는 행동(재시작)을 수행할 수 있다.

즉, 서퍼(1)는 한 번 이동할 때마다 바로 이웃한 정점으로 이동(랜덤 워크)하거나, 시작 정점으로 이동(재시작)한다. 이때, 서퍼(1)가 재시작을 수행할 확률을 c라고 하면, 랜덤 워크를 수행할 확률은 (1-c)가 된다.

정점들 각각에 서퍼(1)가 도달할 확률을 RWR 점수라고 하고, 정점들 각각에 대한 RWR 점수로 구성되는 열벡터(column vector) r을 RWR 점수 벡터라고 한다. 또한, 그래프를 나타내는 인접 행렬(adjacency matrix)을 A라고 하면, RWR 점수 벡터 r은 다음과 같은 수식으로 나타낼 수 있다.

이때, q는 시작 정점에 대응되는 원소의 값이 1이고, 나머지 원소들은 모두 0인 열벡터이다. 또한,

는 각 행의 원소의 합이 1이 되도록 정규화된 인접 행렬이다. 수학식 1로부터 다음의 수학식 2를 얻을 수 있다.

따라서,

를 H라고 한다면, RWR 점수 벡터 r은 다음의 수학식 3과 같은 선형 시스템의 해로 구할 수 있다.

RWR 점수 벡터 r를 구하는 방법은 반복적 기법(iterative approach)과 전처리 기법(preprocessing approach)이 있다. 이하에서는 각 기법에 대해서 설명한다.

우선, 반복적 기법은 r에 대한 임의의 초기값에 대해서 수학식 1을 반복적으로 적용하여 r의 값이 일정 범위 내로 수렴하도록 하는 방식이다. 따라서, 반복적 기법은 다음의 수학식 4로 표현된다.

이때, i는 계산을 반복 수행한 횟수를 의미한다. 초기값인 r⁽⁰⁾로부터 시작하여, 다음의 수학식 5를 만족할 때까지 수학식 4를 반복 적용할 수 있다. 물론, 수학식 5는 수렴 조건의 한 예로서, 수렴 조건을 다르게 설정하는 것도 가능하다. 이때,

는 허용 오차 (error tolerance) 또는 수렴 문턱값이라 한다.

이번에는 전처리 기법에 대해서 설명한다. 전처리 기법은 RWR 점수를 구하기 위한 대부분의 계산을 미리 수행해놓고, 시작 정점이 선택되면 미리 준비된 전처리 결과에 선택된 시작 정점을 대입하는 방식이다. 구체적으로, 수학식 3으로부터 다음의 수학식 6을 얻을 수 있고, 따라서 H의 역행렬을 구한다면 시작 정점이 변경되더라도 RWR 점수 벡터 r을 빠르게 구할 수 있다.

이하에서 설명되는 LRWR 기법은 앞서 설명된 RWR 기법의 반복적 기법을 기반으로 한다.

LRWR 기법은 정점과 간선으로 이루어진 그래프에서 간선에 정점들 간 관계를 나타내는 라벨이 있을 때, 두 정점들 간 관계를 효과적으로 파악할 수 있는 방법을 제시한다. 즉, LRWR 기법의 목적은 정점들 간 관련도 점수(relevance score)에 간선의 라벨을 반영하는 것이다.

이를 위해 LRWR 기법은, 1) 서퍼가 시작 정점과 현재 방문하는 정점 간 관계를 나타내는 라벨을 갖도록 하고, 2) 서퍼가 랜덤 워크를 수행하면서 이동하는 경로에 포함된 간선의 라벨에 따라서 서퍼의 라벨이 변경되도록 함으로써 다중-홉 관계 추론(multi-hop relational reasoning)을 가능하게 하며, 3) 올바른 추론을 하기 위해 서퍼가 이동함에 따라 서퍼의 라벨이 어떻게 변경되는지를 그래프로부터 학습한다.

도 2는 일 실시예에 따른 그래프의 정점들 간 관련도를 측정하는 장치를 도시한 도면이다. 일 실시예에 따른 관련도 측정 장치(100)는 통신부(110), 제어부(120) 및 저장부(130)를 포함할 수 있다.

통신부(110)는 인터넷 등의 네트워크와 통신을 수행하기 위한 구성으로서 이더넷 통신 및 무선 LAN 통신 등을 지원하는 통신 칩셋으로 구성될 수 있다. 관련도 측정 장치(100)는 통신부(110)를 통해 외부로부터 관련도 측정의 대상이 되는 그래프에 대한 정보를 수신할 수 있다.

제어부(120)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 관련도 측정 장치(100)의 전반적인 동작을 제어한다. 특히, 제어부(120)는 저장부(130)에 저장된 프로그램을 실행함으로써, LRWR 기법을 적용하여 그래프의 정점들 간 관련도를 측정한다. 제어부(120)가 그래프의 정점들 간 관련도를 측정하는 구체적인 방법은 아래에서 도 3 내지 도 8을 참조하여 설명한다.

저장부(130)에는 다양항 종류의 프로그램 및 데이터가 저장될 수 있다. 특히, 저장부(130)에는 LRWR 기법을 적용하여 그래프의 정점들 간 관련도를 측정하기 위한 프로그램이 저장되어 제어부(120)에 의해 실행될 수 있다.

이하에서는, 도 3 내지 도 8을 참조하여, 관련도 측정 장치(100)가 간선에 라벨이 부여된 그래프로부터 정점들 간 관련도를 측정하는 과정에 대해서 자세히 설명한다.

도 3은 일 실시예에 따른 그래프의 정점들 간 관련도를 측정하는 방법을 설명하기 위한 순서도이다.

도 3을 참조하면, 관련도 측정 장치(100)의 제어부(120)는 301 단계에서 그래프에 포함되는 정점들 사이를 서퍼가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습한다. 301 단계를 수행하는 자세한 과정은 아래에서 도 4 내지 도 6을 참조하여 설명한다.

302 단계에서 제어부(120)는 그래프의 인접 행렬을 각각의 라벨에 대해서 정규화한다. 302 단계를 수행하는 자세한 과정은 아래에서 도 7을 참조하여 설명한다.

303 단계에서 제어부(120)는 301 단계의 학습 결과와 302 단계에서 정규화된 인접 행렬을 이용하고, 반복적 기법을 통해 점수 행렬을 산출한다. 303 단계를 수행하는 자세한 과정은 아래에서 도 8을 참조하여 설명한다.

먼저, 301 단계에서 제어부(120)가 서퍼의 라벨이 변경되는 규칙을 학습하는 과정에 대해서 도 4 내지 도 6을 참조하여 자세히 설명한다.

도 4 및 도 5는 일 실시예에 따라 간선에 라벨이 부여된 그래프에서 서퍼가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 과정을 설명하기 위한 도면들이다.

도 4에 도시된 그래프에는 간선들에 “childOf”, “grandchildOf” 및 “spouseOf”의 라벨 중 어느 하나가 부여되었다. 서퍼는 시작 정점 s에서는 라벨을 갖지 않지만, 간선을 따라 다른 정점으로 이동하면서 라벨을 갖게 되고, 서퍼의 라벨은 서퍼가 이동함에 따라 변경될 수 있다.

도 4에 도시된 그래프에서는 다음과 같은 2가지 규칙이 있다고 가정한다.

규칙 1: “childOf”의 라벨을 갖는 서퍼가 “childOf”의 라벨을 갖는 간선을 따라 이동하면 서퍼의 라벨이 “grandchildOf”로 변경됨.

규칙 2: “grandchildOf”의 라벨을 갖는 서퍼가 “spouseOf”의 라벨을 갖는 간선을 따라 이동하면 서퍼의 라벨은 변경되지 않음.

도 4의 (a)에서 서퍼가 시작 정점(source node, s)으로부터 목표 정점(target node, t)까지 이동하는 경로를 살펴보면, 서퍼는 시작 정점 s에서는 라벨을 갖지 않고, “childOf” 라벨을 갖는 간선을 따라 정점 u로 이동하면 “childOf” 라벨을 갖게된다.

또한, 서퍼는 정점 u에서 정점 v로 이동하면 규칙 1에 따라서 “grandchildOf”의 라벨을 갖게된다.

또한, 서퍼는 정점 v에서 목표 정점 t로 이동하면 규칙 2에 따라서 “grandchildOf”의 라벨을 그대로 유지한다.

따라서, 시작 정점 s와 목표 정점 t 간에는 “grandchildOf”의 관계가 있음을 알 수 있다.

이와 같이 정해진 규칙에 따라서 다중-홉 관계 추론(multi-hop relational reasoning)을 통해 이동한 서퍼의 라벨을 결정할 수 있고, 따라서 서퍼의 라벨이 변경되는 규칙을 학습한다면 서퍼의 이동 경로에 간선의 라벨을 반영할 수 있다.

한편, 위에서 가정한 2가지 규칙은 도면 4의 (b) 및 (c)에 도시된 바와 같이 라벨 전이 삼각형(label transitive triangle)으로부터 도출될 수 있다.

위와 같은 다중-홉 관계 추론을 위한 규칙을 알아내기 위해 주어진 그래프로부터 라벨 전이 삼각형을 추출하여 그래프에 포함된 지식을 추출해낼 수 있는 자료 주도적 접근(data-driven approach)을 이용하는 방법을 설명하면 다음과 같다.

도 5의 (a)에 도시된 라벨 전이 삼각형으로부터, 도 5의 (c)에 도시된 라벨 전이 관찰(label transition observation)을 도출할 수 있다. 이때,

이라는 라벨 전이 관찰은 라벨

를 갖는 서퍼가 라벨

의 간선을 따라 이동하면 서퍼의 라벨이

로 변경됨을 의미한다.

라벨 전이 삼각형으로부터 라벨 전이 관찰을 도출하는 구체적인 과정을 설명하면 다음과 같다.

도 5의 (b)에서 확인할 수 있는 바와 같이 라벨이 없는 서퍼가 정점 x로부터 라벨

를 갖는 간선을 따라 정점 y로 이동하면 서퍼는 라벨

를 갖게되고, 이와 유사하게 서퍼가 정점 x로부터 라벨

를 갖는 간선을 따라 정점 z로 이동하면 서퍼는 라벨

를 갖게된다. 따라서, 라벨

를 갖는 서퍼가 라벨

를 갖는 간선을 따라 이동하면 서퍼의 라벨이

로 변경된다는 라벨 전이 관찰을 도 5의 (a)에 도시된 라벨 전이 삼각형으로부터 도출할 수 있다.

한편, 라벨 전이 관찰로부터 서퍼의 라벨이 변경되는 규칙을 얻을 수 있는데, 그 과정을 자세히 설명하면 다음과 같다.

먼저, 삼각형 열거 알고리즘(triangle enumeration algorithm)을 이용하여 그래프로부터 모든 라벨 전이 삼각형을 추출하고, 추출된 라벨 전이 삼각형들로부터 라벨 전이 관찰을 도출한다.

라벨 전이 관찰과 라벨 가중치(label weight)

에 기반하여 최대 가중 우도 추정(Maximum Weighted Likelihood Estimation, 이하 MWLE)을 적용하여 라벨 전이 확률 행렬(label transition probability matrix)

를 산출할 수 있다.

는 라벨

에 대한 라벨 전이 확률 행렬이며,

의

번째 원소인

의 값은

이다. 이때,

는 라벨 전이 확률(label transition probability)로서 라벨

를 갖는 서퍼가 라벨

의 간선을 따라 이동할 경우 서퍼의 라벨이

로 변경될 확률을 의미한다. 따라서, 다음의 수학식 7과 같은 관계가 성립된다.

라벨 전이 관찰들을 만드는 우도 함수(likelihood function)를 최대화하는 라벨 전이 확률

를 학습하기 위해 다음과 같은 과정을 거친다.

먼저, 다음의 수학식 8과 같이 표현되는 라벨 전이 관찰들의

세트가 주어진다고 가정한다.

이때,

는

에 포함된 라벨 전이 관찰들의 개수이고,

는 라벨 전이 관찰

을 의미한다. 또한,

는 시작 정점에서의 서퍼의 라벨이고,

는 목표 정점에서의 서퍼의 라벨이다. 즉,

는 서퍼가 시작 정점에서 목표 정점까지 이동했을 때 라벨

를 갖게 되는 라벨 전이 관찰을 의미한다.

한편,

는 파라미터

와 관련된

의 확률이라고 하면, 로그-우도 함수(log-likelihood function)

는 다음의 수학식 9와 같이 표현된다.

그런데, 지식 그래프와 같은 많은 네트워크에 있어서 노이즈나 이상점(outlier)에 민감하게 되므로

의 값을 최대화하는 것은 만족스럽지 않은 결과를 가져올 수 있다.

이러한 문제를 해결하기 위해, 최대 가중 우도 추정(Maximum Weighted Likelihood Estimation, 이하 MWLE) 기법을 이용하여 각각의 라벨 전이 관찰에 대해서

의 중요도를 변경하도록 가중치를 부여할 수 있다. 라벨 가중치(label weight)

는

에 따라서

의 중요도를 부여하는 값이다.

가중 로그-우도 함수(weighted log-likelihood function)

는 다음의 수학식 10과 같이 정의된다.

다음의 수학식 11로 정의되는

는

의 값을 최대화한다.

이때,

는

인 라벨 전이 관찰의 수를 의미하며, 다음의 수학식 12로 나타낼 수 있다.

이때,

은 괄호 안의 조건이 맞다면 1의 값을 갖고, 그렇지 않다면 0의 값을 갖는 함수이다.

이와 같이,

는

및

에 의해 결정됨을 알 수 있다.

만약, 모든

의 값을 1로 놓으면,

는 단지 주어진 라벨 전이 관찰들에 의해서만 결정된다. 또한, 만약

의 값을 높게 설정한다면, 서퍼의 라벨이

로 변경될 확률이 높아진다. 따라서, 최적의 성능을 낼 수 있도록 하는 적절한

의 값을 설정할 필요가 있다.

이하에서는 도 6을 참조하여 서퍼의 라벨이 변경되는 규칙을 학습하는 과정, 즉 라벨 전이 확률 행렬을 산출하는 과정을 순서에 따라 설명한다.

도 6은 일 실시예에 따라 간선에 라벨이 부여된 그래프에서 서퍼가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 과정을 설명하기 위한 순서도이며, 도 3의 301 단계의 구체적인 단계들을 포함한다.

601 단계에서 제어부(120)는 그래프의 간선에 부여된 라벨을 반영한 인접 행렬

및 라벨 가중치

를 입력받는다. 이때, 인접 행렬

는 그래프의 간선에 부여된 라벨이 반영된 인접 행렬로서 라벨드 인접 행렬(labeled adjacency matrix)라고도 한다.

그래프로부터 라벨드 인접 행렬

를 추출하는 과정을 설명하면 다음과 같다.

간선에 라벨이 부여된 그래프를

라고 하고,

가

세트의 정점들과

세트의 간선들로 이루어진다고 하면,

은 간선 라벨들의 세트를 의미한다. 예를 들어

은

으로 표현되고, 이때

는 k번째 라벨이고,

는 간선 라벨들의 개수이다.

및

가 각각

에 포함되는 정점이고,

가

에서

로 연결되는 간선이라고 하면,

의 라벨은

이다. (

,

)

이때,

의 라벨드 인접 행렬

는,

로부터

로 연결되는 간선이 있다면 원소

의 값이

이고,

로부터

로 연결되는 간선이 없다면 원소

의 값이 0이 되는 희소 행렬(sparse matrix)이다.

602 단계에서 제어부(120)는 삼각형 열거 알고리즘(triangle enumeration algorithm)을 이용하여, 601 단계에서 입력된 인접 행렬

에 대응되는 그래프로부터 모든 라벨 전이 삼각형(label transitive triangle)을 추출하여 열거한다.

603 단계에서 제어부(120)는 추출된 라벨 전이 삼각형과 라벨 가중치

를 기반으로 MWLE를 적용하여 각각의 간선 라벨

에 대한 라벨 전이 확률

를 산출한다.

한편, LRWR 기법을 이용하여 점수 행렬을 구하기 위해서는 각각의 간선 라벨

에 대한 인접 행렬

를 구한 뒤 정규화하는 과정이 필요하다. 이하에서는 도 7을 참조하여 인접 행렬을 정규화하는 과정에 대해서 설명한다.

도 7은 일 실시예에 따라 그래프의 라벨이 반영된 인접 행렬을 정규화하는 과정을 설명하기 위한 순서도이다.

도 7을 참조하면, 701 단계에서 제어부(120)는 그래프의 간선에 부여된 라벨을 반영한 인접 행렬

를 입력받는다. 라벨드 인접 행렬 를 구하는 방법은 앞서 도 6의 601 단계에서 설명한 바와 같다.

702 단계에서 제어부(120)는 각각의 라벨

에 대해서 준-인접 행렬(labeled semi-adjacency matrix)

를 산출한다. 이때 준-인접 행렬

는, 간선

의 라벨이

이면 원소

의 값이 1이고, 그 외의 경우에는

의 값이 0인 행렬이다. (

는 행렬

의 (u, v)번째 원소)

703 단계에서 제어부(120)는 라벨드 인접 행렬 로부터 연결 차수 행렬(out-degree diagonal matrix)

를 산출한다. 이때 연결 차수 행렬

는, 원소

의 값이 정점

로부터 나가는 간선의 개수, 즉 정점 u의 연결 차수(out-degree)인 행렬이다. 연결 차수 행렬

는 다음의 수학식 13 및 수학식 14를 통해 구할 수 있다.

704 단계에서 제어부(120)는 연결 차수 행렬

를 이용하여, 각 간선 라벨

에 대한 준-행-정규화 행렬(labeled semi-row-normalized matrix)

를 산출한다. 제어부(120)는 다음의 수학식 15에 연결 차수 행렬

및 준-인접 행렬

를 대입함으로써

를 구할 수 있다.

이상에서 설명한 과정들에 따라서 각 간선 라벨

에 대한 정규화된 인접 행렬(준-행-정규화 행렬)인

와, 라벨 전이 확률 행렬

가 산출되었다면, 반복적 기법을 이용함으로써 점수 행렬

을 구할 수 있다.

이하에서는 도 8을 참조하여 반복적 기법을 통해 점수 행렬

을 산출하는 과정에 대해서 설명한다.

도 8을 참조하면, 801 단계에서 제어부(120)는 각 간선 라벨

에 대해서 정규화된 인접 행렬

및 라벨 전이 확률 행렬

, 시작 정점

, 재시작 확률

, 및 수렴 문턱값

를 입력받는다.

802 단계에서 제어부(120)는 입력된 시작 정점

를 반영하여 시작 행렬

를 생성하고,

와 같이 점수 행렬을 시작 행렬로 초기화한다. 시작 행렬

는

번째 원소만 1이고, 나머지 원소는 모두 0인 행렬이다. 이때,

는 시작 정점에 대응되는 인덱스 값이고,

는 더미 라벨(dummy label)

를 가리키는 인덱스 값이다.

803 단계에서 제어부(120)는 정규화된 인접 행렬

, 라벨 전이 확률 행렬

및 시작 행렬

를 다음의 수학식 16에 대입하고 반복 계산을 수행한다.

이때, t는 반복 계산을 수행한 횟수를 의미한다. 또한,

의 원소

는 t번 계산 반복시 라벨

에 대한 시작 정점

와 정점

사이의 점수이며, 다르게 설명하면 랜덤 워크를 t번 반복했을 때 시작 정점

를 출발한 서퍼가 정점

에 도달하여 라벨

를 가질 확률이다.

804 단계에서 제어부(120)는 반복 계산을 통해 점수 행렬이 수렴하는지 여부를 판단한다. 다시 말해, 제어부(120)는

와

간 차이의 크기가 수렴 문턱값

보다 작아질 때까지 반복 계산을 수행하고, 차이가

보다 작아지면 점수 행렬이 수렴한 것으로 판단하고 805 단계로 진행하여 수렴된 점수 행렬을 출력한다.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.

도 3 내지 도 8를 통해 설명된 실시예에 따른 다중 간선 라벨 그래프의 정점들 간 관련도를 측정하는 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.

또한 도 3 내지 도 8를 통해 설명된 실시예에 따른 다중 간선 라벨 그래프의 정점들 간 관련도를 측정하는 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 도 3 내지 도 8를 통해 설명된 실시예에 따른 다중 간선 라벨 그래프의 정점들 간 관련도를 측정하는 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

100: 관련도 측정 장치 110: 통신부
120: 제어부 130: 저장부

Claims

간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서, 정점들 간 관련도를 측정하는 방법에 있어서,
상기 그래프에 포함되는 정점들 사이를 서퍼(surfer)가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하는 단계;
상기 그래프의 인접 행렬을 각각의 간선 라벨에 대해서 정규화하는 단계; 및
상기 규칙을 학습한 결과와 상기 정규화된 인접 행렬을 이용하고, 반복적 기법을 통해 점수 행렬을 산출하는 단계를 포함하며,
상기 서퍼의 라벨이 변경되는 규칙을 학습하는 단계는,
상기 그래프로부터 라벨 전이 삼각형들을 추출하고, 상기 추출된 라벨 전이 삼각형들을 이용하여 라벨 전이 확률을 산출하는 것을 특징으로 하며,
상기 라벨 전이 삼각형은 세 개의 정점들과, 상기 정점들을 서로 연결하며 각각 라벨이 부여된 간선들로 이루어진 단위 그래프이며,
상기 라벨 전이 확률은 제1 라벨을 갖는 서퍼가 제2 라벨이 부여된 간선을 따라 이동할 경우 상기 서퍼의 라벨이 제3 라벨로 변경될 확률을 의미하는, 방법.
제1항에 있어서,
상기 서퍼의 라벨이 변경되는 규칙을 학습하는 단계는,
상기 그래프의 간선에 부여된 라벨을 반영한 인접 행렬 및 라벨 가중치를 입력받는 단계;
상기 그래프로부터 상기 라벨 전이 삼각형들을 추출하여 열거하는 단계; 및
상기 라벨 전이 삼각형과 상기 라벨 가중치를 기반으로 최대 가중 우도 추정을 적용하여 각각의 간선 라벨에 대한 라벨 전이 확률 행렬을 산출하는 단계를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 정규화하는 단계는,
상기 그래프의 간선에 부여된 라벨을 반영한 인접 행렬을 입력받는 단계;
각각의 간선 라벨에 대해서 준-인접 행렬을 산출하는 단계;
상기 인접 행렬로부터 연결 차수 행렬을 산출하는 단계; 및
상기 연결 차수 행렬을 이용하여 각각의 간선 라벨에 대한 준-행-정규화 행렬을 산출하는 단계를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 반복적 기법을 통해 점수 행렬을 산출하는 단계는,
상기 각각의 간선 라벨에 대한 준-행-정규화 행렬 및 라벨 전이 확률 행렬, 시작 정점, 재시작 확률 및 수렴 문턱값을 입력받는 단계;
상기 시작 정점에 따라서 시작 행렬을 생성하고, 상기 점수 행렬을 상기 시작 행렬로 초기화하는 단계;
상기 준-행-정규화 행렬, 상기 라벨 전이 확률 행렬 및 상기 시작 행렬을 이용하여 점수 행렬 계산을 반복적으로 수행하는 단계;
상기 수렴 문턱값을 기준으로 상기 점수 행렬이 수렴하는지 여부를 판단하는 단계; 및
상기 점수 행렬이 수렴한다면, 수렴된 점수 행렬을 출력하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
관련도 측정 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
간선에 정점들 간 관계를 나타내는 라벨이 부여된 그래프에서, 정점들 간 관련도를 측정하기 위한 장치에 있어서,
관련도 측정의 대상이 되는 그래프에 대한 정보를 수신하기 위한 통신부;
상기 그래프의 정점들 간 관련도를 측정하기 위한 프로그램이 저장되는 저장부; 및
상기 프로그램을 실행함으로써 그래프의 정점들 간 관련도를 측정하는 제어부를 포함하며,
상기 제어부는, 상기 그래프에 포함되는 정점들 사이를 서퍼(surfer)가 이동함에 따라 서퍼의 라벨이 변경되는 규칙을 학습하고, 상기 그래프의 인접 행렬을 각각의 간선 라벨에 대해서 정규화하고, 상기 규칙을 학습한 결과와 상기 정규화된 인접 행렬을 이용하고 반복적 기법을 통해 점수 행렬을 산출하며,
상기 제어부는 상기 서퍼의 라벨이 변경되는 규칙을 학습함에 있어서, 상기 그래프로부터 라벨 전이 삼각형들을 추출하고, 상기 추출된 라벨 전이 삼각형들을 이용하여 라벨 전이 확률을 산출하는 것을 특징으로 하며,
상기 라벨 전이 삼각형은 세 개의 정점들과, 상기 정점들을 서로 연결하며 각각 라벨이 부여된 간선들로 이루어진 단위 그래프이며,
상기 라벨 전이 확률은 제1 라벨을 갖는 서퍼가 제2 라벨이 부여된 간선을 따라 이동할 경우 상기 서퍼의 라벨이 제3 라벨로 변경될 확률을 의미하는, 장치.
제7항에 있어서,
상기 제어부는,
상기 그래프의 간선에 부여된 라벨을 반영한 인접 행렬 및 라벨 가중치를 입력받으면, 상기 그래프로부터 상기 라벨 전이 삼각형들을 추출하여 열거하고, 상기 라벨 전이 삼각형과 상기 라벨 가중치를 기반으로 최대 가중 우도 추정을 적용하여 각각의 간선 라벨에 대한 라벨 전이 확률 행렬을 산출하는 것을 특징으로 하는 장치.
제8항에 있어서,
상기 제어부는,
상기 그래프의 간선에 부여된 라벨을 반영한 인접 행렬을 입력받으면, 각각의 간선 라벨에 대해서 준-인접 행렬을 산출한 후, 상기 인접 행렬로부터 연결 차수 행렬을 산출하고, 상기 연결 차수 행렬을 이용하여 각각의 간선 라벨에 대한 준-행-정규화 행렬을 산출하는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 제어부는,
상기 각각의 간선 라벨에 대한 준-행-정규화 행렬 및 라벨 전이 확률 행렬, 시작 정점, 재시작 확률 및 수렴 문턱값을 입력받으면, 상기 시작 정점에 따라서 시작 행렬을 생성하고, 상기 점수 행렬을 상기 시작 행렬로 초기화한 후, 상기 준-행-정규화 행렬, 상기 라벨 전이 확률 행렬 및 상기 시작 행렬을 이용하여 점수 행렬 계산을 반복적으로 수행하여, 상기 수렴 문턱값을 기준으로 상기 점수 행렬이 수렴한다면 수렴된 점수 행렬을 출력하는 것을 특징으로 하는 장치.