KR102288957B1

KR102288957B1 - 네트워크에서 질의 개체와 관련된 타겟 노드를 탐색하는 방법 및 시스템

Info

Publication number: KR102288957B1
Application number: KR1020210057257A
Authority: KR
Inventors: 한석진; 김태용; 구희정; 윤소정
Original assignee: 주식회사 스탠다임
Priority date: 2021-01-28
Filing date: 2021-05-03
Publication date: 2021-08-12
Also published as: KR102658417B1; EP4285367A1; EP4285367A4; KR20220109285A; WO2022164236A1

Abstract

본 발명은 호모지니어스 네트워크에서, 질의 개체에 해당하는 노드로부터 시작되는 신호 전파 과정에서 엣지들에 가중치를 부여하고 이에 따라 신호 전파의 방향성이 부여됨으로써 높은 정확도로 질의 개체와 관련된 타겟 노드를 탐색하는 것이 가능한 방법을 제공한다.

Description

네트워크에서 질의 개체와 관련된 타겟 노드를 탐색하는 방법 및 시스템{Method for Searching a Target Node related to a Queried Entity in a Network and System thereof}

본 발명은 다수의 노드와 엣지로 이루어진 네트워크에서, 질의되는 개체와 관련된 타겟 노드를 탐색하는 방법으로서, 보다 구체적으로는 엣지들에 가중치를 적용함으로써 높은 가중치를 갖는 엣지들을 중심으로 신호 전파가 이루어질 수 있어서 높은 정확도로 타겟 노드를 탐색하는 것이 가능한 방법 및 시스템에 관한 것이다.

질병 치료를 위해 타겟 유전자 또는 단백질을 탐색하는 것은 신약 개발 단계의 첫번째 단계이자, 신약 개발의 성공률에 결정적인 영향을 미치는 중요한 과제이다. 최근, 기술의 발전으로 인해 고-처리량으로 데이터를 처리하는 것이 가능해졌으나, 전파의 방향성이 부여되지 않은 랜덤 워크(Random Walk) 방식으로 신호가 전파되기 때문에 처리 효율이 떨어지는 문제점이 있었다.

한국공개특허문헌 제10-2016-0149623호는 단백질 상호 작용 네트워크에서 신호 전파 간섭을 통한 약력학적 약물 상호 작용 예측 장치에 관한 것으로, 랜덤 워크 방식으로 신호가 전파되는 기술을 사용한다. 구체적으로, 약물 간 상호 작용을 예측하기 위해 제1 약물의 신호 전파를 시뮬레이션하고, 제1 약물과 다른 제2 약물의 신호 전파를 시뮬레이션하게 된다. 하지만, 랜덤 워크 방식으로 신호가 전파되기 때문에, 신호 전파가 무작위적으로 발생하게 되어 부정확한 결과가 도출될 수 있는 노이즈 문제가 발생한다.

이에, 본 발명자들은 기존의 랜덤 워크 방식의 신호 전파 과정에서 발생하는 노이즈 문제를 해결하기 위해, 신호 전파에 방향성을 부여함으로써 고-처리량으로 데이터를 처리하는 것이 가능하면서도 높은 정확도로 타겟을 예측할 수 있는 방법을 발명하기에 이르렀다.

한국공개특허문헌 제10-2016-0149623호(2016.12.28)

상기한 과제를 해결하기 위해 본 발명은 기존의 랜덤 워크 방식에서의 무방향성으로 신호가 전파되는 것이 아닌, 소정의 방향성을 가지며 신호가 전파되기 때문에, 종래 기술에서 발생하는 노이즈 문제가 해결되는 방법 및 시스템을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 신호 전파의 방향이 중요도가 높은 노드와 엣지를 향해 편향되기 때문에, 질의 개체와 관련된 타겟 노드의 예측 정확성이 높은 방법 및 시스템을 제공하는 것에 그 목적이 있다.

또한, 본 발명은 엣지의 곡률, 그리고 기존 지식 모두를 활용하여 신호 전파의 방향성을 결정하기 때문에, 중요도 높은 엣지와 노드를 따라 신호가 전파될 수 있어서 질의 개체와 관련된 타겟 노드의 예측 정확성이 높은 방법 및 시스템을 제공하는 것에 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상기한 목적을 달성하기 위한 본 발명의 일 실시예는, 다수의 노드와 엣지로 이루어진 네트워크에서, 입력된 질의 개체와 관련된 타겟 노드를 탐색하는 방법으로서, (a) 곡률 연산 장치가 상기 네트워크에 포함된 엣지들의 곡률(curvature)을 연산하고, 가중치 부여 장치가 연산된 곡률에 따라 각 엣지들에 가중치(weight)를 부여하는 단계, (b) 입력 장치를 통해 상기 질의 개체가 입력되는 단계, (c) 데이터 부여 장치가 상기 질의 개체와 관련성 있다고 알려진 하나 이상의 제1 개체에 해당하는 주요 노드에 제1 값을 부여하고, 상기 제1 개체 이외의 제2 개체에 해당하는 노드에 제2 값을 부여하는 단계, (d) 상기 주요 노드로부터 신호가 전파되되, 상기 가중치가 높은 엣지를 중심으로 신호가 전파되는 단계, (e) 가중치 보정 장치가 상기 (d) 단계에서의 신호 전파 경로에 포함된 엣지의 가중치를 높이고, 상기 신호 전파 경로에 포함되지 않은 엣지의 가중치를 낮춤으로써, 상기 네트워크에 포함된 각 엣지들에 보정 가중치가 부여되는 단계, (f) 상기 데이터 부여 장치가 상기 입력된 질의 개체와 상기 네트워크를 구성하는 상기 다수의 노드에 해당하는 개체 사이의 관련성이 수치화된 제3 값을 상기 다수의 노드에 부여하는 단계 및 (g) 상기 보정 가중치 및 상기 제3 값에 기초하여신호가 전파되는 단계를 포함하는, 질의되는 개체와 관련된 타겟 노드 탐색 방법을 제공한다.

일 실시예에 있어서, 상기 (g) 단계 이후, (h) 상기 (g) 단계에서의 신호 전파 경로에 포함된 노드들 중 하나 이상이 상기 타겟 노드로 결정되는 단계 및 (i) 결정된 타겟 노드에 해당하는 개체가 상기 질의 개체와 관련된 개체로서 출력 장치를 통해 출력되는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (g) 단계에서 신호가 전파됨에 따라 상기 네트워크를 구성하는 노드의 데이터 값이 변화하고, 상기 노드의 데이터 값이 변화하지 않는 상태가 신호 전파 포화 상태로 규정되며, 상기 (h) 단계는, 상기 신호 전파 포화 상태에서의 노드의 데이터 값에 기초하여 타겟 노드가 결정되는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 (i) 단계는, 결정된 타겟 노드의 데이터 값에 기초하여, 타겟 노드들의 순위(rank)가 상기 출력 장치를 통해 출력되는 단계;를 더 포함할 수 있다.

일 실시예에 있어서, 상기 질의 개체의 카테고리가 질병인 경우, 상기 제3 값은, 상기 질의 개체에 해당하는 질병을 갖는 환자의 단백질 또는 유전자 발현 데이터를 정상인의 단백질 또는 유전자 발현 데이터와 비교하여, 각 단백질 또는 유전자별로 발현이 증가 또는 감소된 정도의 유의미성을 나타내는 p값(p-value) 또는 상기 질병을 갖는 환자의 각 유전자 돌연변이(mutation) 정도를 수치화한 값일 수 있다.

일 실시예에 있어서, 입력된 질의 개체의 카테고리가 약물인 경우, 상기 제3 값은, 상기 질의 개체에 해당하는 약물을 처리하였을 때, 각 단백질 또는 유전자별로 발현이 변화하는 정도의 유의미성을 나타내는 p값일 수 있다.

일 실시예에 있어서, 상기 (a) 단계에서, 각 엣지들의 곡률은, 엣지를 통해 서로 연결된 노드들과 이웃하는 노드들의 개수에 따라 결정될 수 있다.

일 실시예에 있어서, 상기 (a) 단계에서, 각 엣지들의 곡률은, 엣지를 통해 서로 연결된 제1 노드 및 제2 노드와 이웃하는 노드들의 개수에 따라 결정되되, 상기 제1 노드와 엣지를 통해 연결되는 제3 노드들의 개수를 N_s, 상기 제2 노드와 엣지를 통해 연결되는 제4 노드들의 개수를 N_t, 상기 제3 노드들과 상기 제4 노드들의 교집합의 개수를 N_i라고 할 때, N_s, N_t 및 N_i에 따라 결정될 수 있다.

일 실시예에 있어서, 상기 (a) 단계에서, 각 엣지들의 곡률은, 4 - (N_s) - (N_t) + 3 x (N_i)에 따라 결정될 수 있다.

일 실시예에 있어서, 상기 (a) 단계에서, 각 엣지들에 부여되는 가중치는, 4 - (N_s) - (N_t) + 3 x (N_i)로 결정되는 곡률을 변수로 한 단조증가함수에서 출력된 값으로 결정될 수 있다.

일 실시예에 있어서, 상기 단조증가함수는,

이고, 여기에서 y는 가중치이고, ß는 곡률이 가중치에 미치는 영향을 제어하기 위한 계수이며, k는 해당 엣지의 곡률이고,

는 곡률들의 평균이고, sd(k)는 곡률들의 표준 편차일 수 있다.

일 실시예에 있어서, 상기 네트워크는 단백질을 노드로 하고, 단백질 간의 관계를 엣지로 한 호모지니어스(homogeneous) 네트워크일 수 있다.

일 실시예에 있어서, 상기 질의 개체는 질병 또는 약물이고, 상기 제1 개체는 상기 질병 또는 상기 약물과 관련성 있다고 알려진 단백질일 수 있다.

일 실시예에 있어서, 상기 질의 개체는 단백질이고, 상기 제1 개체는 상기 단백질과 관련성 있다고 알려진 질병 또는 약물일 수 있다.

일 실시예에 있어서, 상기 (a) 단계 이전, (a0) 네트워크 추출 장치(110)가, 질병, 단백질, 유전자 및 약물 중 하나 이상이 노드로, 각 노드 간의 관계가 엣지로 규정되어 상기 노드들과 상기 엣지들로 이루어진 헤테로지니어스(heterogeneous) 네트워크에서, 질병, 단백질, 유전자 및 약물 중 어느 하나의 종류만의 노드를 추출하고, 추출된 노드와, 추출된 노드 간의 관계인 엣지들로만 이루어진 호모지니어스 네트워크를 추출하는 단계를 더 포함할 수 있다.

또한, 본 발명은 전술한 방법을 사용하여 구축된, 시스템을 제공한다.

또한, 본 발명은 전술한 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된, 컴퓨터 프로그램을 제공한다.

본 발명에 따르면, 기존의 랜덤 워크 방식에서의 무방향성으로 신호가 전파되는 것이 아닌, 소정의 방향성을 가지며 신호가 전파되기 때문에, 종래 기술에서 발생하는 노이즈 문제가 해결된다.

또한, 신호 전파의 방향이 중요도가 높은 노드와 엣지를 향해 편향되기 때문에, 질의 개체와 관련된 타겟 노드의 예측 정확성이 높다.

또한, 엣지의 곡률, 그리고 질의 개체와 관련된 기존 지식 및 데이터 모두를 활용하여 신호 전파의 방향성을 결정하기 때문에, 중요도 높은 엣지와 노드를 따라 신호가 전파될 수 있어서 질의 개체와 관련된 타겟 노드의 예측 정확성이 높다.

도 1은 본 발명의 실시예에 따른 시스템을 설명하기 위한 개략적인 블록도이다.
도 2는 본 발명의 실시예에 따른 방법을 설명하기 위한 순서도이다.
도 3은 노드와 엣지로 이루어진 네트워크에서, 각 엣지의 곡률을 설명하기 위한 개략적인 도면이다.
도 4는 본 발명의 실시예에 따라, 네트워크를 구성하는 엣지에 보정 가중치가 부여되고, 부여된 가중치에 따라 신호 전파의 방향성이 부여되어, 질의 개체와 관련된 타겟 노드를 탐색하기까지의 과정을 설명하기 위한 도면이다.
도 5 및 6은 검증 실험 1에 따른 결과 도면이다.
도 7은 검증 실험 2에 따른 결과 도면이다.
도 8은 검증 실험 3에 따른 결과 도면이다.
도 9는 검증 실험 4에 따른 결과 도면이다.

이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

도 1을 참조하면, 본 발명에 따른 시스템(100)은 네트워크 추출 장치(110), 곡률 연산 장치(120), 가중치 부여 장치(130), 공개 지식 추출 장치(140), 가중치 보정 장치(150), 데이터 부여 장치(160), 입력 장치(170), 탐색 장치(180) 및 출력 장치(190)를 포함한다.

본 발명에 따른 시스템(100)은 통신 장치(미도시)가 구비되어, 외부의 데이터베이스(D)들과 통신망을 통해 상호 유무선 통신이 가능하다.

데이터베이스(D)는 본 발명의 시스템(100)과는 독립적인 외부 데이터베이스(논문 데이터베이스, 의학 정보 데이터베이스, 약학 정보 데이터베이스 및 검색 포털 데이터베이스 등)일 수 있으나, 본 발명의 시스템(100)에 포함된 내부 데이터베이스일수도 있다.

데이터베이스(D)에는 예를 들어, 질병, 단백질 또는 유전자, 약물 각각이 노드로, 각 노드 간의 관계가 엣지로 규정되어, 상기 노드들과 상기 엣지들로 이루어진 헤테로지니어스(heterogeneous) 네트워크 정보가 저장되어 있을 수 있다. 상기 헤테로지니어스(heterogeneous) 네트워크에는 본 출원인에 의한 한국등록특허 제10-2225278 호에 제시된 네트워크가 참조로서 포함될 수 있다.

네트워크 추출 장치(110)는 데이터베이스(D)에 미리 저장된 헤테로지니어스 네트워크를 구성하는 노드들 중, 어느 하나의 종류에 해당하는 노드만을 추출하고, 추출된 노드와, 추출된 노드 간의 관계인 엣지들로만 이루어진 호모지니어스(homogeneous) 네트워크 정보를 추출하도록 구성된다.

일 예로, 네트워크 추출 장치(110)는 질병 노드와 질병 노드 간의 엣지로만 이루어진 네트워크, 단백질 노드와 단백질 노드 간의 엣지로만 이루어진 네트워크, 또는 약물 노드와 약물 노드 간의 엣지로만 이루어진 네트워크 정보를 추출할 수 있다.

또한, 본 발명에서는 네트워크 추출 장치(110)가 인간 단백질-단백질 상호작용 네트워크 정보를 추출하고, 추출된 인간 단백질-단백질 상호작용 네트워크 정보에 특정 질병(예를 들어, 당뇨병, 알츠하이머병 등)에서의 단백질 결합 정보를 추가한 질병 특화 네트워크를 사용하는 것도 가능하다.

다시 말하면, 네트워크 추출 장치(110)에 의해 추출된 호모지니어스 네트워크 정보에, 관심 질병/약물/단백질/유전자에서 나타나는 특정 정보(특정 질병에서 나타나는 단백질 결합 정보, 특정 약물을 처리하였을 때 나타나는 단백질 발현 정보 등)을 결합하여 네트워크를 구성함으로써, 추후 입력 장치(170)를 통해 입력되는 질의 개체와 관련된 타겟 노드의 탐색 정확도가 높아질 수 있다.

곡률 연산 장치(120)는, 어느 하나의 종류의 노드와, 이들 노드 간의 엣지로만 이루어진 호모지니어스 네트워크에서, 소정의 방법에 따라 상기 호모지니어스 네트워크를 구성하는 엣지들의 곡률을 연산하도록 구성된다.

곡률 연산 장치(120)에 의한 곡률 연산 과정을 도 3을 참조하여 구체적으로 설명한다.

각 엣지들의 곡률은, 엣지를 통해 서로 연결된 노드들과 이웃하는 노드들의 개수에 따라 결정된다. 도 3을 참조하여 엣지 1을 예로 들면, 엣지 1를 통해 서로 연결되는 노드 1과 노드 2가 존재할 수 있다. 노드 1이 임의의 엣지를 통해 이웃하는 노드의 개수는 10이고, 노드 2가 임의의 엣지를 통해 이웃하는 노드의 개수는 1이다. 여기에서, 노드들이 이웃한다는 것은 하나의 엣지만을 통해 연결된다는 것을 의미한다. 하지만, 이에 제한되지 않고 2개 이상의 엣지를 통해 연결되는 노드들도 '이웃 노드'라 지칭될 수도 있다.

곡률 연산 장치(120)는, 아래의 수식을 통해 엣지의 곡률을 연산한다.

4 - (N_s) - (N_t) + 3 x (N_i)

여기에서, N_s는 노드 1과 엣지를 통해 연결되는 제1 이웃 노드들의 개수를 의미하고, N_t는 노드 2와 엣지를 통해 연결되는 제2 이웃 노드들의 개수를 의미하며, N_i는 제1 이웃 노드들과 제2 이웃 노드들의 교집합의 개수를 의미한다.

엣지 1을 예로 들면, N_s = 10, N_t = 1, N_i = 0이다(엣지 1을 기준으로 할때, 노드 1의 이웃 노드와 노드 2의 이웃 노드는 교집합이 존재하지 아니함).

따라서, 엣지 1은 4 - 10 - 1 + 3 x 0 = -7의 곡률을 갖게 된다.

엣지 2를 예로 들어 다시 설명한다. 엣지 2를 통해 노드 1과 노드 3이 서로 연결되며, 노드 1이 임의의 엣지를 통해 이웃하는 노드의 개수는 10이고, 노드 3이 임의의 엣지를 통해 이웃하는 노드의 개수는 5이다.

즉, N_s = 10, N_t = 5, N_i = 4이므로(엣지 2를 기준으로 할 때, 노드 1의 이웃 노드와 노드 3의 이웃 노드는 4개의 교집합이 존재함).

따라서, 엣지 2는 4 - 10 - 5 + 3 x 4 = +1의 곡률을 갖게 된다.

이렇게, 곡률 연산 장치(120)는, 네트워크를 구성하는 모든 엣지들의 곡률을 연산하게 되며, 연산된 곡률은 소정의 방법으로 가중치로 변환된다.

가중치 부여 장치(130)는 곡률 연산 장치(120)에 의해 연산된 곡률을 변수(x)로 한 단조증가함수(y = f(x))에서 출력되는 y 값을 해당 엣지의 가중치로 부여할 수 있다. 상기 단조증가함수는 x값이 증가할수록 y 값이 증가하는 함수를 의미한다.

일 예로, 본 발명에 적용되는 단조증가함수에는 아래의 수식이 적용될 수 있다.

여기에서 y는 가중치이고, ß는 곡률의 효과를 제어하기 위한 계수이며, k는 해당 엣지의 곡률이고,

는 곡률들의 평균이고, sd(k)는 곡률들의 표준 편차에 해당한다.

입력 장치(170)를 통해 입력된 질의 개체와 관련성 있다고 알려져 있으면서 네트워크를 구성하는 노드와 동일한 카테고리(예를 들어, 네트워크를 구성하는 노드가 단백질인 경우, 단백질)에 해당하는 개체에 해당하는 노드(이하, '주요 노드'로 칭함)로부터 시작되어 질의 개체와 관련된 타겟 노드를 탐색하는 신호 전파 과정에서, 가중치 부여 장치(130)에 의해 부여된 가중치가 높은 엣지일수록, 해당 엣지를 따라 신호가 전파될 가능성이 높아진다. 즉, 본 발명에서는 가중치 부여 장치(130)에 의해 부여된 가중치에 따라 신호 전파 경로에 일종의 방향성을 부여함으로써, 모든 엣지에 동일한 가중치를 두어 랜덤 워크 방식으로 신호 전파를 수행하는 종래 기술 대비, 보다 높은 정확도로 타겟 노드를 탐색하는 것이 가능하다.

공개 지식 추출 장치(140)는 입력 장치(170)를 통해 입력된 질의 개체와 관련성 있다고 알려진 지식(개체)들을 추출하도록 구성된다. 예를 들어, 공개 지식 추출 장치(140)는 데이터베이스(D)에 미리 저장되어 있는 다수의 논문 등에서'질의 개체 - 호모지니어스 네트워크를 구성하는 노드의 종류와 같은 종류에 해당하는 개체(예를 들어, 단백질 노드들로만 이루어진 호모지니어스 네트워크인 경우, 단백질) 중 질의 개체와 관련성 있다고 알려진 개체'를 추출하도록 구성된다.

예를 들어, A 질병이 질의 개체로 입력되었고, 데이터베이스(D)에 'B 단백질의 변성에 의해 A 질병 유발 확률이 높아질 수 있다'라는 데이터가 포함된 경우, 공개 지식 추출 장치(140)는 B 단백질을 A 질병과 관련된 공개 지식으로 추출할 수 있다.

데이터 부여 장치(150)는 공개 지식 추출 장치(140)에 의해 추출된 공개 지식에 해당하는 노드에 제1 값을 부여하고, 공개 지식에 해당하지 않는 노드에는 제2 값을 부여하도록 구성된다. 여기에서, 제1 값은 '1', 제2 값은 '0'일 수 있으나, 제1 값과 제2 값이 서로 구별될 수 있는 값이면 무관하고, 상기한 예에 제한되지 않는다.

즉, 데이터 부여 장치(150)는 질의 개체와 관련성 있다고 알려진 제1 개체에 해당하는 주요 노드에 제1 값(예를 들어, 1)을 부여하고, 상기 제1 개체 이외의 제2 개체에 해당하는 노드들에 제2 값(예를 들어, 0)을 부여하게 된다.

다시 말하면, 질의 개체와 관련성 있다고 알려진 개체에는 제1 값이 부여되고, 질의 개체와 관련성 있다고 알려지지 않은 개체에는 제2 값이 부여되어, 차후 신호 전파 과정에서 주요 노드로부터 신호가 전파된다. 즉, 질의 개체와 관련성 있다고 알려진 개체에 해당하는 노드들을 따라 신호가 전파될 가능성이 높아지게 되고, 종래 기술 대비 보다 높은 정확도로 타겟 노드를 탐색하는 것이 가능하다.

가중치 보정 장치(160)는 신호 전파 경로에 포함된 엣지의 가중치를 높이고, 신호 전파 경로에 포함되지 않은 엣지의 가중치를 낮춤으로써, 엣지들에 부여되는 가중치를 보정하는 역할을 수행한다.

가중치 부여 장치(130)에 의해 네트워크를 구성하는 엣지들에 가중치가 부여되고, 데이터 부여 장치(150)에 의해 네트워크를 구성하는 노드들에 제1 값 및 제2 값이 부여되면, 주요 노드로부터 시작되는 제1 신호 전파가 이루어질 수 있다. 상기 제1 신호 전파는 주요 노드를 시작점으로 하되, 가중치 부여 장치(130)에 의해 부여된 가중치가 높은 엣지일수록 해당 엣지를 따라 신호가 전파될 가능성이 높아지도록 진행될 수 있다.

제1 신호 전파가 완료된 경우(saturation), 가중치 보정 장치(160)는 제1 신호 전파 경로에 포함된 엣지의 가중치를 높이고, 상기 제1 신호 전파 경로에 포함되지 않은 엣지의 가중치를 낮추게 된다. 이로 인해, 호모지니어스 네트워크를 구성하는 각 엣지들에는 가중치 보정 장치(160)에 의한 보정 가중치가 부여된다.

주요 노드로부터 시작되는 제1 신호 전파가 진행(diffusion)됨에 따라 노드의 데이터 값이 변화하게 된다(예컨대, 제1 값이 부여된 노드의 이웃한 노드가 신호 전파 초기에 제2 값을 갖고 있었더라도 신호 전파가 진행됨에 따라 데이터 값이 제1 값에서 제2 값 사이의 값으로 변화될 수 있음). 노드의 데이터 값이 더 이상 변화하지 않을 때, 즉, 신호 전파가 완료(saturation)되었을 때의 노드의 데이터 값을 이용하여 엣지의 가중치를 재조정하게 된다(예를 들어, 제1 신호 전파 경로에 포함된 엣지에 특정 데이터 값이 부여되는 방식). 신호 전파가 완료된 경우(saturation)란, 시간이 경과하더라도 더 이상 상기 데이터 값이 변화하지 않는 상태를 의미한다.

또한, 데이터 부여 장치(150)는 입력된 질의 개체와 네트워크를 구성하는 다수의 노드에 해당하는 개체 사이의 관련성이 수치화된 제3 값을 상기 네트워크를 구성하는 노드에 부여하도록 구성된다.

예를 들어, 질의 개체가 질병이라면, 예컨대, 환자의 단백질 또는 유전자 발현 데이터에서 각 단백질/유전자별로 정상인과 비교하여 발현이 증가 또는 감소된 정도의 유의미성을 나타내는 p값(p-value), 유전자 돌연변이(mutation) 정도 여부 등과 같이, 질의 개체와 네트워크를 구성하는 다수의 노드 간의 관련성이 수치화된 제3 값이 계산될 수 있으며, 계산된 제3 값이 다수의 노드 각각에 부여될 수 있다. 또 다른 예에서, 질의 개체가 약물이라면, 약물을 처리하였을 때 유전자 또는 단백질 발현이 변화하는 정도의 유의미성을 나타내는 p값(p-value)이 제3 값에 해당할 수도 있다.

입력 장치(170)는, 터치 패널, 키보드, 스캐너 등 사용자 명령을 입력받아 본 발명에 따른 시스템에 상기 명령을 전송할 수 있는 형태이면 특별히 제한되지는 않는다.

탐색 장치(180)는, 보정 가중치가 높은 엣지들과 제3 값이 높은 노드를 중심으로 신호가 전파(제2 신호 전파)되도록 하여, 제2 신호 전파 경로에 포함된 노드에 해당하는 개체를 질의 개체와 관련성 있는 개체로 탐색하도록 구성된다.

여기에서, 제3 값이 높은 노드를 중심으로 신호가 전파된다는 것은, 노드에 부여된 제3 값의 크기가 신호의 세기에 영향을 미친다는 의미이다. 즉, 네트워크를 구성하는 모든 노드는 신호 전파의 시작점이 될 수 있으나(모든 노드로부터 시작되는 신호 전파는 각자의 세기를 가지며 이루어질 수 있음을 의미), 높은 제3 값이 부여된 노드일수록 해당 노드로부터 시작되는 신호의 세기가 크게 되며, 따라서 높은 제3 값이 부여된 노드를 중심으로 신호 전파가 이루어질 수 있는 것이다.

구체적으로, 제2 신호 전파가 진행(diffusion)됨에 따라 노드의 데이터 값이 변화하게 되고, 신호 전파가 포화(saturation)된 상태에 도달하면 더 이상 상기 데이터 값이 변화하지 않게 된다. 신호 전파가 포화된 상태에서의 노드의 데이터 값을 이용하여 타겟 노드가 결정될 수 있고, 상기 데이터 값에 기초하여 타겟 노드들의 순위(rank)가 정해질 수 있다.출력 장치(180)는, 모니터, 디스플레이 패널 등 본 발명에 따른 시스템의 연산 결과를 육안으로 확인할 수 있는 형태이면 특별히 제한되지는 않는다.

다음, 도 2 및 4를 참조하여 본 발명의 실시예에 따른 방법을 구체적으로 설명한다.

먼저, 곡률 연산 장치(120)에 의해 네트워크에 포함된 엣지들 각각의 곡률이 연산된다(S21). 상기 네트워크는 어느 하나의 종류의 개체(예를 들어, 질병, 단백질 또는 약물)(노드)들과, 이들 개체 간의 관계(엣지)로만 이루어진 호모지니어스 네트워크일 수 있다. 다른 실시예에서는 데이터베이스(D) 등에 미리 저장된 헤테로지니어스 네트워크로부터, 네트워크 추출 장치(110)가 호모지니어스 네트워크를 추출하는 과정이 선행될 수도 있다. 또 다른 실시예에서, 상기 네트워크는 호모지니어스 네트워크에, 관심 질병/약물/단백질/유전자에서 나타나는 특정 정보(특정 질병에서 나타나는 단백질 결합 정보, 특정 약물을 처리하였을 때 나타나는 단백질 발현 정보 등)을 결합한 네트워크일 수도 있다.

각 엣지들의 곡률은, 엣지를 통해 서로 연결된 노드들과 이웃하는 노드들의 개수에 따라 결정될 수 있으며, 이에 대한 설명은 전술하였으므로 생략한다.

다음, 곡률 연산 장치(120)에 의해 연산된 곡률에 따라, 가중치 부여 장치(130)가 네트워크에 포함된 엣지들 각각에 가중치를 부여하게 된다(S22). 엣지들에 가중치가 부여되는 경우, 네트워크는 도 4의 중앙 상측 도면의 형태를 가질 수 있으며, 엣지들에 부여되는 가중치는 곡률을 변수(x)로 한 단조증가함수(y = f(x))에서 출력되는 y 값일 수 있다. 곡률이 클수록 부여되는 가중치도 높다는 것을 의미한다.

다음, 입력 장치(170)를 통해 질의 개체가 입력된다(S23). 질의 개체는 예를 들어, 네트워크가 단백질 노드와 단백질 간의 관계에 해당하는 엣지로 구성될 경우, 질병 또는 약물일 수 있으며, 이에 제한되지 않고 단백질과 연관성을 갖는 종류의 개체가 입력되는 것도 가능하다. 즉, 질의 개체는 질병, 단백질, 약물, 및 유전자 중 어느 하나의 카테고리를 가질 수 있다.

다음, 공개 지식 추출 장치(140)가, 데이터베이스(D)에 저장된 기존 지식 데이터들로부터, 입력된 질의 개체와 관련성 있다고 알려져 있으면서 네트워크를 구성하는 노드와 동일한 카테고리(예를 들어, 네트워크를 구성하는 노드가 단백질인 경우, 단백질)에 해당하는 개체를 추출한다. 질의 개체와 관련성 있다고 미리 알려진 개체들은 복수개일 수 있으며, 복수개의 개체 모두가 추출되는 것이 가능하다.

다음, 데이터 부여 장치(150)가, 공개 지식 추출 장치(140)에 의해 추출된 제1 개체에 해당하는 노드(주요 노드)에 제1 값을 부여하고, 상기 네트워크를 구성하되 제1 개체 이외의 제2 개체에 해당하는 노드에는 제2 값을 부여한다(S24)(도 4의 오른쪽 상측 도면 참조).

다음, 주요 노드로부터 신호가 전파되되 가중치가 높은 엣지를 중심으로 제1 신호가 전파된다(S25). 즉, 가중치가 높은 엣지일수록 신호 전파가 해당 엣지를 따라 방향성을 갖도록 전파된다.

제1 신호 전파가 완료(포화된 상태에 도달)되면(S26), 가중치 보정 장치(160)가 제1 신호 전파 경로에 포함된 엣지들의 가중치는 높이고, 제1 신호 전파 경로에 포함되지 않은 엣지들의 가중치는 낮춤으로써, 네트워크에 포함된 엣지들의 가중치를 보정하게 된다(S27). 즉, 가중치 보정 장치(160)에 의해 네트워크에 포함된 엣지들에 보정 가중치가 부여되는 것이다(도 4의 오른쪽 하측 도면 참조).

다음, 데이터 부여 장치(150)가, 입력된 질의 개체와 네트워크를 구성하는 다수의 노드에 해당하는 개체 사이의 관련성이 수치화된 제3 값을 상기 네트워크를 구성하는 노드에 부여한다(S28). 예를 들어, 질의 개체가 질병이라면, 예컨대, 해당 질병 환자의 단백질 또는 유전자 발현 데이터에서 각 단백질 또는 유전자별로 정상인과 비교하여 발현이 증가 또는 감소된 정도의 유의미성을 나타내는 p값(p-value), 유전자 돌연변이(mutation) 정도 여부 등과 같이, 질의 개체와 네트워크를 구성하는 다수의 노드 간의 관련성이 수치화된 제3 값이 계산될 수 있으며, 계산된 제3 값이 다수의 노드 각각에 부여될 수 있다. 또 다른 예에서, 질의 개체가 약물이라면, 약물을 처리하였을 때 유전자 또는 단백질 발현이 변화하는 정도의 유의미성을 나타내는 p값(p-value)이 제3 값에 해당할 수도 있다(도 4의 중앙 하측 도면 참조).

다음, 보정 가중치가 높은 엣지와 제3 값이 높은 노드를 중심으로 제2 신호가 전파된다(S29). 제2 신호 전파 경로에 포함된 노드들이 타겟 노드로 결정될 수 있으며(S30), 결정된 타겟 노드에 해당하는 개체들이 질의 개체와 관련된 개체로서 출력 장치(190)를 통해 출력되는 것이 가능하다(S31). 또 다른 예에서는, 신호 전파 결과값(예를 들어, 신호 전파가 포화된 상태에서의 노드의 데이터 값)을 이용하여 타겟 노드들의 순위(rank)가 결정될 수 있으며, 출력 장치(190)를 통해 높은 순위를 갖는 타겟 노드부터 낮은 순위를 갖는 타겟 노드까지 내림차순으로 타겟 노드들이 리스트화되어 출력될 수 있다.

검증 실험 1

본 발명에 따른 방법의 우수성을 검증하기 위해 검증 실험을 실시하였다. RWR(Random Walk with Restart) 방법, GDC (NeurIPS 2019)를 적용한 RWR 방법(RWR w/GDC), uKIN (RECOMB 2020) 방법, mND (Bioinformatics 2020) 방법, RWR w/ curvature 알고리즘이 적용된 방법(엣지의 곡률을 이용한 가중치만 부여되고 기존 지식에 따른 노드 데이터가 부여되지 않은 방법), 본 발명 w/o curvature 알고리즘이 적용된 방법(기존 지식에 따른 노드 데이터만 부여되고 엣지의 곡률을 이용한 가중치는 부여되지 않은 방법), 그리고 본 발명에 따른 방법, 각각에 대해, AveP(Average precision, 평균 예측 정확성), Prec@100, Prec@200(상위 100, 200 순위까지에서의 예측 정확성)을 계산하였으며, 실험 결과 본 발명의 방법에 따를 경우 가장 높은 성능을 가짐을 확인하였다(도 5 및 6 참조).

검증 실험 2

엣지의 곡률을 이용한 가중치가 부여되었을 때, 엣지에 부여된 곡률 자체의 영향을 평가하기 위해 검증 실험을 실시하였다.

RWR 방법, GDC(NeurIPS 2019)를 적용한 RWR 방법(RWR w/GDC), 엣지의 곡률을 이용한 가중치를 적용한 RWR 방법(RWR w/curvature) 각각에 대해, 곡률에 따라 엣지에 부여되는 가중치에 영향을 미치는 계수인 ß(Beta)(수식 1 참조)를 조절해가면서 질의 개체와 관련된 타겟 노드를 탐색하는 실험을 수행하였다.

RWR w/GDC의 경우, 엣지의 곡률에 따라 가중치를 부여하는 알고리즘을 포함하지 않기 때문에, ß의 값에 상관없이 성능이 일정함을 확인하였다.

RWR w/curvature(엣지의 곡률을 이용한 가중치만 부여되고, 기존 지식에 따른 노드 데이터가 부여되지 않은 방법)의 경우, ß가 큰 양수값을 가질수록 RWR 방법 대비(ß=0) 성능이 떨어짐을 확인하였으며, 오히려 ß가 음수값을 가질 때(곡률 효과를 반대로 주었을 때) 성능이 약간 상승함을 확인하였다(도 7 참조).

즉, 엣지의 곡률을 이용한 가중치만 부여하는 알고리즘을 적용하는 경우에는, 오히려 예측 성능이 떨어짐을 확인할 수 있었다.

검증 실험 3

본 발명에 따른 방법을 이용하되, 곡률에 따라 엣지에 부여되는 가중치에 영향을 미치는 계수인 ß를 달리하면서(-1, -0,5, 0, +0,5, +1) ß에 따른 영향을 확인하기 위해 검증 실험을 실시하였다.

ß는 단조증가함수(수식 1 참조)에 적용되는 계수로서, ß의 값이 변화함에 따라 엣지에 부여되는 가중치의 변화율이 달라지게 된다(즉, ß는 엣지 곡률 효과를 제어하기 위한 파라미터에 해당함).

실험 결과, ß가 0.5인 경우에 어느 평가 방법을 사용하여도 가장 높은 예측 성능을 가짐을 확인할 수 있었다(도 8 참조).

검증 실험 4

데이터베이스의 모든 공개 지식을 활용하지 않은 경우에도, 본 발명에 따른 방법의 우수성을 검증하기 위한 실험을 실시하였다.

데이터베이스(D)에 저장된 데이터들 중 0.05%, 0.1%, 0.15%, 0.2% 만을 이용하여 본 발명에 따른 방법과, uKIN (RECOMB 2020) 방법(엣지의 가중치를 부여하는 과정 없이, 사전 지식(prior information)만을 활용한 방법)에서의 예측 성능을 확인하였다. 즉, 엣지의 곡률에 따른 가중치 부여 과정과, 사전 지식에 따른 노드 데이터 부여 과정이 모두 포함된 본 발명의 경우, 어느 하나만의 과정이 포함된 종래기술 대비 예측 성능이 높음을 확인할 수 있었다.

실험 결과, 많은 사전 지식을 활용하지 않더라도 본 발명에 따른 방법의 경우, 종래기술(uKIN) 대비 높은 예측 성능을 가짐을 확인할 수 있었으며, 사전 지식의 양이 늘어날수록 예측 성능 또한 선형적으로 증가함을 확인할 수 있었다(도 9 참조).

본 발명의 실시예에 따른 시스템의 구성 전체 내지 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.

여기서, 소프트웨어 모듈이란, 예컨대, 시스템 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 질병 관련 인자 예측 시스템 내 메모리에 탑재된 형태를 가질 수 있을 것이다.

위 설명한 본 발명에 따른 타겟 노드 탐색 방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명을 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 당업계에서 통상의 지식을 가진 자라면 이하의 청구범위에 기재된 본 발명의 사상 및 영역을 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 시스템
110: 네트워크 추출 장치
120: 곡률 연산 장치
130: 가중치 부여 장치
140: 공개 지식 추출 장치
150: 데이터 부여 장치
160: 가중치 보정 장치
170: 입력 장치
180: 탐색 장치
190: 출력 장치
D: 데이터베이스

Claims

다수의 노드와 엣지로 이루어지되, 질병, 단백질, 유전자 및 약물 중 동일 카테고리에 속하는 노드들과 상기 노드들을 연결하는 엣지로 이루어진 호모지니어스 네트워크에서, 입력된 질의 개체와 관련된 타겟 노드를 탐색하는 방법으로서,
(a) 곡률 연산 장치가 상기 네트워크에 포함된 엣지들의 곡률(curvature)을 연산하고, 가중치 부여 장치가 연산된 곡률에 따라 각 엣지들에 가중치(weight)를 부여하는 단계;
(b) 입력 장치를 통해 상기 질의 개체가 입력되는 단계로서, 상기 질의 개체는 상기 호모지니어스 네트워크를 구성하는 노드의 카테고리와 다른 카테고리에 속하는 것인, 단계;
(c) 데이터 부여 장치가 상기 질의 개체와 관련성 있다고 알려진 하나 이상의 제1 개체에 해당하는 주요 노드에 제1 값을 부여하고, 상기 제1 개체 이외의 제2 개체에 해당하는 노드에 제2 값을 부여하는 단계;
(d) 상기 주요 노드로부터 신호가 전파되되, 상기 가중치가 높은 엣지를 중심으로 신호가 전파되는 단계;
(e) 가중치 보정 장치가 상기 (d) 단계에서의 신호 전파 경로에 포함된 엣지의 가중치를 높이고, 상기 신호 전파 경로에 포함되지 않은 엣지의 가중치를 낮춤으로써, 상기 네트워크에 포함된 각 엣지들에 보정 가중치가 부여되는 단계;
(f) 상기 데이터 부여 장치가 상기 입력된 질의 개체와 상기 네트워크를 구성하는 상기 다수의 노드에 해당하는 개체 사이의 관련성이 수치화된 제3 값을 상기 다수의 노드에 부여하는 단계; 및
(g) 상기 보정 가중치 및 상기 제3 값에 기초하여 신호가 전파되는 단계로서, 상기 제3 값이 높은 노드일수록 해당 노드로부터 시작되는 신호의 세기가 크고 상기 보정 가중치가 높은 엣지를 중심으로 신호가 전파되는 단계; 및
(h) 상기 (g) 단계에서의 신호 전파 경로에 포함된 노드들 중 하나 이상이 상기 타겟 노드로 결정되는 단계;를 포함하고,
상기 질의 개체의 카테고리가 질병인 경우,
상기 제3 값은, 상기 질의 개체에 해당하는 질병을 갖는 환자의 단백질 또는 유전자 발현 데이터를 정상인의 단백질 또는 유전자 발현 데이터와 비교하여, 각 단백질 또는 유전자별로 발현이 증가 또는 감소된 정도의 유의미성을 나타내는 p값(p-value) 또는 상기 질병을 갖는 환자의 각 유전자 돌연변이(mutation) 정도를 수치화한 값을 포함하고,
상기 질의 개체의 카테고리가 약물인 경우,
상기 제3 값은, 상기 질의 개체에 해당하는 약물을 처리하였을 때, 각 단백질 또는 유전자별로 발현이 변화하는 정도의 유의미성을 나타내는 p값을 포함하는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제1항에 있어서,
상기 (h) 단계 이후,
(i) 결정된 타겟 노드에 해당하는 개체가 상기 질의 개체와 관련된 개체로서 출력 장치를 통해 출력되는 단계;를 더 포함하는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제2항에 있어서,
상기 (g) 단계에서 신호가 전파됨에 따라 상기 네트워크를 구성하는 노드의 데이터 값이 변화하고, 상기 노드의 데이터 값이 변화하지 않는 상태가 신호 전파 포화 상태로 규정되며,
상기 (h) 단계는,
상기 신호 전파 포화 상태에서의 노드의 데이터 값에 기초하여 타겟 노드가 결정되는 단계를 더 포함하는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제3항에 있어서,
상기 (i) 단계는,
결정된 타겟 노드의 데이터 값에 기초하여, 타겟 노드들의 순위(rank)가 상기 출력 장치를 통해 출력되는 단계;를 더 포함하는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
삭제
삭제
제1항에 있어서,
상기 (a) 단계에서, 각 엣지들의 곡률은, 엣지를 통해 서로 연결된 노드들과 이웃하는 노드들의 개수에 따라 결정되는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제7항에 있어서,
상기 (a) 단계에서, 각 엣지들의 곡률은, 엣지를 통해 서로 연결된 제1 노드 및 제2 노드와 이웃하는 노드들의 개수에 따라 결정되되,
상기 제1 노드와 엣지를 통해 연결되는 제3 노드들의 개수를 N_s,
상기 제2 노드와 엣지를 통해 연결되는 제4 노드들의 개수를 N_t,
상기 제3 노드들과 상기 제4 노드들의 교집합의 개수를 N_i라고 할 때,
N_s, N_t 및 N_i에 따라 결정되는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제8항에 있어서,
상기 (a) 단계에서, 각 엣지들의 곡률은,
4 - (N_s) - (N_t) + 3 x (N_i)에 따라 결정되는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제9항에 있어서,
상기 (a) 단계에서, 각 엣지들에 부여되는 가중치는,
4 - (N_s) - (N_t) + 3 x (N_i)로 결정되는 곡률을 변수로 한 단조증가함수에서 출력된 값으로 결정되는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제10항에 있어서,
상기 단조증가함수는,

이고,
여기에서 y는 가중치이고, ß는 곡률이 가중치에 미치는 영향을 제어하기 위한 계수이며, k는 해당 엣지의 곡률이고,
는 곡률들의 평균이고, sd(k)는 곡률들의 표준 편차인,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제1항에 있어서,
상기 네트워크는 단백질을 노드로 하고, 단백질 간의 관계를 엣지로 한 호모지니어스(homogeneous) 네트워크인,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제12항에 있어서,
상기 질의 개체는 질병 또는 약물이고, 상기 제1 개체는 상기 질병 또는 상기 약물과 관련성 있다고 알려진 단백질인,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제1항에 있어서,
상기 질의 개체는 단백질이고, 상기 제1 개체는 상기 단백질과 관련성 있다고 알려진 질병 또는 약물인,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제1항에 있어서,
상기 (a) 단계 이전,
(a0) 네트워크 추출 장치(110)가, 질병, 단백질, 유전자 및 약물 중 하나 이상이 노드로, 각 노드 간의 관계가 엣지로 규정되어 상기 노드들과 상기 엣지들로 이루어진 헤테로지니어스(heterogeneous) 네트워크에서, 질병, 단백질, 유전자 및 약물 중 어느 하나의 종류만의 노드를 추출하고, 추출된 노드와, 추출된 노드 간의 관계인 엣지들로만 이루어진 호모지니어스 네트워크를 추출하는 단계를 더 포함하는,
질의되는 개체와 관련된 타겟 노드 탐색 방법.
제1항 내지 제4항 및 제7항 내지 제15항 중 어느 한 항에 따른 방법을 사용하여 구축된,
시스템.
제1항 내지 제4항 및 제7항 내지 제15항 중 어느 한 항에 따른 방법을 실행하도록 컴퓨터 판독 가능한 기록 매체에 저장된,
컴퓨터 프로그램.