KR101721528B1

KR101721528B1 - 질병 네트워크로부터 동반 발병 확률을 제공하는 방법

Info

Publication number: KR101721528B1
Application number: KR1020150074908A
Authority: KR
Inventors: 신현정
Original assignee: 아주대학교산학협력단
Priority date: 2015-05-28
Filing date: 2015-05-28
Publication date: 2017-03-31
Also published as: KR20160141131A; US10297349B2; US20160350502A1

Abstract

본 발명에 따른 동반 발병 확률 제공 방법은, (a) 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및 (b) 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하는 것을 특징으로 한다.

Description

질병 네트워크로부터 동반 발병 확률을 제공하는 방법{Method for providing disease co-occurrence probability from disease network}

본 발명은 인간 질병 네트워크에 관한 것으로, 보다 상세하게는 질병 네트워크로부터 동반 발병 확률을 제공하는 방법에 관한 것이다.

인간 질병 네트워크에서의 최근의 발전은 유전자형과 인간 질병의 표현형 간의 관계를 구축하는데 통찰을 제공해 왔다. 질병은 종종 근본적인 세포 기능에서 혼란을 유발하는 드문 돌연변이의 결과로 여겨진다. 그러나 질병은 다수의 세포 성분 사이의 복잡한 분자 연결 전체에 의해 영향을 받기 때문에, 질병을 오직 단일 유전자의 돌연변이로 정의하는 것은 충분하지 않다. 네트워크 생물학에서 개발된 일련의 성공적인 실험들은, 유전자 동시 발현 네트워크, 전사 조절, 단백질 상호작용, 대사경로 등과 같은 다양한 형태의 분자 연결을 포함하는 인간 질병 네트워크 분석의 진전에 도움을 주어 왔다.

인간 질병 네트워크에 대한 초기 연구로, 논문 [Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabㅱasi A-L: The human disease network. Proceedings of the National Academy of Sciences 2007, 104(21):8685-8690.]이 있다. 여기서는 질병들이 공유하는 유전자에 기초하여 질병의 연관을 발견하고자 하였다. 이 논문에 의하면, 대부분의 질병들은 몇 개의 클러스터로 분류되는데, 특히 암 클러스터는 다양한 형태의 암과 연관된 다수의 유전자들로 인하여 단단히 서로 연결되어 있다.

지금까지 이론적, 기술적 도구의 성장으로 인해 질병 네트워크에 대한 이해가 발전되어 왔으나, 이전 연구에서 개선되어야 할 여지가 있다. 질병 네트워크는 세포 레벨에서는 큰 역할을 할 준비가 되어 있지만 아직까지 의학적 연구나 실무에는 별다른 도움을 주지 못하고 있다. 질병 네트워크에 관한 대부분의 연구는 여전히 네트워크를 구성하기 위한 방법론을 개발하는데 제한되어 있는데, 이것은 아마도 질병 네트워크에 대한 연구는 대부분 순수하게 과학적 발견을 추구하는 생물학자들에 의해 이루어지기 때문으로 추측된다. 그러나 생물학 연구실에서 얻어지는 결과가 환자에게 의료를 제공하는 실제 상황에서 도움이 되기에는 동떨어져 있어서, 의사/임상/환자의 관점에서 이러한 현실은 만족스럽지 않다.

특정 질병을 진단받은 환자를 치료할 때 의사는 동시 발병이 우연한 것인지 또는 그 질병이 다른 질병의 발병 가능성을 증가시키는지 알고 싶어할 수 있다. 따라서 질병 동시 발생에 대하여 확률값과 같은 숫자 형태로 답이 주어진다면 더욱 편리할 것이다. 현재 대부분의 질병 네트워크는 질병들 간의 토폴로지 지도만을 제공할 뿐 이러한 정보를 제공하지 못하고 있다.

이에, 본 발명이 이루고자 하는 기술적 과제는 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있는 방법을 구현하는 데 있다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 동반 발병 확률 제공 방법은, (a) 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및 (b) 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하는 것을 특징으로 한다.

상기 (b) 단계는, 상기 엣지에 해당하는 질병 간의 연관도를 이용하여 상기 확률을 산출할 수 있다.

상기 (b) 단계는, (b1) 상기 엣지에 해당하는 질병 간의 연관도를 이용하여, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출하는 단계; 및 (b2) 상기 산출된 스코어를 이용하여 상기 확률을 산출하는 단계를 포함할 수 있다.

상기 (b1) 단계는, (b11) 상기 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 상기 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정하는 단계; 및 (b12) 상기 레이블된 노드의 1 값 및 상기 언레이블된 노드의 0 값, 그리고 상기 엣지에 해당하는 연관도를 이용하여 상기 언레이블된 노드에 해당하는 상기 스코어를 산출하는 단계를 포함할 수 있다.

상기 (b12) 단계는, 다음 수학식의

를 최소화하는

를 구함으로써 상기 스코어를 산출할 수 있다.

여기서,

는 각 노드의 스코어를 성분으로 하는 벡터이고,

는 각 노드의 레이블된 1 값 및 설정된 0 값을 성분으로 하는 벡터이고,

는 트레이드 오프 파라미터이고,

은 그래프 라플라시안 행렬이다.

상기 (b2) 단계는, 다음 수학식을 이용하여 상기 확률을 산출할 수 있다.

여기서,

는 i 번째 노드에 해당하는 질병이 주어진 질병

에 동반하여 발병할 확률을 나타내고,

는 i 번째 노드의 산출된 스코어를 나타내고,

는 스케일 파라미터를 나타낸다.

여기서,

는 주어진 질병

에 동반하여

번째 질병과

번째 질병이 발병할 상대 확률을 나타내고,

는 i 번째 노드의 산출된 스코어를 나타내고,

는 j 번째 노드의 산출된 스코어를 나타내고,

는 스케일 파라미터를 나타낸다.

상기 기술적 과제를 해결하기 위하여 본 발명은 상기된 동반 발병 확률 제공 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

상기된 본 발명에 의하면, 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 동반 발병 확률 제공 방법의 흐름도를 나타낸다.
도 2는 질병 네트워크의 간단한 예를 보여준다.
도 3은 도 1의 상기 200단계를 보다 구체적으로 나타낸 흐름도이다.
도 4는 도 2의 질병 네트워크에서 제2형당뇨병이 걸린 질병으로 주어진 경우의 레이블 결과를 보여준다.
도 5는 본 발명의 실시예에 따라, 도 4와 같이 레이블된 질병 네트워크로부터 언레이블된 노드들에 대하여 스코어가 산출된 결과의 예를 보여준다.
도 6은 도 4와 같이 레이블된 질병 네트워크로부터 구해지는 스코어와 확률을 일반적으로 나타낸 도면이다.
도 7은 스코어

에 따른 확률

의 그래프를 나타낸다.
도 8은 본 발명의 실시예에 따라 산출된 질병들의 동반 발병 확률을 그래프 상에 표시한 예를 나타낸다.

이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.

본 발명의 실시예에서는, 하나 또는 몇 개의 질병이 주어질 때, 주어진 질병에 동반하여 다른 질병이 발병하는 정도를 수치화할 것이다. 본 명세서에서는 이러한 작업을 소위 '질병 스코어링'이라 칭하기로 한다. 예컨대 어떤 개인이 특정 질병에 걸렸다면, 질병 스코어링은 그가 다른 질병에 어느 정도로 노출되어 있는지에 관한 스코어 또는 확률값을 제공할 수 있다.

본 발명의 실시예에서는 질병 스코어링을 구현하기 위하여, 질병 네트워크를 이용하고 또한 그래프 기반의 준지도 학습(graph based semi-supervised learning) 이론을 채용하며, 이것을 질병 스코어링 문제에 적합하도록 변형한다.

준지도 학습(semi-supervised learning, SSL)은 레이블된 데이터(예측하고자하는 목표값이 알려진 데이터)가 약간 있고 언레이블된 데이터(예측하고자 하는 목표값이 알려지지 않은 데이터)가 많은 분야에서, 언레이블된 데이터를 가지고 분류기(classifier)를 뒷받침함으로써 분류 성능을 성공적으로 향상시키는 것으로 알려져 있다.

질병 스코어링 문제에서, 개인이 걸린 질병은 레이블된 데이터에 해당하고 그 외 다른 질병은 언레이블된 데이터에 해당한다고 하면, 준지도 학습은 질병 스코어링에 대한 효과적인 수단이 될 수 있다.

다만 일반적인 그래프 기반의 준지도 학습은 '분류(classification)'를 목적으로 하는데 반해, 질병 스코어링은 '스코어링'을 목적으로 하는 점에서 차이가 있다. 예컨대 이진 분류 문제에서 분류기에 주어지는 레이블은 이진(binary) 값(+1 또는 -1)이고, 예측 결과로서 언레이블된 데이터에 하나의 클래스(+1) 또는 다른 클래스(-1)가 부여된다. 반면에 스코어링 문제에서는, 스코어러(scorer)에 1진(unary) 값(1)이 레이블로 주어지고, 주어진 레이블에 대하여 예측 결과로서 언레이블된 데이터에 우선순위를 매기는 스코어가 구해져야 한다.

본 발명의 실시예에서는 위와 같은 질병 스코어링에 기반하여, 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있는 방법을 개시한다.

도 1은 본 발명의 일 실시예에 따른 동반 발병 확률 제공 방법의 흐름도를 나타낸다.

도 1을 참조하면, 100단계에서, 질병 네트워크를 입력받는다.

질병 네트워크는 기본적으로 노드들과 엣지들로 구성되는데, 각 질병이 노드로 표현되고 질병 간의 연관성이 해당 노드 간의 엣지로 표현된다.

도 2는 질병 네트워크의 간단한 예를 보여준다. 도 2를 참조하면, 제2형당뇨병(Diabetes Mellitus-type II), 과인슐린증(Hyperinsulinism), 대사증후군,(Metabolic Syndrome X), 단풍시럽뇨병(Maple Syrup Urine), 판코니 증후군(Fanconi Syndrome)이 노드로 표현되고, 엣지로 연결된 노드는 해당 두 질병이 연관성이 있음을 나타낸다. 예컨대 제2형당뇨병과 과인슐린증은 엣지로 연결되어 있는 바, 연관성이 있다.

질병 네트워크는 질병 간의 연관도 정보(가장 단순한 예로, 연결된 경우는 1, 연결되지 않은 경우는 0)를 주거나, 연관도를 얻기 위한 기초정보(예컨대, 엣지로 연결된 두 노드 간의 거리)를 줄 수 있다. 예컨대 질병 간의 연관도는 다음 수학식으로부터 얻어질 수 있다.

여기서,

,

는 노드를 나타내고,

는

와

간의 연관도를 나타내며, dist(ㅇ)는 두 노드 간의 거리(예컨대, 유클리디안 거리 또는 코사인 거리 등)를 나타내고,

는 스케일 파라미터를 나타내고,

는 두 노드가 엣지로 연결되어 있음을 나타낸다.

하나 또는 몇 개의 특정 질병(예컨대, 환자가 걸린 질병)이 주어지고, 질병 네트워크로부터 각 엣지에 해당하는 질병 간의 연관도가 얻어지면, 200단계에서는 질병 간의 연관도를 이용하여 주어진 질병 이외의 질병에 대하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.

도 3은 도 1의 상기 200단계를 보다 구체적으로 나타낸 흐름도이다. 본 발명의 실시예는 200단계에서, 질병 네트워크에서 엣지에 해당하는 질병 간의 연관도를 이용하여, 주어진 질병 이외의 질병에 대하여 해당 질병이 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출한 다음, 산출된 스코어를 이용하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.

도 3을 참조하면, 210단계에서, 질병 네트워크에서 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정한다.

그러면, 질병 네트워크는 연결된 그래프

(여기서,

는 노드들,

는 엣지들)로 표현할 수 있고, 레이블된 노드들의 집합과 해당 레이블 값은

로, 언레이블된 노드들의 집합은

로 나타낼 수 있다. 여기서,

번째에서

번째 노드들은 레이블된 노드들이고,

번째에서

번째 노드들은 언레이블된 노드들이며, 전체 노드들의 수는

이다. 레이블된

개의 노드들은 1진(unary)의 레이블

로 설정되고, 언레이블된

개의 노드들은 0

으로 설정된다.

이제, 질병 스코어링의 과제는 언레이블된 노드들

에 스코어들

를 부여하는 것이다. 여기서,

는

번째 노드의 스코어를 나타내고,

은

번째 노드의 스코어를 나타낸다.

도 4는 도 2의 질병 네트워크에서 제2형당뇨병(Diabetes Mellitus-type II)이 걸린 질병으로 주어진 경우의 레이블 결과를 보여준다. 도 4를 참조하면, 제2형당뇨병에 해당하는 노드는 1 값으로 레이블되고, 나머지의 언레이블된 노드들에는 0 값이 설정된다.

다시 도 3을 참조하면, 220단계에서, 레이블된 노드의 1 값, 언레이블된 노드의 0 값, 그리고 엣지에 해당하는 연관도를 이용하여 언레이블된 노드에 해당하는 스코어, 즉 언레이블된 노드에 해당하는 질병이 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출한다.

본 발명의 실시예에서는 위와 같은 스코어를 산출하기 위하여, i 번째 노드의 스코어를

라 하면, 레이블된 노드의 경우

는 주어진 레이블

에 가까워야 하고(loss condition), 인접한 노드

의

와

와 너무 다르지 않아야 한다(smoothness condition)는 가정을 할 수 있다. 그러면, 아래의 수학식

를 최소화하는

를 구하면 된다.

여기서,

는 각 노드의 스코어를 성분으로 하는 벡터이고,

는 각 노드의 레이블된 값(1) 및 설정된 값(0)을 성분으로 하는 벡터(즉,

)이고,

은 그래프 라플라시안 행렬이고,

는 loss condition(우변의 첫 번째 항에 해당)과 smoothness condition(우변의 두 번째 항에 해당)의 트레이드 오프 파라미터이다.

상기된 수학식 2로부터, 언레이블된 노드들에 해당하는 스코어를 성분으로 하는 벡터

는 다음 수학식과 같이 구해질 수 있다.

여기서,

는 단위행렬(Identity matrix)을,

은 레이블된 노드들의 레이블 값(1)을 성분으로 하는 벡터를 나타내고, 그래프 라플라시안 행렬

과,

,

은 다음 수학식 4 및 5에 의해 정의된다.

여기서, diag(ㅇ)는 대각행렬을 의미하고,

는 연관도 행렬을 나타낸다.

대각행렬

와 연관도 행렬

는 레이블된 노드와 언레이블된 노드로 블록화하여, 다음과 같이 block-wise representation으로 표현된다.

여기서,

은 '레이블된 노드로부터 레이블된 노드',

는 '언레이블된 노드로부터 레이블된 노드',

은 '레이블된 노드로부터 언레이블된 노드',

는 '언레이블된 노드로부터 언레이블된 노드'를 의미한다.

도 5는 본 발명의 실시예에 따라, 도 4와 같이 레이블된 질병 네트워크로부터 언레이블된 노드들에 대하여 스코어가 산출된 결과의 예를 보여준다. 도 5를 참조하면, 과인슐린증(Hyperinsulinism), 대사증후군,(Metabolic Syndrome X), 단풍시럽뇨병(Maple Syrup Urine) 및 판코니 증후군(Fanconi Syndrome) 각각의 스코어가, 0.85, 0.79, 0.74 및 0.65로 산출된 것으로 나타나 있다.

이제 230단계에서, 위와 같이 언레이블된 각 노드에 대하여 산출된 스코어를 이용하여, 각 노드에 대하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.

상기 확률은 다음 수학식을 이용하여 산출될 수 있다.

여기서,

는 i 번째 노드에 해당하는 질병이 주어진 질병

에 동반하여 발병할 확률을 나타내고,

는 i 번째 노드의 산출된 스코어를 나타내고,

는 스케일 파라미터를 나타낸다.

나아가 본 발명의 실시예에서는, 어떤 질병이 주어진 질병에 동반하여 발병할 확률 뿐만 아니라, 어떤 두 질병(언레이블된 노드에 해당하는 두 질병)이 주어진 질병에 동반하여 발병할 상대 확률(relative probability)을 구할 수 있다.

이러한 상대 확률은 다음 수학식을 이용하여 산출될 수 있다.

여기서,

는 주어진 질병

에 동반하여

번째 질병과

번째 질병이 발병할 상대 확률을 나타내고,

는 i 번째 노드의 산출된 스코어를 나타내고,

는 j 번째 노드의 산출된 스코어를 나타내고,

는 스케일 파라미터를 나타낸다. 예를 들어

의 값이 0.5보다 크다면, 질병

에 동반하여

번째 질병이

번째 질병보다 발병할 확률이 큼을 의미한다.

도 6은 도 4와 같이 레이블된 질병 네트워크로부터 구해지는 스코어와 확률을 일반적으로 나타낸 도면이다. 도 6에 도시된 바와 같이, 언레이블된 노드들(x₂, x₃, x₄, x₅)에 대하여 스코어(f₂, f₃, f₄, f₅) 및 확률(Prob(f₂), Prob(f₃), Prob(f₄), Prob(f₅))이 구해지고, 언레이블된 노드의 쌍들에 대하여 상대 확률이 구해질 수 있다.

도 7은 스코어

에 따른 확률

의 그래프를 나타낸다. 도 7을 참조하면, 0<

<1의

값에 대하여, 0<

<1의

값이 구해진다.

도 8은 제2형당뇨병(Diabetes Mellitus-type II)이 걸린 질병으로 주어질 때, 본 발명의 실시예에 따라 산출된 다른 질병들의 동반 발병 확률을 그래프 상에 표시한 예를 나타낸다. 도 8을 참조하면, 몇몇 질병들은 매우 높은 동반 발병 확률( > 0.97)을 보이는가 하면, 몇몇 질병들은 동반 발병 확률이 매우 낮은 것으로( < 0.02) 나타남을 확인할 수 있다.

나아가, 발명자는 본 발명의 실시예에 따라 구해진 확률값을 지금까지 발표되어 온 질병 관련 연구논문과 임상 연구자료를 바탕으로 문헌 데이터베이스에 대한 텍스트마이닝 기술을 이용하여 검증해 보았다. 검증 결과, 본 발명의 실시예에 따라 구해진 확률값은 질병 관련 연구논문과 임상 연구자료에 제시된 동반 발병에 관한 연구 또는 조사 내용과 상응함을 확인할 수 있었다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

(a) 컴퓨터가, 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및
(b) 상기 컴퓨터가, 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하고,
상기 (b) 단계는,
(b1) 상기 컴퓨터가, 상기 엣지에 해당하는 질병 간의 연관도를 이용하여, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출하는 단계; 및
(b2) 상기 컴퓨터가, 상기 산출된 스코어를 이용하여 상기 확률을 산출하는 단계를 포함하고,
상기 (b1) 단계는,
(b11) 상기 컴퓨터가, 상기 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 상기 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정하는 단계; 및
(b12) 상기 컴퓨터가, 상기 레이블된 노드의 1 값 및 상기 언레이블된 노드의 0 값, 그리고 상기 엣지에 해당하는 연관도를 이용하여 상기 언레이블된 노드에 해당하는 상기 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 동반 발병 확률 제공 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 (b12) 단계는,
다음 수학식의
를 최소화하는
를 구함으로써 상기 스코어를 산출하는 것을 특징으로 하는 동반 발병 확률 제공 방법.

여기서,
는 각 노드의 스코어를 성분으로 하는 벡터이고,
는 각 노드의 레이블된 1 값 및 설정된 0 값을 성분으로 하는 벡터이고,
는 트레이드 오프 파라미터이고,
은 그래프 라플라시안 행렬임.
제1항에 있어서,
상기 (b2) 단계는,
다음 수학식을 이용하여 상기 확률을 산출하는 것을 특징으로 하는 동반 발병 확률 제공 방법.

여기서,
는 i 번째 노드에 해당하는 질병이 주어진 질병
에 동반하여 발병할 확률을 나타내고,
는 i 번째 노드의 산출된 스코어를 나타내고,
는 스케일 파라미터를 나타냄.
제1항에 있어서,
상기 (b2) 단계는,
다음 수학식을 이용하여 상기 확률을 산출하는 것을 특징으로 하는 동반 발병 확률 제공 방법.

여기서,
는 주어진 질병
에 동반하여
번째 질병과
번째 질병이 발병할 상대 확률을 나타내고,
는 i 번째 노드의 산출된 스코어를 나타내고,
는 j 번째 노드의 산출된 스코어를 나타내고,
는 스케일 파라미터를 나타냄.
제1항, 제5항 내지 제7항 중 어느 한 항의 동반 발병 확률 제공 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.