KR101721528B1 - 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 - Google Patents

질병 네트워크로부터 동반 발병 확률을 제공하는 방법 Download PDF

Info

Publication number
KR101721528B1
KR101721528B1 KR1020150074908A KR20150074908A KR101721528B1 KR 101721528 B1 KR101721528 B1 KR 101721528B1 KR 1020150074908 A KR1020150074908 A KR 1020150074908A KR 20150074908 A KR20150074908 A KR 20150074908A KR 101721528 B1 KR101721528 B1 KR 101721528B1
Authority
KR
South Korea
Prior art keywords
disease
node
probability
score
given
Prior art date
Application number
KR1020150074908A
Other languages
English (en)
Other versions
KR20160141131A (ko
Inventor
신현정
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020150074908A priority Critical patent/KR101721528B1/ko
Priority to US14/920,447 priority patent/US10297349B2/en
Publication of KR20160141131A publication Critical patent/KR20160141131A/ko
Application granted granted Critical
Publication of KR101721528B1 publication Critical patent/KR101721528B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • G06F19/32
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Development Economics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명에 따른 동반 발병 확률 제공 방법은, (a) 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및 (b) 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하는 것을 특징으로 한다.

Description

질병 네트워크로부터 동반 발병 확률을 제공하는 방법{Method for providing disease co-occurrence probability from disease network}
본 발명은 인간 질병 네트워크에 관한 것으로, 보다 상세하게는 질병 네트워크로부터 동반 발병 확률을 제공하는 방법에 관한 것이다.
인간 질병 네트워크에서의 최근의 발전은 유전자형과 인간 질병의 표현형 간의 관계를 구축하는데 통찰을 제공해 왔다. 질병은 종종 근본적인 세포 기능에서 혼란을 유발하는 드문 돌연변이의 결과로 여겨진다. 그러나 질병은 다수의 세포 성분 사이의 복잡한 분자 연결 전체에 의해 영향을 받기 때문에, 질병을 오직 단일 유전자의 돌연변이로 정의하는 것은 충분하지 않다. 네트워크 생물학에서 개발된 일련의 성공적인 실험들은, 유전자 동시 발현 네트워크, 전사 조절, 단백질 상호작용, 대사경로 등과 같은 다양한 형태의 분자 연결을 포함하는 인간 질병 네트워크 분석의 진전에 도움을 주어 왔다.
인간 질병 네트워크에 대한 초기 연구로, 논문 [Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabㅱasi A-L: The human disease network. Proceedings of the National Academy of Sciences 2007, 104(21):8685-8690.]이 있다. 여기서는 질병들이 공유하는 유전자에 기초하여 질병의 연관을 발견하고자 하였다. 이 논문에 의하면, 대부분의 질병들은 몇 개의 클러스터로 분류되는데, 특히 암 클러스터는 다양한 형태의 암과 연관된 다수의 유전자들로 인하여 단단히 서로 연결되어 있다.
지금까지 이론적, 기술적 도구의 성장으로 인해 질병 네트워크에 대한 이해가 발전되어 왔으나, 이전 연구에서 개선되어야 할 여지가 있다. 질병 네트워크는 세포 레벨에서는 큰 역할을 할 준비가 되어 있지만 아직까지 의학적 연구나 실무에는 별다른 도움을 주지 못하고 있다. 질병 네트워크에 관한 대부분의 연구는 여전히 네트워크를 구성하기 위한 방법론을 개발하는데 제한되어 있는데, 이것은 아마도 질병 네트워크에 대한 연구는 대부분 순수하게 과학적 발견을 추구하는 생물학자들에 의해 이루어지기 때문으로 추측된다. 그러나 생물학 연구실에서 얻어지는 결과가 환자에게 의료를 제공하는 실제 상황에서 도움이 되기에는 동떨어져 있어서, 의사/임상/환자의 관점에서 이러한 현실은 만족스럽지 않다.
특정 질병을 진단받은 환자를 치료할 때 의사는 동시 발병이 우연한 것인지 또는 그 질병이 다른 질병의 발병 가능성을 증가시키는지 알고 싶어할 수 있다. 따라서 질병 동시 발생에 대하여 확률값과 같은 숫자 형태로 답이 주어진다면 더욱 편리할 것이다. 현재 대부분의 질병 네트워크는 질병들 간의 토폴로지 지도만을 제공할 뿐 이러한 정보를 제공하지 못하고 있다.
이에, 본 발명이 이루고자 하는 기술적 과제는 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있는 방법을 구현하는 데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 동반 발병 확률 제공 방법은, (a) 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및 (b) 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하는 것을 특징으로 한다.
상기 (b) 단계는, 상기 엣지에 해당하는 질병 간의 연관도를 이용하여 상기 확률을 산출할 수 있다.
상기 (b) 단계는, (b1) 상기 엣지에 해당하는 질병 간의 연관도를 이용하여, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출하는 단계; 및 (b2) 상기 산출된 스코어를 이용하여 상기 확률을 산출하는 단계를 포함할 수 있다.
상기 (b1) 단계는, (b11) 상기 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 상기 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정하는 단계; 및 (b12) 상기 레이블된 노드의 1 값 및 상기 언레이블된 노드의 0 값, 그리고 상기 엣지에 해당하는 연관도를 이용하여 상기 언레이블된 노드에 해당하는 상기 스코어를 산출하는 단계를 포함할 수 있다.
상기 (b12) 단계는, 다음 수학식의
Figure 112015051431419-pat00001
를 최소화하는
Figure 112015051431419-pat00002
를 구함으로써 상기 스코어를 산출할 수 있다.
Figure 112015051431419-pat00003
여기서,
Figure 112015051431419-pat00004
는 각 노드의 스코어를 성분으로 하는 벡터이고,
Figure 112015051431419-pat00005
는 각 노드의 레이블된 1 값 및 설정된 0 값을 성분으로 하는 벡터이고,
Figure 112015051431419-pat00006
는 트레이드 오프 파라미터이고,
Figure 112015051431419-pat00007
은 그래프 라플라시안 행렬이다.
상기 (b2) 단계는, 다음 수학식을 이용하여 상기 확률을 산출할 수 있다.
Figure 112015051431419-pat00008
여기서,
Figure 112015051431419-pat00009
는 i 번째 노드에 해당하는 질병이 주어진 질병
Figure 112015051431419-pat00010
에 동반하여 발병할 확률을 나타내고,
Figure 112015051431419-pat00011
는 i 번째 노드의 산출된 스코어를 나타내고,
Figure 112015051431419-pat00012
는 스케일 파라미터를 나타낸다.
상기 (b2) 단계는, 다음 수학식을 이용하여 상기 확률을 산출할 수 있다.
Figure 112015051431419-pat00013
여기서,
Figure 112015051431419-pat00014
는 주어진 질병
Figure 112015051431419-pat00015
에 동반하여
Figure 112015051431419-pat00016
번째 질병과
Figure 112015051431419-pat00017
번째 질병이 발병할 상대 확률을 나타내고,
Figure 112015051431419-pat00018
는 i 번째 노드의 산출된 스코어를 나타내고,
Figure 112015051431419-pat00019
는 j 번째 노드의 산출된 스코어를 나타내고,
Figure 112015051431419-pat00020
는 스케일 파라미터를 나타낸다.
상기 기술적 과제를 해결하기 위하여 본 발명은 상기된 동반 발병 확률 제공 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기된 본 발명에 의하면, 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 동반 발병 확률 제공 방법의 흐름도를 나타낸다.
도 2는 질병 네트워크의 간단한 예를 보여준다.
도 3은 도 1의 상기 200단계를 보다 구체적으로 나타낸 흐름도이다.
도 4는 도 2의 질병 네트워크에서 제2형당뇨병이 걸린 질병으로 주어진 경우의 레이블 결과를 보여준다.
도 5는 본 발명의 실시예에 따라, 도 4와 같이 레이블된 질병 네트워크로부터 언레이블된 노드들에 대하여 스코어가 산출된 결과의 예를 보여준다.
도 6은 도 4와 같이 레이블된 질병 네트워크로부터 구해지는 스코어와 확률을 일반적으로 나타낸 도면이다.
도 7은 스코어
Figure 112015051431419-pat00021
에 따른 확률
Figure 112015051431419-pat00022
의 그래프를 나타낸다.
도 8은 본 발명의 실시예에 따라 산출된 질병들의 동반 발병 확률을 그래프 상에 표시한 예를 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
본 발명의 실시예에서는, 하나 또는 몇 개의 질병이 주어질 때, 주어진 질병에 동반하여 다른 질병이 발병하는 정도를 수치화할 것이다. 본 명세서에서는 이러한 작업을 소위 '질병 스코어링'이라 칭하기로 한다. 예컨대 어떤 개인이 특정 질병에 걸렸다면, 질병 스코어링은 그가 다른 질병에 어느 정도로 노출되어 있는지에 관한 스코어 또는 확률값을 제공할 수 있다.
본 발명의 실시예에서는 질병 스코어링을 구현하기 위하여, 질병 네트워크를 이용하고 또한 그래프 기반의 준지도 학습(graph based semi-supervised learning) 이론을 채용하며, 이것을 질병 스코어링 문제에 적합하도록 변형한다.
준지도 학습(semi-supervised learning, SSL)은 레이블된 데이터(예측하고자하는 목표값이 알려진 데이터)가 약간 있고 언레이블된 데이터(예측하고자 하는 목표값이 알려지지 않은 데이터)가 많은 분야에서, 언레이블된 데이터를 가지고 분류기(classifier)를 뒷받침함으로써 분류 성능을 성공적으로 향상시키는 것으로 알려져 있다.
질병 스코어링 문제에서, 개인이 걸린 질병은 레이블된 데이터에 해당하고 그 외 다른 질병은 언레이블된 데이터에 해당한다고 하면, 준지도 학습은 질병 스코어링에 대한 효과적인 수단이 될 수 있다.
다만 일반적인 그래프 기반의 준지도 학습은 '분류(classification)'를 목적으로 하는데 반해, 질병 스코어링은 '스코어링'을 목적으로 하는 점에서 차이가 있다. 예컨대 이진 분류 문제에서 분류기에 주어지는 레이블은 이진(binary) 값(+1 또는 -1)이고, 예측 결과로서 언레이블된 데이터에 하나의 클래스(+1) 또는 다른 클래스(-1)가 부여된다. 반면에 스코어링 문제에서는, 스코어러(scorer)에 1진(unary) 값(1)이 레이블로 주어지고, 주어진 레이블에 대하여 예측 결과로서 언레이블된 데이터에 우선순위를 매기는 스코어가 구해져야 한다.
본 발명의 실시예에서는 위와 같은 질병 스코어링에 기반하여, 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있는 방법을 개시한다.
도 1은 본 발명의 일 실시예에 따른 동반 발병 확률 제공 방법의 흐름도를 나타낸다.
도 1을 참조하면, 100단계에서, 질병 네트워크를 입력받는다.
질병 네트워크는 기본적으로 노드들과 엣지들로 구성되는데, 각 질병이 노드로 표현되고 질병 간의 연관성이 해당 노드 간의 엣지로 표현된다.
도 2는 질병 네트워크의 간단한 예를 보여준다. 도 2를 참조하면, 제2형당뇨병(Diabetes Mellitus-type II), 과인슐린증(Hyperinsulinism), 대사증후군,(Metabolic Syndrome X), 단풍시럽뇨병(Maple Syrup Urine), 판코니 증후군(Fanconi Syndrome)이 노드로 표현되고, 엣지로 연결된 노드는 해당 두 질병이 연관성이 있음을 나타낸다. 예컨대 제2형당뇨병과 과인슐린증은 엣지로 연결되어 있는 바, 연관성이 있다.
질병 네트워크는 질병 간의 연관도 정보(가장 단순한 예로, 연결된 경우는 1, 연결되지 않은 경우는 0)를 주거나, 연관도를 얻기 위한 기초정보(예컨대, 엣지로 연결된 두 노드 간의 거리)를 줄 수 있다. 예컨대 질병 간의 연관도는 다음 수학식으로부터 얻어질 수 있다.
Figure 112015051431419-pat00023
여기서,
Figure 112015051431419-pat00024
,
Figure 112015051431419-pat00025
는 노드를 나타내고,
Figure 112015051431419-pat00026
Figure 112015051431419-pat00027
Figure 112015051431419-pat00028
간의 연관도를 나타내며, dist(ㅇ)는 두 노드 간의 거리(예컨대, 유클리디안 거리 또는 코사인 거리 등)를 나타내고,
Figure 112015051431419-pat00029
는 스케일 파라미터를 나타내고,
Figure 112015051431419-pat00030
는 두 노드가 엣지로 연결되어 있음을 나타낸다.
하나 또는 몇 개의 특정 질병(예컨대, 환자가 걸린 질병)이 주어지고, 질병 네트워크로부터 각 엣지에 해당하는 질병 간의 연관도가 얻어지면, 200단계에서는 질병 간의 연관도를 이용하여 주어진 질병 이외의 질병에 대하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.
도 3은 도 1의 상기 200단계를 보다 구체적으로 나타낸 흐름도이다. 본 발명의 실시예는 200단계에서, 질병 네트워크에서 엣지에 해당하는 질병 간의 연관도를 이용하여, 주어진 질병 이외의 질병에 대하여 해당 질병이 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출한 다음, 산출된 스코어를 이용하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.
도 3을 참조하면, 210단계에서, 질병 네트워크에서 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정한다.
그러면, 질병 네트워크는 연결된 그래프
Figure 112015051431419-pat00031
(여기서,
Figure 112015051431419-pat00032
는 노드들,
Figure 112015051431419-pat00033
는 엣지들)로 표현할 수 있고, 레이블된 노드들의 집합과 해당 레이블 값은
Figure 112015051431419-pat00034
로, 언레이블된 노드들의 집합은
Figure 112015051431419-pat00035
로 나타낼 수 있다. 여기서,
Figure 112015051431419-pat00036
번째에서
Figure 112015051431419-pat00037
번째 노드들은 레이블된 노드들이고,
Figure 112015051431419-pat00038
번째에서
Figure 112015051431419-pat00039
번째 노드들은 언레이블된 노드들이며, 전체 노드들의 수는
Figure 112015051431419-pat00040
이다. 레이블된
Figure 112015051431419-pat00041
개의 노드들은 1진(unary)의 레이블
Figure 112015051431419-pat00042
로 설정되고, 언레이블된
Figure 112015051431419-pat00043
개의 노드들은 0
Figure 112015051431419-pat00044
으로 설정된다.
이제, 질병 스코어링의 과제는 언레이블된 노드들
Figure 112015051431419-pat00045
에 스코어들
Figure 112015051431419-pat00046
를 부여하는 것이다. 여기서,
Figure 112015051431419-pat00047
Figure 112015051431419-pat00048
번째 노드의 스코어를 나타내고,
Figure 112015051431419-pat00049
Figure 112015051431419-pat00050
번째 노드의 스코어를 나타낸다.
도 4는 도 2의 질병 네트워크에서 제2형당뇨병(Diabetes Mellitus-type II)이 걸린 질병으로 주어진 경우의 레이블 결과를 보여준다. 도 4를 참조하면, 제2형당뇨병에 해당하는 노드는 1 값으로 레이블되고, 나머지의 언레이블된 노드들에는 0 값이 설정된다.
다시 도 3을 참조하면, 220단계에서, 레이블된 노드의 1 값, 언레이블된 노드의 0 값, 그리고 엣지에 해당하는 연관도를 이용하여 언레이블된 노드에 해당하는 스코어, 즉 언레이블된 노드에 해당하는 질병이 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출한다.
본 발명의 실시예에서는 위와 같은 스코어를 산출하기 위하여, i 번째 노드의 스코어를
Figure 112015051431419-pat00051
라 하면, 레이블된 노드의 경우
Figure 112015051431419-pat00052
는 주어진 레이블
Figure 112015051431419-pat00053
에 가까워야 하고(loss condition), 인접한 노드
Figure 112015051431419-pat00054
Figure 112015051431419-pat00055
Figure 112015051431419-pat00056
와 너무 다르지 않아야 한다(smoothness condition)는 가정을 할 수 있다. 그러면, 아래의 수학식
Figure 112015051431419-pat00057
를 최소화하는
Figure 112015051431419-pat00058
를 구하면 된다.
Figure 112015051431419-pat00059
여기서,
Figure 112015051431419-pat00060
는 각 노드의 스코어를 성분으로 하는 벡터이고,
Figure 112015051431419-pat00061
는 각 노드의 레이블된 값(1) 및 설정된 값(0)을 성분으로 하는 벡터(즉,
Figure 112015051431419-pat00062
)이고,
Figure 112015051431419-pat00063
은 그래프 라플라시안 행렬이고,
Figure 112015051431419-pat00064
는 loss condition(우변의 첫 번째 항에 해당)과 smoothness condition(우변의 두 번째 항에 해당)의 트레이드 오프 파라미터이다.
상기된 수학식 2로부터, 언레이블된 노드들에 해당하는 스코어를 성분으로 하는 벡터
Figure 112015051431419-pat00065
는 다음 수학식과 같이 구해질 수 있다.
Figure 112015051431419-pat00066
여기서,
Figure 112015051431419-pat00067
는 단위행렬(Identity matrix)을,
Figure 112015051431419-pat00068
은 레이블된 노드들의 레이블 값(1)을 성분으로 하는 벡터를 나타내고, 그래프 라플라시안 행렬
Figure 112015051431419-pat00069
과,
Figure 112015051431419-pat00070
,
Figure 112015051431419-pat00071
,
Figure 112015051431419-pat00072
은 다음 수학식 4 및 5에 의해 정의된다.
Figure 112015051431419-pat00073
여기서, diag(ㅇ)는 대각행렬을 의미하고,
Figure 112015051431419-pat00074
는 연관도 행렬을 나타낸다.
대각행렬
Figure 112015051431419-pat00075
와 연관도 행렬
Figure 112015051431419-pat00076
는 레이블된 노드와 언레이블된 노드로 블록화하여, 다음과 같이 block-wise representation으로 표현된다.
Figure 112015051431419-pat00077
여기서,
Figure 112015051431419-pat00078
은 '레이블된 노드로부터 레이블된 노드',
Figure 112015051431419-pat00079
는 '언레이블된 노드로부터 레이블된 노드',
Figure 112015051431419-pat00080
은 '레이블된 노드로부터 언레이블된 노드',
Figure 112015051431419-pat00081
는 '언레이블된 노드로부터 언레이블된 노드'를 의미한다.
도 5는 본 발명의 실시예에 따라, 도 4와 같이 레이블된 질병 네트워크로부터 언레이블된 노드들에 대하여 스코어가 산출된 결과의 예를 보여준다. 도 5를 참조하면, 과인슐린증(Hyperinsulinism), 대사증후군,(Metabolic Syndrome X), 단풍시럽뇨병(Maple Syrup Urine) 및 판코니 증후군(Fanconi Syndrome) 각각의 스코어가, 0.85, 0.79, 0.74 및 0.65로 산출된 것으로 나타나 있다.
이제 230단계에서, 위와 같이 언레이블된 각 노드에 대하여 산출된 스코어를 이용하여, 각 노드에 대하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.
상기 확률은 다음 수학식을 이용하여 산출될 수 있다.
Figure 112015051431419-pat00082
여기서,
Figure 112015051431419-pat00083
는 i 번째 노드에 해당하는 질병이 주어진 질병
Figure 112015051431419-pat00084
에 동반하여 발병할 확률을 나타내고,
Figure 112015051431419-pat00085
는 i 번째 노드의 산출된 스코어를 나타내고,
Figure 112015051431419-pat00086
는 스케일 파라미터를 나타낸다.
나아가 본 발명의 실시예에서는, 어떤 질병이 주어진 질병에 동반하여 발병할 확률 뿐만 아니라, 어떤 두 질병(언레이블된 노드에 해당하는 두 질병)이 주어진 질병에 동반하여 발병할 상대 확률(relative probability)을 구할 수 있다.
이러한 상대 확률은 다음 수학식을 이용하여 산출될 수 있다.
Figure 112015051431419-pat00087
여기서,
Figure 112015051431419-pat00088
는 주어진 질병
Figure 112015051431419-pat00089
에 동반하여
Figure 112015051431419-pat00090
번째 질병과
Figure 112015051431419-pat00091
번째 질병이 발병할 상대 확률을 나타내고,
Figure 112015051431419-pat00092
는 i 번째 노드의 산출된 스코어를 나타내고,
Figure 112015051431419-pat00093
는 j 번째 노드의 산출된 스코어를 나타내고,
Figure 112015051431419-pat00094
는 스케일 파라미터를 나타낸다. 예를 들어
Figure 112015051431419-pat00095
의 값이 0.5보다 크다면, 질병
Figure 112015051431419-pat00096
에 동반하여
Figure 112015051431419-pat00097
번째 질병이
Figure 112015051431419-pat00098
번째 질병보다 발병할 확률이 큼을 의미한다.
도 6은 도 4와 같이 레이블된 질병 네트워크로부터 구해지는 스코어와 확률을 일반적으로 나타낸 도면이다. 도 6에 도시된 바와 같이, 언레이블된 노드들(x2, x3, x4, x5)에 대하여 스코어(f2, f3, f4, f5) 및 확률(Prob(f2), Prob(f3), Prob(f4), Prob(f5))이 구해지고, 언레이블된 노드의 쌍들에 대하여 상대 확률이 구해질 수 있다.
도 7은 스코어
Figure 112015051431419-pat00099
에 따른 확률
Figure 112015051431419-pat00100
의 그래프를 나타낸다. 도 7을 참조하면, 0<
Figure 112015051431419-pat00101
<1의
Figure 112015051431419-pat00102
값에 대하여, 0<
Figure 112015051431419-pat00103
<1의
Figure 112015051431419-pat00104
값이 구해진다.
도 8은 제2형당뇨병(Diabetes Mellitus-type II)이 걸린 질병으로 주어질 때, 본 발명의 실시예에 따라 산출된 다른 질병들의 동반 발병 확률을 그래프 상에 표시한 예를 나타낸다. 도 8을 참조하면, 몇몇 질병들은 매우 높은 동반 발병 확률( > 0.97)을 보이는가 하면, 몇몇 질병들은 동반 발병 확률이 매우 낮은 것으로( < 0.02) 나타남을 확인할 수 있다.
나아가, 발명자는 본 발명의 실시예에 따라 구해진 확률값을 지금까지 발표되어 온 질병 관련 연구논문과 임상 연구자료를 바탕으로 문헌 데이터베이스에 대한 텍스트마이닝 기술을 이용하여 검증해 보았다. 검증 결과, 본 발명의 실시예에 따라 구해진 확률값은 질병 관련 연구논문과 임상 연구자료에 제시된 동반 발병에 관한 연구 또는 조사 내용과 상응함을 확인할 수 있었다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (8)

  1. (a) 컴퓨터가, 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및
    (b) 상기 컴퓨터가, 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하고,
    상기 (b) 단계는,
    (b1) 상기 컴퓨터가, 상기 엣지에 해당하는 질병 간의 연관도를 이용하여, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출하는 단계; 및
    (b2) 상기 컴퓨터가, 상기 산출된 스코어를 이용하여 상기 확률을 산출하는 단계를 포함하고,
    상기 (b1) 단계는,
    (b11) 상기 컴퓨터가, 상기 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 상기 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정하는 단계; 및
    (b12) 상기 컴퓨터가, 상기 레이블된 노드의 1 값 및 상기 언레이블된 노드의 0 값, 그리고 상기 엣지에 해당하는 연관도를 이용하여 상기 언레이블된 노드에 해당하는 상기 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 동반 발병 확률 제공 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 (b12) 단계는,
    다음 수학식의
    Figure 112016108423548-pat00105
    를 최소화하는
    Figure 112016108423548-pat00106
    를 구함으로써 상기 스코어를 산출하는 것을 특징으로 하는 동반 발병 확률 제공 방법.
    Figure 112016108423548-pat00107

    여기서,
    Figure 112016108423548-pat00108
    는 각 노드의 스코어를 성분으로 하는 벡터이고,
    Figure 112016108423548-pat00109
    는 각 노드의 레이블된 1 값 및 설정된 0 값을 성분으로 하는 벡터이고,
    Figure 112016108423548-pat00110
    는 트레이드 오프 파라미터이고,
    Figure 112016108423548-pat00111
    은 그래프 라플라시안 행렬임.
  6. 제1항에 있어서,
    상기 (b2) 단계는,
    다음 수학식을 이용하여 상기 확률을 산출하는 것을 특징으로 하는 동반 발병 확률 제공 방법.
    Figure 112016108423548-pat00112

    여기서,
    Figure 112016108423548-pat00113
    는 i 번째 노드에 해당하는 질병이 주어진 질병
    Figure 112016108423548-pat00114
    에 동반하여 발병할 확률을 나타내고,
    Figure 112016108423548-pat00115
    는 i 번째 노드의 산출된 스코어를 나타내고,
    Figure 112016108423548-pat00116
    는 스케일 파라미터를 나타냄.
  7. 제1항에 있어서,
    상기 (b2) 단계는,
    다음 수학식을 이용하여 상기 확률을 산출하는 것을 특징으로 하는 동반 발병 확률 제공 방법.
    Figure 112016108423548-pat00117

    여기서,
    Figure 112016108423548-pat00118
    는 주어진 질병
    Figure 112016108423548-pat00119
    에 동반하여
    Figure 112016108423548-pat00120
    번째 질병과
    Figure 112016108423548-pat00121
    번째 질병이 발병할 상대 확률을 나타내고,
    Figure 112016108423548-pat00122
    는 i 번째 노드의 산출된 스코어를 나타내고,
    Figure 112016108423548-pat00123
    는 j 번째 노드의 산출된 스코어를 나타내고,
    Figure 112016108423548-pat00124
    는 스케일 파라미터를 나타냄.
  8. 제1항, 제5항 내지 제7항 중 어느 한 항의 동반 발병 확률 제공 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020150074908A 2015-05-28 2015-05-28 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 KR101721528B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150074908A KR101721528B1 (ko) 2015-05-28 2015-05-28 질병 네트워크로부터 동반 발병 확률을 제공하는 방법
US14/920,447 US10297349B2 (en) 2015-05-28 2015-10-22 Method for providing disease co-occurrence probability from disease network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150074908A KR101721528B1 (ko) 2015-05-28 2015-05-28 질병 네트워크로부터 동반 발병 확률을 제공하는 방법

Publications (2)

Publication Number Publication Date
KR20160141131A KR20160141131A (ko) 2016-12-08
KR101721528B1 true KR101721528B1 (ko) 2017-03-31

Family

ID=57398808

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150074908A KR101721528B1 (ko) 2015-05-28 2015-05-28 질병 네트워크로부터 동반 발병 확률을 제공하는 방법

Country Status (2)

Country Link
US (1) US10297349B2 (ko)
KR (1) KR101721528B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102450646B1 (ko) * 2021-01-11 2022-10-06 주식회사 코스모스메딕 빅데이터 기반 딥러닝 모델을 이용한 응급실 환자 진단 시스템 및 방법
CN115662647B (zh) * 2022-12-27 2024-03-12 北京大学第三医院(北京大学第三临床医学院) 一种相似疾病挖掘的方法和应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5380197B2 (ja) 2009-08-07 2014-01-08 株式会社エヌ・ティ・ティ・データ 医療情報生成装置、医療情報生成方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007115095A2 (en) * 2006-03-29 2007-10-11 The Trustees Of Columbia University In The City Ofnew York Systems and methods for using molecular networks in genetic linkage analysis of complex traits
CN102859528A (zh) * 2010-05-19 2013-01-02 加利福尼亚大学董事会 使用生物网络识别药物靶点的系统和方法
US20140207385A1 (en) * 2011-08-26 2014-07-24 Philip Morris Products Sa Systems and methods for characterizing topological network perturbations
JP6138793B2 (ja) * 2011-09-09 2017-05-31 フィリップ モリス プロダクツ エス アー ネットワークに基づく生物学的活性評価のためのシステムおよび方法
KR101274144B1 (ko) * 2011-09-29 2013-06-13 한국과학기술정보연구원 질병 연구를 위한 핵심 단백질 네트워크 추출 방법 및 장치
KR101843928B1 (ko) * 2011-11-02 2018-04-02 삼성전자 주식회사 의료 검사 데이터 분석결과 표현 방법 및 장치
US20130116999A1 (en) * 2011-11-04 2013-05-09 The Regents Of The University Of Michigan Patient-Specific Modeling and Forecasting of Disease Progression
CN104704499B (zh) * 2012-06-21 2018-12-11 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的系统和方法
KR101462317B1 (ko) * 2012-11-06 2014-11-20 한국 한의학 연구원 한의학 예후 모델을 생성하는 장치 및 그의 한의학 예후 모델 생성 방법
JP6397894B2 (ja) * 2013-04-23 2018-09-26 フィリップ モリス プロダクツ エス アー 体系毒物学において機構的ネットワークモデルを用いるためのシステムおよび方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5380197B2 (ja) 2009-08-07 2014-01-08 株式会社エヌ・ティ・ティ・データ 医療情報生成装置、医療情報生成方法およびプログラム

Also Published As

Publication number Publication date
KR20160141131A (ko) 2016-12-08
US10297349B2 (en) 2019-05-21
US20160350502A1 (en) 2016-12-01

Similar Documents

Publication Publication Date Title
Hu et al. Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis
Dann et al. Differential abundance testing on single-cell data using k-nearest neighbor graphs
US11756652B2 (en) Systems and methods for analyzing sequence data
Baker De novo genome assembly: what every biologist should know
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
US11037684B2 (en) Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity
BR112020026029A2 (pt) filtragem de redes genéticas para descobrir populações de interesse
US11244761B2 (en) Accelerated clinical biomarker prediction (ACBP) platform
Mayne et al. Optimal sample size for calibrating DNA methylation age estimators
Yuan et al. Fine-mapping across diverse ancestries drives the discovery of putative causal variants underlying human complex traits and diseases
Huang Parapatric genetic introgression and phenotypic assimilation: testing conditions for introgression between Hercules beetles (Dynastes, Dynastinae)
Williams et al. Conservation genomic analysis reveals ancient introgression and declining levels of genetic diversity in Madagascar’s hibernating dwarf lemurs
He et al. Prioritizing individual genetic variants after kernel machine testing using variable selection
KR101721528B1 (ko) 질병 네트워크로부터 동반 발병 확률을 제공하는 방법
KR20190125840A (ko) 질병 관련 유전자 순위정보 제공 방법
Firneno Jr et al. Delimitation despite discordance: Evaluating the species limits of a confounding species complex in the face of mitonuclear discordance
Wang et al. scBGEDA: deep single-cell clustering analysis via a dual denoising autoencoder with bipartite graph ensemble clustering
Gusnanto et al. Stratifying tumour subtypes based on copy number alteration profiles using next-generation sequence data
Dall’Olio et al. BRAQUE: Bayesian reduction for amplified quantization in UMAP embedding
JP2023014025A (ja) 方法、コンピュータプログラム、及びコンピュータシステム(文字列類似度決定)
Zhang et al. Phylotranscriptomic analysis based on coalescence was less influenced by the evolving rates and the number of genes: a case study in Ericales
Lagergren et al. Few-Shot Learning Enables Population-Scale Analysis of Leaf Traits in Populus trichocarpa
Miller et al. Genomics‐informed conservation units reveal spatial variation in climate vulnerability in a migratory bird
Liu et al. A tree‐based gene–environment interaction analysis with rare features
Korzhenkov YAMB: metagenome binning using nonlinear dimensionality reduction and density-based clustering

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200302

Year of fee payment: 4