KR101721528B1 - 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 - Google Patents
질병 네트워크로부터 동반 발병 확률을 제공하는 방법 Download PDFInfo
- Publication number
- KR101721528B1 KR101721528B1 KR1020150074908A KR20150074908A KR101721528B1 KR 101721528 B1 KR101721528 B1 KR 101721528B1 KR 1020150074908 A KR1020150074908 A KR 1020150074908A KR 20150074908 A KR20150074908 A KR 20150074908A KR 101721528 B1 KR101721528 B1 KR 101721528B1
- Authority
- KR
- South Korea
- Prior art keywords
- disease
- node
- probability
- score
- given
- Prior art date
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 162
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 description 7
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 5
- 201000008980 hyperinsulinism Diseases 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 241000208140 Acer Species 0.000 description 2
- 208000026019 Fanconi renotubular syndrome Diseases 0.000 description 2
- 201000006328 Fanconi syndrome Diseases 0.000 description 2
- 208000001145 Metabolic Syndrome Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 201000010390 abdominal obesity-metabolic syndrome 1 Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000011661 metabolic syndrome X Diseases 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 239000006188 syrup Substances 0.000 description 2
- 235000020357 syrup Nutrition 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 206010060378 Hyperinsulinaemia Diseases 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 208000037919 acquired disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003451 hyperinsulinaemic effect Effects 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G06F19/32—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Development Economics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
본 발명에 따른 동반 발병 확률 제공 방법은, (a) 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및 (b) 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하는 것을 특징으로 한다.
Description
본 발명은 인간 질병 네트워크에 관한 것으로, 보다 상세하게는 질병 네트워크로부터 동반 발병 확률을 제공하는 방법에 관한 것이다.
인간 질병 네트워크에서의 최근의 발전은 유전자형과 인간 질병의 표현형 간의 관계를 구축하는데 통찰을 제공해 왔다. 질병은 종종 근본적인 세포 기능에서 혼란을 유발하는 드문 돌연변이의 결과로 여겨진다. 그러나 질병은 다수의 세포 성분 사이의 복잡한 분자 연결 전체에 의해 영향을 받기 때문에, 질병을 오직 단일 유전자의 돌연변이로 정의하는 것은 충분하지 않다. 네트워크 생물학에서 개발된 일련의 성공적인 실험들은, 유전자 동시 발현 네트워크, 전사 조절, 단백질 상호작용, 대사경로 등과 같은 다양한 형태의 분자 연결을 포함하는 인간 질병 네트워크 분석의 진전에 도움을 주어 왔다.
인간 질병 네트워크에 대한 초기 연구로, 논문 [Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabㅱasi A-L: The human disease network. Proceedings of the National Academy of Sciences 2007, 104(21):8685-8690.]이 있다. 여기서는 질병들이 공유하는 유전자에 기초하여 질병의 연관을 발견하고자 하였다. 이 논문에 의하면, 대부분의 질병들은 몇 개의 클러스터로 분류되는데, 특히 암 클러스터는 다양한 형태의 암과 연관된 다수의 유전자들로 인하여 단단히 서로 연결되어 있다.
지금까지 이론적, 기술적 도구의 성장으로 인해 질병 네트워크에 대한 이해가 발전되어 왔으나, 이전 연구에서 개선되어야 할 여지가 있다. 질병 네트워크는 세포 레벨에서는 큰 역할을 할 준비가 되어 있지만 아직까지 의학적 연구나 실무에는 별다른 도움을 주지 못하고 있다. 질병 네트워크에 관한 대부분의 연구는 여전히 네트워크를 구성하기 위한 방법론을 개발하는데 제한되어 있는데, 이것은 아마도 질병 네트워크에 대한 연구는 대부분 순수하게 과학적 발견을 추구하는 생물학자들에 의해 이루어지기 때문으로 추측된다. 그러나 생물학 연구실에서 얻어지는 결과가 환자에게 의료를 제공하는 실제 상황에서 도움이 되기에는 동떨어져 있어서, 의사/임상/환자의 관점에서 이러한 현실은 만족스럽지 않다.
특정 질병을 진단받은 환자를 치료할 때 의사는 동시 발병이 우연한 것인지 또는 그 질병이 다른 질병의 발병 가능성을 증가시키는지 알고 싶어할 수 있다. 따라서 질병 동시 발생에 대하여 확률값과 같은 숫자 형태로 답이 주어진다면 더욱 편리할 것이다. 현재 대부분의 질병 네트워크는 질병들 간의 토폴로지 지도만을 제공할 뿐 이러한 정보를 제공하지 못하고 있다.
이에, 본 발명이 이루고자 하는 기술적 과제는 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있는 방법을 구현하는 데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 동반 발병 확률 제공 방법은, (a) 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및 (b) 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하는 것을 특징으로 한다.
상기 (b) 단계는, 상기 엣지에 해당하는 질병 간의 연관도를 이용하여 상기 확률을 산출할 수 있다.
상기 (b) 단계는, (b1) 상기 엣지에 해당하는 질병 간의 연관도를 이용하여, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출하는 단계; 및 (b2) 상기 산출된 스코어를 이용하여 상기 확률을 산출하는 단계를 포함할 수 있다.
상기 (b1) 단계는, (b11) 상기 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 상기 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정하는 단계; 및 (b12) 상기 레이블된 노드의 1 값 및 상기 언레이블된 노드의 0 값, 그리고 상기 엣지에 해당하는 연관도를 이용하여 상기 언레이블된 노드에 해당하는 상기 스코어를 산출하는 단계를 포함할 수 있다.
여기서, 는 각 노드의 스코어를 성분으로 하는 벡터이고, 는 각 노드의 레이블된 1 값 및 설정된 0 값을 성분으로 하는 벡터이고, 는 트레이드 오프 파라미터이고, 은 그래프 라플라시안 행렬이다.
상기 (b2) 단계는, 다음 수학식을 이용하여 상기 확률을 산출할 수 있다.
상기 (b2) 단계는, 다음 수학식을 이용하여 상기 확률을 산출할 수 있다.
여기서, 는 주어진 질병 에 동반하여 번째 질병과 번째 질병이 발병할 상대 확률을 나타내고, 는 i 번째 노드의 산출된 스코어를 나타내고, 는 j 번째 노드의 산출된 스코어를 나타내고, 는 스케일 파라미터를 나타낸다.
상기 기술적 과제를 해결하기 위하여 본 발명은 상기된 동반 발병 확률 제공 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기된 본 발명에 의하면, 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 동반 발병 확률 제공 방법의 흐름도를 나타낸다.
도 2는 질병 네트워크의 간단한 예를 보여준다.
도 3은 도 1의 상기 200단계를 보다 구체적으로 나타낸 흐름도이다.
도 4는 도 2의 질병 네트워크에서 제2형당뇨병이 걸린 질병으로 주어진 경우의 레이블 결과를 보여준다.
도 5는 본 발명의 실시예에 따라, 도 4와 같이 레이블된 질병 네트워크로부터 언레이블된 노드들에 대하여 스코어가 산출된 결과의 예를 보여준다.
도 6은 도 4와 같이 레이블된 질병 네트워크로부터 구해지는 스코어와 확률을 일반적으로 나타낸 도면이다.
도 7은 스코어 에 따른 확률 의 그래프를 나타낸다.
도 8은 본 발명의 실시예에 따라 산출된 질병들의 동반 발병 확률을 그래프 상에 표시한 예를 나타낸다.
도 2는 질병 네트워크의 간단한 예를 보여준다.
도 3은 도 1의 상기 200단계를 보다 구체적으로 나타낸 흐름도이다.
도 4는 도 2의 질병 네트워크에서 제2형당뇨병이 걸린 질병으로 주어진 경우의 레이블 결과를 보여준다.
도 5는 본 발명의 실시예에 따라, 도 4와 같이 레이블된 질병 네트워크로부터 언레이블된 노드들에 대하여 스코어가 산출된 결과의 예를 보여준다.
도 6은 도 4와 같이 레이블된 질병 네트워크로부터 구해지는 스코어와 확률을 일반적으로 나타낸 도면이다.
도 7은 스코어 에 따른 확률 의 그래프를 나타낸다.
도 8은 본 발명의 실시예에 따라 산출된 질병들의 동반 발병 확률을 그래프 상에 표시한 예를 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
본 발명의 실시예에서는, 하나 또는 몇 개의 질병이 주어질 때, 주어진 질병에 동반하여 다른 질병이 발병하는 정도를 수치화할 것이다. 본 명세서에서는 이러한 작업을 소위 '질병 스코어링'이라 칭하기로 한다. 예컨대 어떤 개인이 특정 질병에 걸렸다면, 질병 스코어링은 그가 다른 질병에 어느 정도로 노출되어 있는지에 관한 스코어 또는 확률값을 제공할 수 있다.
본 발명의 실시예에서는 질병 스코어링을 구현하기 위하여, 질병 네트워크를 이용하고 또한 그래프 기반의 준지도 학습(graph based semi-supervised learning) 이론을 채용하며, 이것을 질병 스코어링 문제에 적합하도록 변형한다.
준지도 학습(semi-supervised learning, SSL)은 레이블된 데이터(예측하고자하는 목표값이 알려진 데이터)가 약간 있고 언레이블된 데이터(예측하고자 하는 목표값이 알려지지 않은 데이터)가 많은 분야에서, 언레이블된 데이터를 가지고 분류기(classifier)를 뒷받침함으로써 분류 성능을 성공적으로 향상시키는 것으로 알려져 있다.
질병 스코어링 문제에서, 개인이 걸린 질병은 레이블된 데이터에 해당하고 그 외 다른 질병은 언레이블된 데이터에 해당한다고 하면, 준지도 학습은 질병 스코어링에 대한 효과적인 수단이 될 수 있다.
다만 일반적인 그래프 기반의 준지도 학습은 '분류(classification)'를 목적으로 하는데 반해, 질병 스코어링은 '스코어링'을 목적으로 하는 점에서 차이가 있다. 예컨대 이진 분류 문제에서 분류기에 주어지는 레이블은 이진(binary) 값(+1 또는 -1)이고, 예측 결과로서 언레이블된 데이터에 하나의 클래스(+1) 또는 다른 클래스(-1)가 부여된다. 반면에 스코어링 문제에서는, 스코어러(scorer)에 1진(unary) 값(1)이 레이블로 주어지고, 주어진 레이블에 대하여 예측 결과로서 언레이블된 데이터에 우선순위를 매기는 스코어가 구해져야 한다.
본 발명의 실시예에서는 위와 같은 질병 스코어링에 기반하여, 특정 질병이 주어졌을 때 질병 네트워크로부터 특정 질병에 동반하여 다른 질병이 발병할 확률을 제공할 수 있는 방법을 개시한다.
도 1은 본 발명의 일 실시예에 따른 동반 발병 확률 제공 방법의 흐름도를 나타낸다.
도 1을 참조하면, 100단계에서, 질병 네트워크를 입력받는다.
질병 네트워크는 기본적으로 노드들과 엣지들로 구성되는데, 각 질병이 노드로 표현되고 질병 간의 연관성이 해당 노드 간의 엣지로 표현된다.
도 2는 질병 네트워크의 간단한 예를 보여준다. 도 2를 참조하면, 제2형당뇨병(Diabetes Mellitus-type II), 과인슐린증(Hyperinsulinism), 대사증후군,(Metabolic Syndrome X), 단풍시럽뇨병(Maple Syrup Urine), 판코니 증후군(Fanconi Syndrome)이 노드로 표현되고, 엣지로 연결된 노드는 해당 두 질병이 연관성이 있음을 나타낸다. 예컨대 제2형당뇨병과 과인슐린증은 엣지로 연결되어 있는 바, 연관성이 있다.
질병 네트워크는 질병 간의 연관도 정보(가장 단순한 예로, 연결된 경우는 1, 연결되지 않은 경우는 0)를 주거나, 연관도를 얻기 위한 기초정보(예컨대, 엣지로 연결된 두 노드 간의 거리)를 줄 수 있다. 예컨대 질병 간의 연관도는 다음 수학식으로부터 얻어질 수 있다.
여기서, , 는 노드를 나타내고, 는 와 간의 연관도를 나타내며, dist(ㅇ)는 두 노드 간의 거리(예컨대, 유클리디안 거리 또는 코사인 거리 등)를 나타내고, 는 스케일 파라미터를 나타내고, 는 두 노드가 엣지로 연결되어 있음을 나타낸다.
하나 또는 몇 개의 특정 질병(예컨대, 환자가 걸린 질병)이 주어지고, 질병 네트워크로부터 각 엣지에 해당하는 질병 간의 연관도가 얻어지면, 200단계에서는 질병 간의 연관도를 이용하여 주어진 질병 이외의 질병에 대하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.
도 3은 도 1의 상기 200단계를 보다 구체적으로 나타낸 흐름도이다. 본 발명의 실시예는 200단계에서, 질병 네트워크에서 엣지에 해당하는 질병 간의 연관도를 이용하여, 주어진 질병 이외의 질병에 대하여 해당 질병이 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출한 다음, 산출된 스코어를 이용하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.
도 3을 참조하면, 210단계에서, 질병 네트워크에서 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정한다.
그러면, 질병 네트워크는 연결된 그래프 (여기서, 는 노드들, 는 엣지들)로 표현할 수 있고, 레이블된 노드들의 집합과 해당 레이블 값은 로, 언레이블된 노드들의 집합은 로 나타낼 수 있다. 여기서, 번째에서 번째 노드들은 레이블된 노드들이고, 번째에서 번째 노드들은 언레이블된 노드들이며, 전체 노드들의 수는 이다. 레이블된 개의 노드들은 1진(unary)의 레이블 로 설정되고, 언레이블된 개의 노드들은 0으로 설정된다.
도 4는 도 2의 질병 네트워크에서 제2형당뇨병(Diabetes Mellitus-type II)이 걸린 질병으로 주어진 경우의 레이블 결과를 보여준다. 도 4를 참조하면, 제2형당뇨병에 해당하는 노드는 1 값으로 레이블되고, 나머지의 언레이블된 노드들에는 0 값이 설정된다.
다시 도 3을 참조하면, 220단계에서, 레이블된 노드의 1 값, 언레이블된 노드의 0 값, 그리고 엣지에 해당하는 연관도를 이용하여 언레이블된 노드에 해당하는 스코어, 즉 언레이블된 노드에 해당하는 질병이 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출한다.
본 발명의 실시예에서는 위와 같은 스코어를 산출하기 위하여, i 번째 노드의 스코어를 라 하면, 레이블된 노드의 경우 는 주어진 레이블 에 가까워야 하고(loss condition), 인접한 노드의 와 와 너무 다르지 않아야 한다(smoothness condition)는 가정을 할 수 있다. 그러면, 아래의 수학식 를 최소화하는 를 구하면 된다.
여기서, 는 각 노드의 스코어를 성분으로 하는 벡터이고, 는 각 노드의 레이블된 값(1) 및 설정된 값(0)을 성분으로 하는 벡터(즉, )이고, 은 그래프 라플라시안 행렬이고, 는 loss condition(우변의 첫 번째 항에 해당)과 smoothness condition(우변의 두 번째 항에 해당)의 트레이드 오프 파라미터이다.
여기서, 는 단위행렬(Identity matrix)을, 은 레이블된 노드들의 레이블 값(1)을 성분으로 하는 벡터를 나타내고, 그래프 라플라시안 행렬 과, , , 은 다음 수학식 4 및 5에 의해 정의된다.
여기서, 은 '레이블된 노드로부터 레이블된 노드', 는 '언레이블된 노드로부터 레이블된 노드', 은 '레이블된 노드로부터 언레이블된 노드', 는 '언레이블된 노드로부터 언레이블된 노드'를 의미한다.
도 5는 본 발명의 실시예에 따라, 도 4와 같이 레이블된 질병 네트워크로부터 언레이블된 노드들에 대하여 스코어가 산출된 결과의 예를 보여준다. 도 5를 참조하면, 과인슐린증(Hyperinsulinism), 대사증후군,(Metabolic Syndrome X), 단풍시럽뇨병(Maple Syrup Urine) 및 판코니 증후군(Fanconi Syndrome) 각각의 스코어가, 0.85, 0.79, 0.74 및 0.65로 산출된 것으로 나타나 있다.
이제 230단계에서, 위와 같이 언레이블된 각 노드에 대하여 산출된 스코어를 이용하여, 각 노드에 대하여 해당 질병이 주어진 질병에 동반하여 발병할 확률을 산출한다.
상기 확률은 다음 수학식을 이용하여 산출될 수 있다.
나아가 본 발명의 실시예에서는, 어떤 질병이 주어진 질병에 동반하여 발병할 확률 뿐만 아니라, 어떤 두 질병(언레이블된 노드에 해당하는 두 질병)이 주어진 질병에 동반하여 발병할 상대 확률(relative probability)을 구할 수 있다.
이러한 상대 확률은 다음 수학식을 이용하여 산출될 수 있다.
여기서, 는 주어진 질병 에 동반하여 번째 질병과 번째 질병이 발병할 상대 확률을 나타내고, 는 i 번째 노드의 산출된 스코어를 나타내고, 는 j 번째 노드의 산출된 스코어를 나타내고, 는 스케일 파라미터를 나타낸다. 예를 들어 의 값이 0.5보다 크다면, 질병 에 동반하여 번째 질병이 번째 질병보다 발병할 확률이 큼을 의미한다.
도 6은 도 4와 같이 레이블된 질병 네트워크로부터 구해지는 스코어와 확률을 일반적으로 나타낸 도면이다. 도 6에 도시된 바와 같이, 언레이블된 노드들(x2, x3, x4, x5)에 대하여 스코어(f2, f3, f4, f5) 및 확률(Prob(f2), Prob(f3), Prob(f4), Prob(f5))이 구해지고, 언레이블된 노드의 쌍들에 대하여 상대 확률이 구해질 수 있다.
도 8은 제2형당뇨병(Diabetes Mellitus-type II)이 걸린 질병으로 주어질 때, 본 발명의 실시예에 따라 산출된 다른 질병들의 동반 발병 확률을 그래프 상에 표시한 예를 나타낸다. 도 8을 참조하면, 몇몇 질병들은 매우 높은 동반 발병 확률( > 0.97)을 보이는가 하면, 몇몇 질병들은 동반 발병 확률이 매우 낮은 것으로( < 0.02) 나타남을 확인할 수 있다.
나아가, 발명자는 본 발명의 실시예에 따라 구해진 확률값을 지금까지 발표되어 온 질병 관련 연구논문과 임상 연구자료를 바탕으로 문헌 데이터베이스에 대한 텍스트마이닝 기술을 이용하여 검증해 보았다. 검증 결과, 본 발명의 실시예에 따라 구해진 확률값은 질병 관련 연구논문과 임상 연구자료에 제시된 동반 발병에 관한 연구 또는 조사 내용과 상응함을 확인할 수 있었다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
Claims (8)
- (a) 컴퓨터가, 각 질병이 노드로 표현되고 질병 간의 연관성이 노드 간의 엣지로 표현되는 질병 네트워크를 입력받는 단계; 및
(b) 상기 컴퓨터가, 적어도 하나의 질병이 주어질 때, 상기 질병 네트워크로부터, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병할 확률을 산출하는 단계를 포함하고,
상기 (b) 단계는,
(b1) 상기 컴퓨터가, 상기 엣지에 해당하는 질병 간의 연관도를 이용하여, 상기 주어진 질병 이외의 질병에 대하여 해당 질병이 상기 주어진 질병에 동반하여 발병하는 정도를 나타내는 스코어를 산출하는 단계; 및
(b2) 상기 컴퓨터가, 상기 산출된 스코어를 이용하여 상기 확률을 산출하는 단계를 포함하고,
상기 (b1) 단계는,
(b11) 상기 컴퓨터가, 상기 주어진 질병에 해당하는 노드를 1 값으로 레이블(label)하고, 상기 레이블된 노드 이외의 노드인 언레이블된(unlabeled) 노드에 0 값을 설정하는 단계; 및
(b12) 상기 컴퓨터가, 상기 레이블된 노드의 1 값 및 상기 언레이블된 노드의 0 값, 그리고 상기 엣지에 해당하는 연관도를 이용하여 상기 언레이블된 노드에 해당하는 상기 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 동반 발병 확률 제공 방법. - 삭제
- 삭제
- 삭제
- 제1항, 제5항 내지 제7항 중 어느 한 항의 동반 발병 확률 제공 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150074908A KR101721528B1 (ko) | 2015-05-28 | 2015-05-28 | 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 |
US14/920,447 US10297349B2 (en) | 2015-05-28 | 2015-10-22 | Method for providing disease co-occurrence probability from disease network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150074908A KR101721528B1 (ko) | 2015-05-28 | 2015-05-28 | 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160141131A KR20160141131A (ko) | 2016-12-08 |
KR101721528B1 true KR101721528B1 (ko) | 2017-03-31 |
Family
ID=57398808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150074908A KR101721528B1 (ko) | 2015-05-28 | 2015-05-28 | 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10297349B2 (ko) |
KR (1) | KR101721528B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102450646B1 (ko) * | 2021-01-11 | 2022-10-06 | 주식회사 코스모스메딕 | 빅데이터 기반 딥러닝 모델을 이용한 응급실 환자 진단 시스템 및 방법 |
CN115662647B (zh) * | 2022-12-27 | 2024-03-12 | 北京大学第三医院(北京大学第三临床医学院) | 一种相似疾病挖掘的方法和应用 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5380197B2 (ja) | 2009-08-07 | 2014-01-08 | 株式会社エヌ・ティ・ティ・データ | 医療情報生成装置、医療情報生成方法およびプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007115095A2 (en) * | 2006-03-29 | 2007-10-11 | The Trustees Of Columbia University In The City Ofnew York | Systems and methods for using molecular networks in genetic linkage analysis of complex traits |
CN102859528A (zh) * | 2010-05-19 | 2013-01-02 | 加利福尼亚大学董事会 | 使用生物网络识别药物靶点的系统和方法 |
US20140207385A1 (en) * | 2011-08-26 | 2014-07-24 | Philip Morris Products Sa | Systems and methods for characterizing topological network perturbations |
JP6138793B2 (ja) * | 2011-09-09 | 2017-05-31 | フィリップ モリス プロダクツ エス アー | ネットワークに基づく生物学的活性評価のためのシステムおよび方法 |
KR101274144B1 (ko) * | 2011-09-29 | 2013-06-13 | 한국과학기술정보연구원 | 질병 연구를 위한 핵심 단백질 네트워크 추출 방법 및 장치 |
KR101843928B1 (ko) * | 2011-11-02 | 2018-04-02 | 삼성전자 주식회사 | 의료 검사 데이터 분석결과 표현 방법 및 장치 |
US20130116999A1 (en) * | 2011-11-04 | 2013-05-09 | The Regents Of The University Of Michigan | Patient-Specific Modeling and Forecasting of Disease Progression |
CN104704499B (zh) * | 2012-06-21 | 2018-12-11 | 菲利普莫里斯生产公司 | 与基于网络的生物标记签名相关的系统和方法 |
KR101462317B1 (ko) * | 2012-11-06 | 2014-11-20 | 한국 한의학 연구원 | 한의학 예후 모델을 생성하는 장치 및 그의 한의학 예후 모델 생성 방법 |
JP6397894B2 (ja) * | 2013-04-23 | 2018-09-26 | フィリップ モリス プロダクツ エス アー | 体系毒物学において機構的ネットワークモデルを用いるためのシステムおよび方法 |
-
2015
- 2015-05-28 KR KR1020150074908A patent/KR101721528B1/ko active IP Right Grant
- 2015-10-22 US US14/920,447 patent/US10297349B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5380197B2 (ja) | 2009-08-07 | 2014-01-08 | 株式会社エヌ・ティ・ティ・データ | 医療情報生成装置、医療情報生成方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20160141131A (ko) | 2016-12-08 |
US10297349B2 (en) | 2019-05-21 |
US20160350502A1 (en) | 2016-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis | |
Dann et al. | Differential abundance testing on single-cell data using k-nearest neighbor graphs | |
US11756652B2 (en) | Systems and methods for analyzing sequence data | |
Baker | De novo genome assembly: what every biologist should know | |
Schbath et al. | Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis | |
US11037684B2 (en) | Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity | |
BR112020026029A2 (pt) | filtragem de redes genéticas para descobrir populações de interesse | |
US11244761B2 (en) | Accelerated clinical biomarker prediction (ACBP) platform | |
Mayne et al. | Optimal sample size for calibrating DNA methylation age estimators | |
Yuan et al. | Fine-mapping across diverse ancestries drives the discovery of putative causal variants underlying human complex traits and diseases | |
Huang | Parapatric genetic introgression and phenotypic assimilation: testing conditions for introgression between Hercules beetles (Dynastes, Dynastinae) | |
Williams et al. | Conservation genomic analysis reveals ancient introgression and declining levels of genetic diversity in Madagascar’s hibernating dwarf lemurs | |
He et al. | Prioritizing individual genetic variants after kernel machine testing using variable selection | |
KR101721528B1 (ko) | 질병 네트워크로부터 동반 발병 확률을 제공하는 방법 | |
KR20190125840A (ko) | 질병 관련 유전자 순위정보 제공 방법 | |
Firneno Jr et al. | Delimitation despite discordance: Evaluating the species limits of a confounding species complex in the face of mitonuclear discordance | |
Wang et al. | scBGEDA: deep single-cell clustering analysis via a dual denoising autoencoder with bipartite graph ensemble clustering | |
Gusnanto et al. | Stratifying tumour subtypes based on copy number alteration profiles using next-generation sequence data | |
Dall’Olio et al. | BRAQUE: Bayesian reduction for amplified quantization in UMAP embedding | |
JP2023014025A (ja) | 方法、コンピュータプログラム、及びコンピュータシステム(文字列類似度決定) | |
Zhang et al. | Phylotranscriptomic analysis based on coalescence was less influenced by the evolving rates and the number of genes: a case study in Ericales | |
Lagergren et al. | Few-Shot Learning Enables Population-Scale Analysis of Leaf Traits in Populus trichocarpa | |
Miller et al. | Genomics‐informed conservation units reveal spatial variation in climate vulnerability in a migratory bird | |
Liu et al. | A tree‐based gene–environment interaction analysis with rare features | |
Korzhenkov | YAMB: metagenome binning using nonlinear dimensionality reduction and density-based clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20200302 Year of fee payment: 4 |